В данном репозитории лежит Jupyter-ноутбук, в котором описан процесс хеширования персональных данных покупателей, чтобы их можно было передать третьей стороне без раскрытия исходных данных.
Склонируйте репозиторий, установите зависимости в виртуальное окружение и запустите сервер Jupyter.
Если у вас уже установлен Python, и вы работали с pip, переходите к командам для запуска.
Если вы не знаете, что такое pip, не знаете, как им пользоваться, ни разу не устанавливали Python, или у вас Windows, советую использовать miniconda.
git clone https://github.com/gorskii/excel-hashing-notebook.git cd excel-hashing-notebook python -m venv venv source venv/bin/activate python -m pip install -U pip pip install -r requirements.txt jupyter notebook Загрузите и установите miniconda — это удобный компактный дистрибутив Anaconda, включающий в себя conda, Python и немного дополнительных утилит. conda — это просто менеджер пакетов. С его помощью можно устанавливать и удалять библиотеки, вроде pandas или jupyter. Инструкции для старта доступны по ссылке.
Если вы используете Windows, после установки вы найдёте в меню «Пуск» ярлык с названием Anaconda Prompt (miniconda3). Запустите его — откроется терминал с командной оболочкой Anaconda.
Создайте виртуальное окружение с именем hashing или любым другим именем и установите пакеты pandas, notebook, openpyxl:
conda create --name hashing pandas notebook openpyxl Это то же самое, что сначала создать виртуальное окружение командой conda create, активировать его командой и затем установить нужные пакеты командой conda install:
conda create --name hashing conda activate hashing conda install pandas notebook openpyxl Посмотреть список существующих виртуальных окружений:
conda info --envs Соответственно, для повторного запуска ноутбуков в дальнейшем, не нужно заново всё устанавливать.
Нужно склонировать репозиторий с ноутбуком, перейти в каталог с ноутбуком, активировать виртуальное окружение, запустить сервер Jupyter:
git clone https://github.com/gorskii/excel-hashing-notebook.git cd excel-hashing-notebook conda activate hashing jupyter notebook В открывшемся окне браузера запустите файл hash_customers.ipynb.
Можно экспериментировать с ноутбуком и даже стать дата-сайентистом, если разобраться и увлечься!
Документацию по установке и работе с Jupyter можно найти здесь в соответствующих разделах.
Туториал по Pandas. Взгляд с точки зрения пользователя Excel.
Ссылка на исходную статью на Medium об эффективном способе хеширования, решение из которой легло в основу этого ноутбука. Автор статьи — Heang Yuthakarn Arngmaneekul.
hashlib — набор инструментов для хэширования из стандартной библиотеки Python.
openpyxl — библиотека, с помощью которой pandas может работать с Excel-файлами.