Skip to content

gorskii/excel-hashing-notebook

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Хеширование персональных данных в таблице Excel

В данном репозитории лежит Jupyter-ноутбук, в котором описан процесс хеширования персональных данных покупателей, чтобы их можно было передать третьей стороне без раскрытия исходных данных.

Запуск

Склонируйте репозиторий, установите зависимости в виртуальное окружение и запустите сервер Jupyter.

Инструкции

Если у вас уже установлен Python, и вы работали с pip, переходите к командам для запуска.

Если вы не знаете, что такое pip, не знаете, как им пользоваться, ни разу не устанавливали Python, или у вас Windows, советую использовать miniconda.

pip

git clone https://github.com/gorskii/excel-hashing-notebook.git cd excel-hashing-notebook python -m venv venv source venv/bin/activate python -m pip install -U pip pip install -r requirements.txt jupyter notebook 

conda

Загрузите и установите miniconda — это удобный компактный дистрибутив Anaconda, включающий в себя conda, Python и немного дополнительных утилит. conda — это просто менеджер пакетов. С его помощью можно устанавливать и удалять библиотеки, вроде pandas или jupyter. Инструкции для старта доступны по ссылке.

Если вы используете Windows, после установки вы найдёте в меню «Пуск» ярлык с названием Anaconda Prompt (miniconda3). Запустите его — откроется терминал с командной оболочкой Anaconda.

Создайте виртуальное окружение с именем hashing или любым другим именем и установите пакеты pandas, notebook, openpyxl:

conda create --name hashing pandas notebook openpyxl 

Это то же самое, что сначала создать виртуальное окружение командой conda create, активировать его командой и затем установить нужные пакеты командой conda install:

conda create --name hashing conda activate hashing conda install pandas notebook openpyxl 

Посмотреть список существующих виртуальных окружений:

conda info --envs 

Соответственно, для повторного запуска ноутбуков в дальнейшем, не нужно заново всё устанавливать.

Нужно склонировать репозиторий с ноутбуком, перейти в каталог с ноутбуком, активировать виртуальное окружение, запустить сервер Jupyter:

git clone https://github.com/gorskii/excel-hashing-notebook.git cd excel-hashing-notebook conda activate hashing jupyter notebook 

В открывшемся окне браузера запустите файл hash_customers.ipynb.

Можно экспериментировать с ноутбуком и даже стать дата-сайентистом, если разобраться и увлечься!

Ссылки

Документацию по установке и работе с Jupyter можно найти здесь в соответствующих разделах.

Туториал по Pandas. Взгляд с точки зрения пользователя Excel.

Ссылка на исходную статью на Medium об эффективном способе хеширования, решение из которой легло в основу этого ноутбука. Автор статьи — Heang Yuthakarn Arngmaneekul.

hashlib — набор инструментов для хэширования из стандартной библиотеки Python.

openpyxl — библиотека, с помощью которой pandas может работать с Excel-файлами.

About

Hash data stored in Excel spreadsheet using pandas and Python's hashlib library

Topics

Resources

License

Stars

Watchers

Forks