вторник, 21 февраля 2017 г.

Анонимизация и большие данные: Является ли анонимизация иллюзией?


Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 9 февраля 2017 года на блоге компании Formtek.

Анонимизация данных представляет собой метод удаления персональных данных из набора данных с целью защиты частной жизни физического лица или компании, от которых эти данные были получены. Иногда её ещё называют «обфускацией данных» (data obfuscation – меры, мешающие понять смысл данных – Н.Х.). Мо мере расширения использования аналитики данных и технологий «больших данных», использование анонимизированных (обезличенных) наборов данных стало популярным.

Аналитик фирмы Gartner Рамон Криккен (Ramon Krikken) отмечает (см. http://searchcompliance.techtarget.com/feature/High-dimensional-info-complicates-data-anonymization-techniques ), что «методы анонимизации данных позволяют организациям модифицировать данные таким образом, что в рамках набора данных конфиденциальность соответствующих физических лиц оказывается защищенной хотя бы в какой-то степени».

Научный сотрудник Медиа-лаборатории Массачусетского технологического института (Massachusetts Institute of Technology, MIT) Ив-Александр де Монжуа (Yves-Alexandre de Montjoye) и интервью сайту SearchCompliance ( http://searchcompliance.techtarget.com/feature/High-dimensional-info-complicates-data-anonymization-techniques ) сказал, что «анонимизация данных представляет собой двухэтапный процесс, включающий псевдонимизацию (pseudonymization) и деидентификацию (de-identification). Чтобы данный подход заработал, идея заключается в том, чтобы взять конфиденциальные данные (скажем, сведения об оказании услуг мобильной связи или медицинские данные) и удалить любую информацию, которая может позволить восстановить их связь с конкретным человеком. После этого данные могут быть использованы, например, в научных исследованиях, не ставя под угрозу неприкосновенность частной жизни людей».

Но не все согласны с тем, что полная анонимизация возможна. Пит Уорден (Pete Warden), пишущий для компании O'Reilly, считает (см. https://www.oreilly.com/ideas/anonymize-data-limits ), что «анонимизация - это иллюзия. Как раз потому, что в настоящее время существует очень много различных государственных наборов данных, с которыми данные можно сопоставить, для любого набора записей, содержащих нетривиальный объём информации о чьих-то действиях, с хорошей вероятностью может быть установлена связь с государственными данными, идентифицирующими человека.

Профессор права Пол Ом (Paul Ohm) считает (см. http://www.uclalawreview.org/pdf/57-6-3.pdf ), что «данные могут быть либо полезными, либо или совершенно анонимными, но никогда и теми и другими одновременно ... Научные методы повторной идентификации (реидентификации) подрывают всю систему защиты персональных данных, убивая нашу доверие к  анонимизации. Это немаленький вопрос, поскольку специалисты в области технологий полагаются на это доверие в целях оправдания обмен данными без особого разбора и их постоянного хранения, все время обещая своим пользователям (и всему миру), что они защищают неприкосновенность частной жизни. Достижения в области реидентификации выставляют эти обещания как во многих случаях иллюзорные».

Дик Вейсингер (Dick Weisinger)

Мой комментарий: Тем временем в Евросоюзе вскоре вступит в силу новое, более жёсткое законодательство прямого действия о защите персональных данных, а Россия резко повысила размеры штрафов за нарушения при обработке персональных данных…

Источник: блог компании Formtek
http://formtek.com/blog/big-data-and-data-anonymization-is-anonymization-an-illusion/

Комментариев нет:

Отправить комментарий