среда, 14 августа 2019 г.

Британские учёные предупреждают, что анонимные данные могут быть «деанонимизированы», и могут быть раскрыты реальные личности людей


Данная заметка Дева Кундалия (Dev Kundaliya) была опубликована 25 июля 2019 года на британском сайте Computing («Компьютерные вычисления», https://www.computing.co.uk/ ).

Мой комментарий: Британские учёные нередко открывают общеизвестные вещи. В данном случае, однако, о такой общеизвестной вещи невредно лишний раз напомнить :)

Разработанный в Имперском колледже Лондона (Imperial College – один из наиболее авторитетных британских вузов, о нём см. также https://ru.wikipedia.org/wiki/Имперский_колледж_Лондона ) алгоритм машинного обучения способен идентифицировать 99,98% людей в любом анонимизированном наборе данных.


Исследователи разработали алгоритм, который может правильно определять реальные личности людей в анонимизированных наборах данных, используя всего 15 демографических атрибутов.

Исследование, проведенное учеными из Имперского колледжа Лондона и бельгийского Католического университетом Лувена (l'Université Catholique de Louvain, UCLouvain) показывает, что современные методы анонимизации данных не способны защитить сложные наборы персональных данных от повторной идентификации.

Новое исследование, опубликованное в журнале Nature Communications ( https://www.nature.com/articles/s41467-019-10933-3 ) показывает, что алгоритмы машинного обучения способны легко обрабатывать анонимные данные с целью повторной идентификации людей с высокой степенью точности.

По словам исследователей, созданный ими новый инструмент может повторно идентифицировать 99,98% американцев в любом доступном анонимизированном наборе данных, используя лишь 15 атрибутов, включая пол, возраст и семейное положение.

«Хотя в городе Нью-Йорке может быть много жителей тридцатилетнего возраста, гораздо меньше их число родилось 5 января, ездит на красной спортивной машине и живёт вместе с двумя детьми (обе девочки) и собакой», - пояснил соавтор исследования доктор Люк Роше из университета UCLouvain ( https://www.imperial.ac.uk/news/192112/anonymising-personal-data-enough-protect-privacy/ ).

Такие детали дают возможность покупателям предположительно анонимных данных создавать подробные личные профили физических лиц.

Д-р Ив-Александр де Монжуа (Dr Yves-Alexandre de Montjoye), представляющий факультет вычислительной техники и Институт наук о данных Имперского колледжа отметил, что в то время, как персональные данные подпадают под положения европейского законодательства о защите персональных данных (GDPR), в случае анонимизации они могут быть проданы любому желающему.

«Несмотря на то, что они [компании] обязаны соблюдать положения GDPR, они могут свободно продавать после того, как те будут анонимизированы. Наше исследование показывает, насколько легко - и насколько точно - людей можно отследить, получив в руки такие данные.»

«Компании и государственные органы преуменьшают риск повторной идентификации, утверждая, что продаваемые ими наборы данных всегда неполны. Наши результаты показывают, что это может не помочь.»

«Результаты демонстрируют, что злоумышленник может легко и точно оценить вероятность того, что найденная запись в базе данных касается интересующего его лица.».

Профессор Жюльен Хендрикс (Julien Hendrickx) из UCLouvain добавляет: «Нас часто уверяют, что анонимизация обеспечит безопасность наших персональных данных. Наша работа показывает, что де-идентификация далеко не достаточна для защиты персональных данных людей».

Исследователи также опубликовали онлайн-инструмент, чтобы «помочь людям увидеть, какие характеристики делают их уникальными в наборах данных» ( https://cpg.doc.ic.ac.uk/individual-risk/ ). Этот инструмент предназначен только для демонстрации и не сохраняет данные пользователей.

В последние годы практика использования крупными технологическими компаниями пользовательских данных привлекла к себе пристальное внимание общественности и регуляторов в области защиты персональных данных. Ранее в этом году участники кампании в поддержку неприкосновенности частной жизни заявили, что нашли новые доказательства того, что интернет-гигант Google не соблюдает европейское законодательство GDPR защите персональных данных ( https://www.computing.co.uk/ctg/news/3070005/privacy-campaigners-file-new-evidence-to-support-claims-that-google-unlawfully-profiles-internet-users ).

А в мае 2019 года адвокат компании Facebook заявил судье американского суда, что пользователям Facebook не следует ожидать обеспечения неприкосновенности их частной жизни, поскольку её нет ни на одной платформе социальных сетей ( https://www.computing.co.uk/ctg/news/3076621/facebook-lawyer-privacy-social-media ). Компанию также обвинили в разглашении данных о смартфонах пользователей телекоммуникационным компаниям и производителям смартфонов ( https://www.computing.co.uk/ctg/news/3076094/facebook-instagram-messenger-app-data-telecoms-advertising ).

Медицинские и технологические компании часто собирают пользовательские данные, включая сведения из документов о здоровье, и преобразуют их в, как считается, анонимные данные.

В этих наборах нет такой идентифицирующей информации, как имена, идентификаторы электронной почты, номера телефонов и т.д. Эти данные удаляются для того, чтобы гарантировать, - по крайней мере, теоретически, - что никто не может идентифицировать человека, к которому данные относятся.

На такие анонимизированные данные больше не распространяются положения законодательства о защите персональных данных, такого, как закон GDPR, и они могут свободно предоставляться брокерам данных и рекламным фирмам.

Дев Кундалия (Dev Kundaliya)

Источник: сайт Computing.co.uk
https://www.computing.co.uk/ctg/news/3079528/machine-learning-anonymised-data 

Комментариев нет:

Отправить комментарий