пятница, 26 июня 2026 г.

Умерла ли деидентификация данных? - Почему связанный с ИИ риск для защиты ПДн заключается не в том, чему ИИ обучается, а в том, что способен выяснить

Данная заметка канадского профессора права Майкла Гейста (Michael Geist – на фото) была опубликована на его блоге 21 апреля 2026 года.

В 1997 году аспирантка Массачусетского технологического института (MIT) Латанья Суини (Latanya Sweeney) потрясла сообщество специалистов по защите персональных данных (ПДн), сопоставив общедоступные списки избирателей с очищенными от имён и адресов больничными документами, с целью идентифицировать анонимизированную историю болезни тогдашнего губернатора Массачусетса ( https://dataprivacylab.org/projects/identifiability/ ). Три года спустя, развивая полученные результаты, она продемонстрировав, что 87% населения США можно однозначно идентифицировать, используя всего три параметра: почтовый индекс, дату рождения и пол ( https://dataprivacylab.org/projects/identifiability/paper1.pdf ).

В моей статье в издании Globe and Mail ( https://www.theglobeandmail.com/opinion/article-the-privacy-threat-that-ai-poses-isnt-what-it-learns-its-what-it/#comments ) я отмечал, что работа г-жи Суини повлияла на мировые концепции защиты персональных данных, которые отреагировали посредством разработки стандартов деидентификации, призванными смягчить риски путем удаления очевидных идентификаторов, применения статистических тестов и категоризации полученных данных как «безопасных для использования». Действительно, основной принцип современного нормативно-правового регулирования обеспечения неприкосновенности частной жизни и защиты ПДн основан на предпосылке, что деидентифицированные данные могут использоваться, раскрываться и коммерциализироваться без ущерба для неприкосновенности частной жизни отдельных лиц.


«Алгоритм Вас поймает», автор: Дункан С., https://flic.kr/p/2kzyYQ7  (CC BY-NC 2.0)

Искусственный интеллект разрушил это предположение. Системы ИИ, оснащенные возможностями поиска в реальном времени и мощными вычислительными возможностями для логического вывода, теперь могут за минуты сделать то, на что раньше у опытных исследователей уходили дни. Исследование, проведенное в феврале в Федеральном институте технологий в Цюрихе (Швейцария - ETH Zurich) продемонстрировало, что агенты ИИ способны сопоставлять анонимизированные онлайн-аккаунты с реальными физическими личностями с точностью до 90%, воспроизводя за минуты то, на что опытному следователю-человеку потребовались бы многие часы ( https://arxiv.org/pdf/2602.16800 ).  То, что г-жа Суини выявила как уязвимость, всё чаще становится реальностью оперативной деятельности для любого, у кого есть подключение к интернету и ИИ-чатбот.

Это крайне важно для Канады. Министр по вопросам ИИ Эван Соломон (Evan Solomon) пообещал обновить национальную стратегию в области ИИ, которая включает в себя модернизированные правила защиты персональных данных ( https://globalnews.ca/news/11649168/ai-strategy-privacy-commissioner-canadians-solomon/ ). Хотя соблазнительно попытаться решить проблему за счёт использованию усиленных мер защиты защиты, которые обсуждаются уже много лет, нужно понимать, ИИ меняет дискуссию о защите ПДн таким образом, что дальнейшее продвижение вперёд становится куда сложнее, чем простое возобновление прежних усилий по проведению реформ. Для правильного решения этой задачи необходимо учитывать обе стороны «уравнения ИИ»: что поступает на вход и что получается на выходе.

Что касается входных данных, то наблюдается заметный глобальный сдвиг в сторону более либерального, более разрешительного отношения к используемым для обучения ИИ персональным данным:

Направление перемен очевидно: ведущие мировые юрисдикции смягчают своё нормативно-правовое регулирование обработки ПДн, чтобы способствовать развитию ИИ. Канада также столкнётся с давлением, вынуждающим последовать их примеру.

Проблеме защиты ПДн, связанной с выходными данными ИИ, уделялось гораздо меньше внимания, - однако она в конечном итоге может оказаться более значимой. В данном случае обеспокоенность связана не с тем, какие персональные данные поступают в системы ИИ, а с тем, какие персональные данные появляются на выходе. Современные системы ИИ могут получать доступ к общедоступным данным из множества источников, комбинировать по отдельности безвредные фрагменты и делать выводы, позволяющие повторно идентифицировать физических лиц на основе информации, которая никогда не предназначалась быть «персональными данными».

Рассмотрим, что это означает для концепции деидентификации (обезличивания) данных, лежащей в основе реформы канадского законодательства о защите ПДн. В более ранних проектах предлагалось запретить организациям повторно идентифицировать обезличенные данные ( https://lop.parl.ca/sites/PublicWebsite/default/en_CA/ResearchPublications/LegislativeSummaries/441C27E ). Однако этот запрет касался преднамеренных действий по повторной идентификации. Он не предвидел мир, в котором система ИИ восстанавливает связь с физическим лицом на основе разбросанных по открытому интернету фрагментов в рамках выполнения обычного запроса. Правовая проверка возможности использования данных для идентификации личности предполагала относительно стабильную технологическую среду. ИИ делает тривиально простым то, что когда-то было немыслимым, - повторная идентификация оказывается всего лишь структурным побочным продуктом работы ИИ.

Выработка канадского ответа может потребовать различного подхода к обеим сторонам «уравнения ИИ». Более либеральный подход к входным данным для обучения, основанный на общеприменимых ограничениях и значимой прозрачности, мог бы помочь Канаде оставаться конкурентоспособной, не отказываясь при этом от своих основных обязательств. Однако такая гибкость в отношении входных данных должна сочетаться с действительно инновационными подходами к предотвращению и устранению вреда, причиняемого результатами работы ИИ. Это означает переход от запретов на преднамеренную повторную идентификацию к инструментам нормативно-правового регулирования, которые учитывают структурную способность систем ИИ восстанавливать ПДн из неперсональных данных. Меры подотчетности, аудит результатов логического вывода и ограничения на агрегирование и раскрытие выведенных личных профилей должны стать частью нормативно-правового ландшафта.

Сообщество специалистов по защите ПДн и принимающие политические решения лица медленно осознают этот сдвиг, фокусируя внимание в основном на том, как ПДн попадают в системы ИИ. Но если хотеть, чтобы стратегия Канады в области ИИ и реформа в сфере защиты ПДн соответствовали требованиям времени, то нужно, чтобы они признали более суровые истины: что деидентификация, в том виде, в котором мы её понимали десятилетиями, может уже больше не работать, и что наши дискуссии о защите ПДн должны радикально измениться.

Майкл Гейст (Michael Geist)

Источник: блог Майкла Гейста
https://www.michaelgeist.ca/2026/04/is-data-de-identification-dead-why-the-ai-privacy-risk-isnt-what-it-learns-but-what-it-figures-out/ 

Комментариев нет:

Отправить комментарий