суббота, 10 декабря 2022 г.

США: Национальный институт стандартов и технологий выложил для обсуждения третью версию проекта публикации о деидентификации государственных баз данных

Американский Национальный институт стандартов и технологий (National Institute of Standards and Technology, NIST) 15 ноября 2022 года выложил на своём сайте для публичного обсуждения очередную, третью по счёту версию неспешно разрабатываемого проекта специальной публикации NIST SP 800-188 «Деидентификация государственных наборов данных» (De-Identifying Government Datasets), см. https://csrc.nist.gov/publications/detail/sp/800-188/draft .

Документ объёмом 105 страниц доступен по адресу https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.800-188.3pd.pdf .

Об обсуждении первой версии этого проекта я писала ещё в 2016 году, см. http://rusrim.blogspot.com/2016/09/blog-post_22.html

В аннотации на документ отмечается следующее:

«При деидентификации из набора данных удаляется идентифицирующая информация таким образом, чтобы остальные данные не могли быть соотнесены с конкретными физическими лицами.

Мой комментарий: Таким образом, термин «деидентификация» можно рассматривать как синоним таких терминов, как «анонимизация» и «обезличивание».

Государственные органы могут использовать деидентификацию для уменьшения рисков для неприкосновенности частной жизни, связанных со сбором, обработкой, архивированием, распространением и/или публикацией государственных данных. Ранее NIST опубликовал отчет NIST IR 8053 «Обезличивание персональной информации» (De-Identification of Personal Information, о нём см. http://rusrim.blogspot.ru/2015/12/nist-ir-8053.html ), содержащий обзор методов деидентификации и повторной идентификации. В настоящем документе содержатся конкретные рекомендации для тех государственных органов и учреждений, которые желают использовать деидентификацию (обезличивание).

Прошло шесть лет с тех пор, как NIST выпустил вторую версию проекта SP 800-188. За это время произошли значительные изменения в технологиях обеспечения неприкосновенности частной жизни, особенно в теории и практике дифференциальной конфиденциальности (differential privacy – в русскоязычной литературе также встречается вариант «дифференциальная приватность» - Н.Х.).

Мой комментарий: согласно Википедии, «Дифференциальная конфиденциальность (DP) - это система для публичного раскрытия информации о наборе данных путем описания повторяющихся особенностей (patterns) групп в наборе данных при сокрытии информации об отдельных лицах в наборе данных. Идея дифференциальной конфиденциальности заключается в том, что если последствия произвольной одиночной замены в базе данных достаточно малы, то результат запроса не может быть использован для извлечения существенных сведений о каком-либо отдельном человеке и, следовательно, обеспечивается неприкосновенность частной жизни. ... Грубо говоря, алгоритм является дифференциально конфиденциальным, если наблюдатель, видящий его результаты, не может определить, использовалась ли информация конкретного человека при вычислении результатов.» ( https://en.wikipedia.org/wiki/Differential_privacy , см. также https://translated.turbopages.org/proxy_u/en-ru.ru.42f8b05c-6375e7cf-b60c3229-74722d776562/https/en.wikipedia.org/wiki/Differential_Privacy и https://ru.wikipedia.org/wiki/Дифференциальная_приватность ).

В самом документе по поводу дифференциальной конфиденциальности также отмечается следующее: «Дифференциальная конфиденциальность - это модель, основанная на математическом определении неприкосновенности частной жизни (privacy), в котором рассматривается риск для физического лица, связанный с публикацией результатов запроса к базе данных, содержащей его персональные данные. Дифференциальная конфиденциальность ограничивает раскрытие как личности физического лица, так и её атрибутов, добавляя недетерминированный шум (случайные значения) к результатам математических операций до того, как эти результаты выдаются. … Дифференциальная конфиденциальность основана на теории информации и не делает различий между тем, что является персональными данными, а что нет. Дифференциальная конфиденциальность не требует, чтобы значения классифицировались как прямые идентификаторы, квази-идентификаторы и неидентифицирующие значения. Вместо этого дифференциальная конфиденциальность предполагает, что все значения в записи могут быть идентифицирующими, и поэтому все они должны быть деидентифицированы.»

Хотя этот проект отражает некоторые из этих достижений, основное внимание в нём по-прежнему уделено деидентификации, поскольку дифференциальная конфиденциальность ещё недостаточно развита для её широкого использования в федеральных органах исполнительной власти. Там, где это уместно, данный документ предупреждает пользователей об ограничениях, присущих деидентификации по сравнению с формальными методами обеспечения неприкосновенности частной жизни, такими как дифференциальная конфиденциальность.

Публичное обсуждение документа продлится до 15 января 2023 года.»

Содержание документа следующее:

Резюме для руководства
1. Введение
2. Знакомство с деидентификацией
3. Стратегическое и оперативное управление деидентификацией данных
4. Технические этапы деидентификации данных
5. Требования к программному обеспечению, оценка и валидация
6. Выводы
Литература
Приложение A: Стандарты
Приложение B: Перечень обозначений и сокращений
Приложение C: Глоссарий

Источник: сайт NIST
https://csrc.nist.gov/publications/detail/sp/800-188/draft
https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.800-188.3pd.pdf

Комментариев нет:

Отправить комментарий