Данная заметка была опубликована 20 декабря 2022 года на сайте Консорциума европейских архивов данных социальных наук (Consortium of European Social Science Data Archives, CESSDA). Консорциум CESSDA объединяет архивы данных социальных наук по всей Европе с целью продвижения результатов исследований в области социальных наук и поддержки национальных и международных исследований и сотрудничества.
4 октября 2022 года состоялось мероприятие CESSDA по обучению преподавателей по теме «Использование анонимизации в практике обмена данными» (Anonymisation for data sharing practices, https://www.cessda.eu/Events/CESSDA-Event-eid3228 ). Оно преследовало две основные цели:
- показать преподавателям/инструкторам инструменты, которые им необходимы для преподавания на учебных занятиях основ анонимизации данных и контроля над раскрытия информации; и
- дать им практический опыт использования современных технологий с открытым исходным кодом (sdcMicro, https://sdctools.github.io/sdcMicro/index.html ).
Данное учебное мероприятие было организовано Хорватским архивом данных социальных наук (Croatian Social Science Data Archive, CROSSDA, https://www.cessda.eu/About/Consortium-and-Partners/List-of-Service-Providers/Croatia-spid1897 ) и Национальными Архивами Дании (Rigsarkivet, https://www.cessda.eu/About/Consortium-and-Partners/List-of-Service-Providers/Denmark-spid1899 ). Два этих архивных учреждения рассказали о том, как они справляются с задачей анонимизации.
Мой комментарий: Видеозапись мероприятия длительностью 2 часа 17 минут доступна на сайте YouTube по адресу: https://www.youtube.com/watch?v=JeJ6OOxXZwo
Опыт анонимизации Национальных Архивов Дании
Обстоятельства проведения анонимизации в Национальных Архивах Дании определяются тремя основными факторами:
- Национальный Закон об архивах,
- Европейское законодательство о защите персональных данных (GDPR); и
- Возможные специфические ограничения, установленные донором архивных материалов.
В соответствии с Законом об архивах, Национальные Архивы имеют законное право хранить все виды персональных данных. А поскольку Дания - это страна, которая регистрирует большое количество данных о своих гражданах, то это означает, что фонды Национальных Архивов содержат очень много персональных данных.
Пользователь может выполнить поиск на странице Национальных Архивов ( https://digidata.rigsarkivet.dk/ ), и все данные, включая данные личного характера, будут представлены вместе с метаданными, объясняющими, что именно содержится в конкретном наборе данных. Набор данных теперь можно заказать в двух версиях: версию с персональными данными и версия без них т.е. анонимизированную. Если исследователь заказывает версию набора данных с персональными данными, то он должен иметь соответствующие разрешения на доступ к ним и продемонстрировать их наличие.
Прямые и косвенные идентификаторы
Набор данных может содержать множество различной персональной информации. При анонимизации всегда будут удаляться следующие данные:
- Личный идентификационный номер (CPR-nummer),
- Имя,
- Адрес, телефон, адрес электронной почты.
Это прямые идентификаторы, поэтому они всегда удаляются.
Косвенные идентификаторы могут быть удалены в зависимости от конкретной ситуации и от обстоятельств сбора данных. К их числу относятся:
- Должность
- Муниципалитет
- Дата и место рождения
- Национальность
- Религия
- Почтовый индекс
- Образование
- Иные данные, раскрываемые в неструктурированном тексте.
Что следует учитывать при удалении косвенных идентификаторов
При принятии решения о необходимости удаления таких косвенных идентификаторов принимаются во внимание следующие факторы:
- Чувствительность темы исследования: Если тема исследования является деликатной, это приведёт к более строгой анонимизации, и, следовательно, будет удалено больше косвенных идентификаторов - например, сведения о сексуальном насилии, болезнях, о сексуальной ориентации и т.д.;
- Конкретный интерес: Если объект интереса является очень конкретным, то это автоматически приведет к более строгой анонимизации, чтобы гарантировать невозможность идентификации отдельного человека.
- Количество и состав исследуемого населения: Если изучаются материалы, относящиеся к небольшой группе людей, это также приведёт к более строгой анонимизации - в противном случае было бы проще идентифицировать отдельных лиц.
- Наличие в данных иной информации: Позволяет ли комбинация имеющейся информации легко идентифицировать физических лиц? Этот вопрос должен быть тщательно рассмотрен.
- Возраст данных: Чем новее данные, тем более строго они будут анонимизированы, поскольку их чувствительность более вероятна.
Как архивист создаёт анонимизированный набор данных?
Этот ручной процесс начинается, когда пользователь архивов заказывает набор данных, в котором содержатся персональные данные, не имея при этом разрешения на получение полного набора данных.
Данный процесс выполняется архивистом, который проверяет набор данных на наличие полей, содержащих персональные данные, и удаляет их. Качество проверки и удаления затем проверяются другим архивистом - этот дополнительный шаг сводит к минимуму риск ошибки.
На этом втором шаге могут быть выявлены пограничные ситуации. Пограничным случаем могут быть наборы данных, в которых невозможно идентифицировать отдельных лиц, но при наличии других наборов данных и сопоставлении с ними или при передаче данных существует теоретическая возможность такой идентификации. Когда оба эти шага выполнены, Национальные Архивы Дании могут передать пользователю полностью анонимизированный набор данных. Таким образом Национальные Архивы обеспечивают невозможность идентификации отдельных лиц.
Инструмент с открытым исходным кодом SdcMicro
Проведению анонимизации может способствовать использование программного обеспечения, поэтому Хорватский архив данных социальных наук (CROSSDA) представил на мероприятии-вебинаре пакет программ с открытым исходным кодом SdcMicro ( https://github.com/sdcTools/sdcMicro ) для создания защищенных микроданных для исследователей и общественного пользования.
Был подготовлен простой набор данных, который использовался во время вебинара для того, чтобы познакомить его участников с наиболее важными и основными функциональными возможностями данного инструмента. Участникам было предложено уже после вебинара выполнить ряд практических упражнений, а набор тестовых данных был предоставлен в составе раздаточных материалов.
В числе представленных концепций и методов были k-анонимность, максимальное / минимальное кодирование (top/bottom coding – когда при публикации данных, превышающих соответственно верхний или нижний предел, их значения заменяются на значения верхнего или нижнего предела, см. https://stats.oecd.org/glossary/detail.asp?ID=7011 – Н.Х.) и перекодирование, вместе с практическими примерами и рекомендациями о том, как интегрировать анонимизацию в исследовательские проекты. Кроме того, чтобы сделать обучение более доступным для начинающих, все методы были представлены с использованием графического пользовательского интерфейса (sdcMictro GUI).
K-анонимность - это свойство набора данных, спроектированного таким образом, чтобы предотвратить выделение отдельного субъекта данных посредством группировки его данных с данными не менее чем k других лиц. Это помогает обеспечить невозможность выделения человека на основе специфических значений его атрибутов. Для достижения k-анонимности значения атрибутов индивидуумов в группе должны быть до некоторой степени обобщены.
Решение SdcMicro предлагает несколько методов достижения k-анонимности, включая максимальное / минимальное кодирование, также известное как «отсечка» (clipping). Этот метод подвергает цензуре точки данных, значения которых выходят за пределы определенного диапазона, обычно заменяя их максимальным или минимальным значением. Другой способ сделать это - использовать глобальное перекодирование, при котором производится замена первоначальных значений атрибута новым набором менее конкретных значений. Используя эти и другие методы, можно защитить частную жизнь людей, допуская при этом использование данных для исследований или других целей.
Заглядывая вперед
Создание «Джона Доу» - иными словами, анонимизация набора данных с целью обеспечить невозможность отслеживания конкретных физических лиц, является сложной задачей. В случае Национальных Архивов Дании процесс осуществляется вручную. Это связано с тем, что данные Национальных Архивов могут содержать очень много персональных данных. В каждом случае требуется индивидуальный подход, основанный на анализе ряда факторов, как описано выше.
Подобно Национальным Архивам Дании, архив CROSSDA также использует индивидуальный подход в каждом случае и применяет программное обеспечение с открытым исходным кодом для повышения эффективности этого процесса. Несмотря на то, что CROSSDA - архив ещё молодой, он совершенствует свои методы, и ему очень помогает использование материалов, созданных профессиональным архивным сообществом.
Если Вас интересует создание анонимизированных наборов данных, почему бы Вам не посмотреть видеозапись мероприятия ( https://www.youtube.com/watch?v=JeJ6OOxXZwo ) и не обратить самое пристальное внимание на процесс, о котором рассказали Национальные Архивы Дании?
Главное, что нужно помнить - это то, что не существует быстрых решений, когда дело доходит до анонимизации, потому что персональные данные могут быть представлены в различном виде и форме.
Источник: сайт Консорциума европейских архивов данных социальных наук
https://www.cessda.eu/News/CESSDA-Newsitem-nid3381
Комментариев нет:
Отправить комментарий