четверг, 24 июля 2014 г.

Труди Хаскемп Петерсон: Проблемы анонимизации, «большие данные» и последствия для архивистов


Данная заметка известного американского архивиста Труди Хаскемп Петерсон (Trudy Huskamp Peterson – на фото), председателя Рабочей группы Международного совета архивов по правам человека (HRWG), была опубликована 8 июля 2014 года в рассылаемом HRWG новостийном бюллетене.

В музее Бардо (Bardo Museum), что находится в городе Тунис – столице страны с одноименным названием, величественно плывет через море сделанный в мельчайших деталях из крошечных кусочков камня в технике мозаики корабль. От данной техники получила своё название та причина, по которой учреждения отказываются раскрывать информацию: как пишет Министерство юстиции США Министерство в своем Руководстве по исполнению законодательства о свободе доступа к государственной информации (Guide to the Freedom of Information Act, http://www.justice.gov/oip/exemption1.htm ), идея «мозаики» - это «концепция, согласно которой очевидно безвредные элементы информации, если их собрать вместе, могут раскрыть общую картину, знание которой может быть использовано во вред». Эта идея является еще одним аргументом в пользу утаивания информации, относящейся как к национальной обороне и внешней политике, так и к личной жизни.

Одна из мозаик музея Бардо: римская трирема

Цензурирование информации (redacting), т.е. удаление из документа части информации, с тем, чтобы остальную его часть можно было раскрыть, дает возможность исследователям использовать намного больше ресурсов в своей работе, чем если бы, например, весь шестистраничный документ оставался недоступным только потому, что одно предложение или один абзац содержат сведения, утечка которых нарушила бы неприкосновенность частной жизни человека. Для архивистов, однако, цензурирование документов - трудоемкий процесс, требующий большой концентрации и внимания к деталям. Большинство тех, кому пришлось этим заниматься, может вспомнить эпизоды, когда определенные сведения были пропущены и, как следствие, неумышленно раскрыты.

Методы, используемые для цензурирования бумажных документов, хорошо известны и проверены временем - см., например, советы, данные в недавней публикации Международного совета архивов «Принципы доступа к архивным документам. Технические рекомендации по управлению архивами ограниченного доступа» (Principles of Access to Archives. Technical Guidance on Managing Archives with Restrictions, февраль 2014 г., www.ica.org/download.php?id=3164о данном документе см. также http://rusrim.blogspot.ru/2014/02/blog-post_14.html , а о самих «Принципах доступа к архивным документам» см. http://rusrim.blogspot.ru/2011/08/blog-post_3884.html  – Н.Х.).

Цензурировать электронные документы вроде бы проще, однако необходимо проявлять большую осторожность с тем, чтобы удаленная информация не могла быть восстановлена. Две новости этого месяца иллюстрируют проблему. В первом случае история началась в феврале прошлого года, когда подробные сведения о почти 10 тысячах ищущих убежища лиц были включены в электронную публикацию, выложенную на сайте австралийского Министерства иммиграции и пограничной охраны (Department of Immigration and Border Protection). Сведения включали полное имя, национальность, местонахождение, дату прибытия и сведения о корабле, на котором прибыл человек. Когда английская газета «Гардиан» (The Guardian) подняла шум по поводу этой публикации, данные были удалены. Теперь в ходе официального расследования обстоятельств утечки выяснилось, что к раскрытым данным «было 123 обращения» со 104 различных электронных адресов; и что в числе способствующих утечке факторов могли быть «дефицит времени, незнание определенных функциональных возможностей Microsoft Word, недостаточная осведомленность о роли и ответственности, а также о рисках информационной безопасности, связанных с онлайн-публикацией» (см.  http://www.zdnet.com/au/immigration-data-breach-caused-by-human-error-kpmg-7000030508/ ).

В другом случае чиновники города Нью-Йорк, отвечая на запрос о предоставлении доступа к государственной информации, раскрыли подробную информацию о 173 миллионах поездок городских такси, убрав лишь номера лицензий и жетонов водителей. Взяв эти данные, разработчик программного обеспечения Виджей Пандуранган (Vijay Pandurangan) меньше чем за два часа сумел их де-анонимизировать, получив в результате «неограниченный доступ к полной картине поездок каждого такси в Нью-Йорке, что потенциально создавало существенную угрозу неприкосновенности частной жизни и безопасности миллионов пассажиров и их водителей». Как написал де-анонимизировавший информацию человек, «Обезличить данные действительно очень трудно» (см. http://vpncreative.net/2014/06/25/173-million-taxi-records-lost-massive-location-data-heist/ и https://medium.com/@vijayp/of-taxis-and-rainbows-f6bc289679a1 ).

Оба этих инцидента были связаны с относительно понятными проблемами при цензурировании. Более сложную проблему представляет собой использование интеллектуального анализа данных (data mining) для воссоздания мозаики нераскрытых документов. Базирующаяся в Колумбийском университете группа историков, математиков, программистов и статистиков работает над «мультимедийным исследовательским проектом» под названием «Машина рассекречивания» (Declassification Engine). В рамках проекта его участники собирают электронные версии «большого числа федеральных документов и разрабатывают аналитические инструменты для обнаружения аномалий в этих массивах документов». Группа предполагает, что благодаря выявлению таких тонких вещей, как всплеск активности в телефонном общении дипломата, они смогут выявить наличие представляющих исторический интерес эпизодов, которые Правительство США в основном вымарало из публично раскрытых документов.

Один из членов Комиссии по историческому анализу (Historical Review Panel) Центрального разведывательного управления США сказал журналу Columbia Magazine об опасениях сотрудников ЦРУ в отношении того, что «Машина рассекречивания» «может позволить иностранным шпионам и террористическим группам проводить более мощный интеллектуальный анализ национальных общедоступных государственных документов, чем раньше», и в результате специалистам по рассекречиванию придётся сказать себе: «Нам теперь придётся работать более скрупулезно, чем когда-либо» (см. http://magazine.columbia.edu/features/winter-2013-14/ghost-files ).

Мой комментарий: Хотя автор избегает этого термина, но фактически речь идёт о том, что технологии «больших данных», которые сами правительства так рекламируют, можно будет использовать в том числе для выявления секретных сведений и для де-анонимизации обезличенной информации.

Что всё это значит для архивистов? Это означает, что все, кто занимается электронным цензурированием, должны опираться на помощь и поддержку очень хорошего инженера-компьютерщика с тем, чтобы убедиться в необратимости операций цензурирования и в невозможности восстановить удаленную информацию, будь то за два часа или за два дня. Это также означает, что архивисты, стремящиеся убедить чиновников раскрывать больше документов в электронном виде, могут столкнуться с их всё более настороженным отношением к этой идее, поскольку интеллектуальный анализ данных показывает, как легко мозаика может быть восстановлена. Ведомственный «корабль», несомненно, будет плыть дальше, но за собой он может оставлять все меньше и меньше публично доступных электронных документов…

Труди Хаскемп Петерсон (Trudy Huskamp Peterson)

Источник: Новостийный бюллетень Рабочей группы Международного совета архивов по правам человека (HRWG) за июль 2014 года.

Комментариев нет:

Отправка комментария