вторник, 3 сентября 2024 г.

Анализ применения методов искусственного интеллекта в рабочих процессах обеспечения долговременной сохранности электронных материалов, часть 1

Данная заметка Джилл Сэдлер (Jill K. Sadler) была опубликована на сайте Ассоциации канадских архивистов (Association of Canadian Archivists, ACA) 16 мая 2024 года.

Цифровые технологии очень сильно изменили управление обеспечением долговременной сохранности в сфере архивного дела, создавая как возможности, так и проблемы. За последние пять лет было проведено значительное количество исследований, изучавших, каким образом искусственный интеллект (ИИ) и его подобласти - машинное обучение (МО) и обработка естественного языка (natural language processing, NLP), могут помочь архивистам в выполнении их рабочих процессов, решая проблемы защиты персональных данных и повышая доступность документов. Эта статья не о чат-боте ChatGPT (это иной разговор для другого, очень близкого времени) - а об анализе того, как архивисты могут этичным образом управлять документами, используя новые и нарождающиеся технологии. В конечном итоге, методы ИИ полезны, но для помощи с определением контекста и для надзора над ними необходимы архивисты.

Дискуссии об эффективной и содержательной архивной обработке ведутся уже ряд десятилетий. Продолжаются обсуждения проблемы накопившихся объёмов необработанных архивных документов, особенно ввиду того, что по мере развития технологий и накопления оцифрованных и изначально электронных документов, их объёмы превосходят возможности людей-архивистов по их обработке. Для хранения электронных документов не нужны вместительные физические хранилища. Миллионы сообщений электронной почты могут храниться на USB-накопителе или на облачных серверах, удаленных от физического архивного учреждения. Уязвимость этих необработанных данных усугубляется проблемой устаревания технологий. В отсутствие этичного управления этими документами возникают проблемы доступа и защиты персональных данных, а также имеются значительные риски для создателей записей, для их субъектов и для институционального доверия.

Методы ИИ, такие как машинное обучение и обработка естественного языка, могут использоваться для обработки документов и текстов в масштабах, превосходящих человеческие возможности, и потенциально могут решить проблему необработанных архивных материалов.

Алгоритм машинного обучения создаёт модель на основе обучающих данных, а не на основе прямого программирования человеком. Обработка естественного языка - это когда компьютер обрабатывает текст и речь аналогично тому, как это делают люди. Оба эти метода в сочетании с постоянно растущими вычислительными мощностями способны помочь архивистам анализировать и описывать документы; однако всё ещё сохраняется проблема определения компьютером контекста.

При рассмотрении ИИ-решений следует всегда задавать вопрос: способен ли компьютер понимать контекстные нюансы и ценности так же хорошо, как и человек? Важно критически оценивать, как работают ИИ-инструменты, а также те возможности и проблемы, которые эти новые инструменты привносят в сферу архивного дела.

Один из способов решить такую задачу – это проанализировать ИИ-инструменты в контексте архивной концепции радикальной эмпатии (radical empathy). В работе Мишель Касвелл (Michelle Caswell – я бы сказала, печально известной Мишель Касвелл – Н.Х.) и Марики Сифор (Marika Cifor) «От права человека к феминистской эмпатию: Радикальная эмпатия в архивах» (Human Rights to Feminist Empathy: Radical Empathy in the Archives, Archivaria 81, 23-43, 2016, https://www.muse.jhu.edu/article/687705 ) рассматриваются обязанности архивистов в рамках их взаимоотношений с создателями документов, субъектами документов, пользователями документов и более широкими сообществами. Подход радикальной эмпатии учитывает, кто именно располагает властью [над документами – Н.Х.], и, в частности, отмечает, как архивная традиция сохранения документов по юридическим причинам игнорирует угнетение и не является подходом радикальной эмпатии к управлению документами.

Моника Лассер (Monique Lassere) и Джесс Уайт (Jess M. Whyte) в статье «Баланс между заботой и аутентичностью в цифровых коллекциях: Радикальный эмпатический подход к работе с образами дисков» (Balancing Care and Authenticity in Digital Collections: A Radical Empathy Approach to Working with Disk Images, Journal of Critical Library and Information Studies 3, 1-25, 2021) предлагают сбалансированную точку зрения на архивную обработку с помощью ИИ-инструментов. Они специально рассматривают вопросы сохранения образов дисков в рамках концепции радикальной эмпатии, описывая, как сохранение образов дисков может принести вред субъектам документов, источникам комплектования и другим заинтересованным сторонам из-за проблем с защитой персональных данных.

Сохранение образов дисков обеспечивает сохранение аутентичных документов с ясным происхождением и авторитетностью; однако в предлагаемом подходе образ диска также рассматривается с социально-правовой точки зрения. Существует также институциональный риск, связанный с сохранением образа диска, содержащего чувствительные данные, которые могут быть (а могут и не быть) обработаны своевременно и при надлежащем обращением с данными.

Вопрос здесь заключается в балансе доступности и защиты персональных данных, и в оценке риска поставить под угрозу один или оба аспекта. ИИ-инструменты способны помочь с цензурированием (вымарыванием) имеющихся на образах дисков чувствительных данных, тем самым защищая субъектов документов и снижая институциональный риск. После цензурирования чувствительных данных документы потенциально могут быть сделаны доступными общественности в соответствии с миссией архивного учреждения.

Лассер и Уайт дают ряд рекомендаций архивистам, желающим использовать ИИ-инструменты в своих рабочих процессах. С технической точки зрения эти инструменты должны демонстрировать прозрачность относительно того, как они работают: должны иметься чёткая документация и отчетность о функциональных возможностях и использовании инструментов, четкие свидетельства удаления контента, а также должна обеспечиваться простота внедрения и использования.

В то же время авторы недвусмысленно подчёркивают, что радикальная эмпатия плохо сочетается с автоматизацией. Инструменты могут помочь архивистам, но архивистам всё равно потребуются обучение и время на адекватное проведение закупок и на контроль над использованием этих инструментов. Другими словами, в рамках концепции радикальной эмпатии архивные процессы требуют участия человека наряду с технологиями, чтобы обеспечить неспешное принятие решений, учитывая их субъективную, контекстуальную и изменчивую природу. Самым главным является то, что архивистам необходимо сотрудничать с ИТ-отделами, с руководством учреждения, с субъектами документов, с донорами (источниками комплектования) и с исследователями, решая основную задачу снижения риска для всех сторон. Возможно, архивистам следует определить, какие риски являются приемлемыми, и собирать меньше материалов: если Вы не в состоянии этично курировать материалы без риска, не принимайте их на хранение.

(Окончание следует, см. https://rusrim.blogspot.com/2024/09/2.html )

Джилл Сэдлер (Jill K. Sadler)

Источник: сайт Ассоциации канадских архивистов
https://www.archivists.ca/Blog/13358000

Комментариев нет:

Отправить комментарий