пятница, 16 января 2026 г.

Ожидая рейса в аэропорту, самое время углубиться в вопросы объяснимого ИИ и архивного мышления

Данный пост эксперта в области управления электронными документами, эксперта ИСО от США Энди Поттера (Andy Potter - на фото) был опубликован 8 ноября 2025 года в социальной сети Substack

Я всё ещё в пути – точнее, в ожидании вылета :) То ли из-за погоды, то ли из-за перестановок в расписании, мой авиарейс снова отложили. Поэтому, как любой архивист с беспокойным умом, застрявший в зале ожидания радом с точкой для подзарядки, я снова открыл свой ноутбук.

Этот пост является продолжением предыдущего, который был первым наброском рассказа о том, как может выглядеть объяснимый ИИ (Explainable AI, XAI) с точки зрения управления документами, архивной теории и информатики. Предшествующий пост был написан в более спокойный момент, когда я начал связывать прозрачность архивов с алгоритмической объяснимостью. Теперь, будучи (временно) прикованным к земле и потягивая мутноватый крепкий эль IPA, я углубился в само исследование, пытаясь сформировать «строительные леса» для этих идей.

 
 
Переосмысление представления об управлении документами

Отправной точкой по-прежнему является опубликованная в 2020 году работа Дженни Банн (Jenny Bunn) «Работа в ситуациях, когда важна прозрачность: Взгляд на объяснимый ИИ с точки зрения управления документами» (Working in Contexts for Which Transparency Is Important: A recordkeeping view of Explainable Artificial Intelligence (XAI), https://discovery.ucl.ac.uk/id/eprint/10092921/3/Bunn_Explainable_Artificial_Intelligence__final.pdf ). В этой статье Банн рассматривает объяснимость ИИI не как «техническую» дополнительную функциональную возможность, а как необходимое для управления документами условие: объяснимость становится элементом того, что делает документ подотчётным. Банн в своей статье ставит вопрос о том, какие новые формы документов возникают в том случае, когда сам процесс принятия решений опосредуется машинным обучением. Это правильный вызов.

Далее следует статья 2021 года Джованни Колавицца (Giovanni Colavizza), Тобиаса Бланке (Tobias Blanke), Чарльза Джергенса (Charles Jeurgens) и Джулии Ноордеграаф (Julia Noordegraaf) из университета Амстердама, Голландия, на тему
«Архивы и ИИ: Обзор текущих дискуссий и будущих перспектив» (Archives and AI: An Overview of Current Debates and Future Perspectives, https://dl.acm.org/doi/full/10.1145/3479010 ). В ней приведен панорамный обзор того, как автоматизация видоизменяет традиционные архивные принципы, такие как происхождение, первоначальный порядок, проведение экспертизы ценности. Наблюдение авторов о том, что алгоритмическое посредничество потихоньку меняет то, что архивисты считают контекстом, нашло отклик в моих мыслях.

И есть ещё точка зрения Патрисии Фрэнкс (Patricia Franks), чья статья 2022 года «Позиционирование параданных как процессуальной документации для ИИ» (Positioning Paradata as AI Processual Documentation,  https://www2.archivists.org/sites/all/files/Franks_In%20the%20Pursuit%20of%20Archival%20Accountability.pdf ) вводит понятие «параданных» - метаданных о создании метаданных – в качестве одной из форм артефактов, обеспечивающих подотчётность. В мире объяснимого ИИ это понятие транслируется в следы процессов, журналы решений, пояснения к моделям. Всё это является частью документации.

Мой комментарий: Подборку постов на моём блоге о параданных см. здесь: https://rusrim.blogspot.com/search?q=параданные 

Доклад Чжан Луфаня (Lufan Zhang) и Пола Скифлита (Paul Scifleet) из Технологического университета Суинберна (г. Мельбурн,  Австралия) на конференции 2024 года на тему «Прокладывая курс для трансформации управления корпоративной информацией: Объяснимость и прозрачность ИИ в практике управления корпоративной информацией» (Charting the Transformation of Enterprise Information Management: AI Explainability and Transparency in EIM Practice, https://www.scitepress.org/Papers/2024/129511/129511.pdf ) распространяет всё это на уровень стратегического управления. Одно дело - документировать решения, принятые ИИ, и совсем другое - интегрировать эту документацию в концептуальные рамки жизненного цикла и обеспечения исполнения законодательно-нормативных требований.

В совокупности эти работы отражают то, как наша предметная область без лишнего шума переосмысливает себя: архивы начинают восприниматься не как пассивные хранилища доказательств, а как системы, которые сами должны давать объяснения.

Информационно-теоретический подтекст

На этот раз мне также захотелось узнать, что говорят специалисты по информатике, и это привело меня к литературе по вопросу «узкого горлышка информационного потока» (Information Bottleneck, IB) - элегантному математическому аналогу концепции архивного происхождения.

Мой комментарий: Теория «узкого горлышка информационного потока» утверждает, что по мере прохождения данных через слои нейронной сети каждый слой фильтрует и извлекает информацию, сохраняя только то, что необходимо для конечного результата.

«Обзор по вопросу узкого горлышка информационного потока» (A Survey on Information Bottleneck, https://dl.acm.org/doi/10.1109/TPAMI.2024.3366349 ) 2024 года авторов Ху Шидже (Shizhe Hu), Лю Дженджен (Zhengzheng Lou), Янь Сяочьен (Xiaoqiang Yan) и Е Яндун (Yangdong Ye) из китайского университета Дженджоу (Zhengzhou), описывает следующую логику: всякое объяснение является компромиссом между компактностью и точностью. Чем лаконичнее объяснение, тем меньше информации оно несёт - и наоборот. Эти идеи не так далеки от наших собственных архивных противоречий в вопросах экспертизы ценности и обеспечения долговременной сохранности документов.

Далее, в 2025 году на сайте arXiv был выложен «Комплексный обзор самоинтерпретируемых нейронных сетей» (A Comprehensive Survey on Self-Interpretable Neural Networks, https://arxiv.org/html/2501.15638v2 ) авторов Цзы Ян (Yang Ji) и др., развивающий эту идею. Это системы, спроектированные таким образом, чтобы «запроектированным» образом генерировать объяснения собственных решений, оптимизируя тот же баланс, который мы стремимся достичь при работе с документами - информации должно быть достаточно для понимания, но не настолько много, чтобы система рухнула под собственной тяжестью.

В исследовании Линдси Саннеман (Lindsay Sanneman), Майкала Такера (Mycal Tucker) и Джули Шах (Julie A.Shah) из Массачусетского технологического института (MIT) на тему «Характеризация понимания через представление об «узком горлышке информационного потока» - Компромисс с точки зрения рабочей нагрузки в человеко-ориентированном объяснимом ИИ» (An Information Bottleneck Characterization of the Understanding - Workload Tradeoff in Human-Centered Explainable AI,  https://dspace.mit.edu/bitstream/handle/1721.1/155782/3630106.3659032.pdf  ) вся проблема переосмысливается как компромисс с точки зрения рабочей нагрузки на человека. Чем подробнее объяснение, тем большую когнитивную нагрузку оно налагает. Это до боли знакомо любому, кто когда-либо пытался написать или прочитать чересчур насыщенный стандарт метаданных.

Итак, пока архивный мир спорит о том, какие нужно сохранять журналы аудита ИИ, специалисты по информатике потихоньку подсчитывают, какого объёма объяснений будет достаточно. Это неожиданный диалог, в котором энтропия встречается с подотчётностью.

Почему это (всё ещё) важно 

Если в моём предыдущем посте ставился вопрос о том, можно ли в обсуждении упоминать рядом архивы и объяснимый ИИ, то в этом посте ответе обосновывается положительный ответ на него.

В сфере стратегического управления документами и информацией имеется прямая связь. Происхождение, подотчётность, прозрачность - это не необязательные добродетели; они являются необходимыми условиями доверия. Объяснимый ИИ - это просто следующий рубеж, на котором должно быть обеспечено выполнение данных условий.

В информатике вопрос релевантности рассматривается в обратном направлении. Такие концепции, как «взаимная информация» (mutual information) и сжатие предлагают терминологию - и даже исчисление – способствующую понимания того, что означает сохранить суть объяснения, не утонув при этом в данных.

Я постоянно возвращаюсь к двум вопросам, которые, на мой взгляд, определяют пересечение этих миров:

  • Что мы должны задокументировать тогда, когда система ИИ принимает решение? - и

  • Какая точность объяснения необходима (или даже возможна), учитывая ограничения, установленные в информатике?

Между этими вопросами лежит нарождающаяся практика управления документами в контексте ИИ, в которой качественная этика архивов соединяется с количественной логикой информатики.

На табло замигал номер моего рейса, предвещая появление нового оповещения … Завершая данный пост, скажу: я убеждён, что разговор, который нам больше всего нужен, это обсуждение вопроса о том, как заставить машины объяснять свои решения и действия - и как сохранить эти объяснения в качестве документов.

Эндрю Поттер (Andrew Potter)

Источник: сайт Substack
https://metaarchivist.substack.com/p/caught-between-gates 

Комментариев нет:

Отправить комментарий