Данный пост эксперта в области управления электронными документами, эксперта ИСО от США Энди Поттера (Andy Potter - на фото) был опубликован 30 октября 2025 года в социальной сети Substack
Зал конференции RIMPA Live 2025 (см. https://www.rimpa.com.au/events/rimpa-live-2025.html ) в Мельбурне, Австралия, всё ещё гудел после утренних заседаний, когда вышел вперёд ведущий и голосом, наполненным отработанной теплотой, сообщил: «Он прилетел из Перта вчера вечером после пяти недель в Америке, и сегодня вечером вылетает домой - так что его биологические часы сбились». Эти слова вызвали смех и всеобщий вздох сочувствия всем, кому приходится справляться с этим недомоганием при трансконтинентальных перелётах. Ну а затем, под аплодисменты, на сцену вышел Гай Холмс (Guy Holmes – на фото ниже).
Он проверил микрофон, аккуратно сложил свои бумаги и оглядел аудиторию, состоящую из архивистов и специалистов по управлению документами и информацией -людей, действовать за кулисами, а не в свете софитов. Репутация Холмса всем хорошо была известна, - но то, что последовало дальше, не было привычным кругом евангелизации или алармизма в отношении ИИ. Через несколько минут тональность изменилась: это был не ажиотаж, не страх, а нечто более редкое - ясность. Тема его доклада звучала одновременно просто и поразительно: «искусственный интеллект нас пока ещё не знает» (официальное название доклада Холмса: «Защита персональных данных и этика ИИ» (Privacy and Artificial Intelligence Ethics) – Н.Х.).
Предсказание будущего не было целью доклада Холмса. Он стремился показать нам существование «слепого пятня» в настоящем - огромного континента человеческих знаний, которого ИИ никогда не видел. Это был один из тех докладов, когда атмосфера становилась напряжённее по мере появления понимания того, что докладчик описывает уже выполняемую тобой работу, только переосмысленную как ось вращения следующей технологической эры.
Чего ИИ пока ещё не видел
«Большую часть существующих в мире данных, - начал Холмс, - никогда не видела ни одна из моделей ИИ».
В ритме литании он перечислил примеры: хранящиеся в защищённых сетях изображения, создаваемые медицинскими учреждениями и больницами; тщательно закрытые от публичного доступа государственные архивы; записи трансляций за десятилетия, всё ещё хранящиеся на необработанных магнитных лентах; корпоративная переписка, закрытая во внутренних системах. Ничто из этого - ни единого байта - никогда не попадало в наборы данных, использовавшиеся для обучения ChatGPT, Gemini или любой иной большой языковой модели.
По мнению Холмса, это не случайность. Системы, формирующие сегодня общественный дискурс, обучались только на том материале, что открыт, на слуху и легко захватывается – на поверхностном слое интернета, содержащем самые громкие голоса и наиболее популярные платформы. ИИ обучался на наших коллективных «выкриках», а не на нашей продуманном ведущейся документации. Результатом стал «интеллект», свободно владеющий языком Reddit и Wikipedia, но не имеющий представления о размеренной упорядоченности архивных документов.
Для тех из нас, кто проводит свою жизнь, управляя этим невидимым для ИИ корпусом материалов, это имеет серьёзные последствия. Будущее ИИ будет строиться не на том, что он может найти в интернете, а на том, что остаётся заблокированным в данных, долговременную сохранность которых мы обеспечиваем - данных, у которых имеются контекст, происхождение и преемственность. «Это данные, о которых мир позабыл», - сказал Холмс, - «но от которых он всё также зависит». Его слова были одновременно диагнозом и вызовом: ведь именно мы [архивисты и специалисты по управлению документами – Н.Х.] является кураторами знаний, в которых ИИ нуждается больше всего.
Этический передовой рубеж
Холмс назвал это «этическим передовым рубежом» (ethical frontier). В какой-то момент, сказал он, мир захочет «заглянуть внутрь в данные, которые мы курируем». Этот запрос будет исходить не от архивистов или историков, а от инженеров, правительств и корпораций, жаждущих более совершенных моделей - моделей, которые видят глубже, предсказывают быстрее и действуют умнее.
Дальше встают неудобные вопросы: А стоит ли нам делиться этой информацией? Можем ли мы доверять машинам в плане объективного представления этой информации, без искажений и предвзятости? Кто будет решать, что станет частью коллективной машинной памяти мира, а что останется за закрытыми дверями?
Холмс ясно дал понять, что наша профессия переживает переломный момент. «Мы не собираемся блокировать инновации», - сказал он, сделав паузу, чтобы дать слушателям возможность осознать сказанное. «Наша задача заключается в обеспечении того, чтобы это были ответственные инновации».
В этот момент привычная административная лексика, касающаяся исполнения законодательно-нормативных требований и отслеживания сроков хранения, уступила место чему-то более базовому – а именно, этике. Как хранители документов, мы уже не просто ответственные хранители памяти о вчерашнем дне; мы - хранители завтрашней совести.
Когда документы становятся обучающими данными
Десятилетиями электронные документы рассматривались как статические объекты - объекты, которые нужно захватывать, извлекать и, в конечном итоге, уничтожать либо передавать на архивное хранение. Холмс перевернул это представление - по его словам, «электронные документы стали живыми существами».
Мой комментарий: Утверждение о том, что до сих пор «электронные документы рассматривались как статические объекты» верно лишь отчасти – если своё представление о документах ограничить организационно-распорядительной документацией. Научно-техническая и родственная ей документация не была статической даже в бумажную эпоху, а особенности разного рода нестатических электронных документов ещё в начале века изучались на серьёзном теоретическом уровне в рамках международного проекта InterPARES.
Машины читают электронные документы, интерпретируют и всё больше обучаются на них. Каждое поле метаданных, каждая классификационная схема, каждый параметр управления доступом - это не просто технические детали, а подсказки, помогающие системам ИИ понимать значение, авторитетность и ценность документов. «Каждый хорошо структурированный набор данных усиливает понимание мира искусственным интеллектом», - заметил Холмс. «Каждый неупорядоченный, неразмеченный документ вносит неоднозначность».
Мой комментарий: С моей точки зрения, последний тезис хлёсткий, но неглубокий. Хорошо структурированный набор некачественных данных, или набор данных, структурированный с использованием неадекватной схемы, скорее окажутся вредными Помимо этого, многие виды современного ИИ прекрасно умеют работать с неструктурированными данными и даже способны самостоятельно осуществлять классификацию и структуризацию.
Аудитория зашумела, соглашаясь. Мы все видели, как неряшливые метаданные создают хаос в результатах поиска. А теперь представьте себе подобный же хаос, но встроенный в нейронную сеть. Даже не осознавая этого, каждый специалист по управлению документами фактически стал тренером для ИИ, формируя эпистемологическую карту цифрового мира – и это не метафора, а закамуфлированное описание должностных обязанностей.
Грядущая засуха данных
Холмс предупредил, что период прожорливого поедания контента всемирной паутины подходит к концу. К 2026 году, по его словам, системы ИИ поглотят практически всё, что будет доступно онлайн. «ИИ пресытился», сказал Холмс, «и теперь он сыт, но не удовлетворён».
Следующим рубежом станет уже не общедоступный интернет, а частные архивы. Базы данных, файлообменники и облачные резервные копии, кураторами которых мы являемся, представляют собой единственную оставшуюся нетронутую территорию. В этом смысле стратегическое управление информацией стало формой экологического менеджмента: то, что мы решим раскрыть, определит биоразнообразие машинного интеллекта.
Мой комментарий: С этим утверждением можно ещё в определённой степени согласиться, если говорить не о данных вообще, а о текстовых документальных материалах, созданных с участием человека. Нет никаких проблем с наращиванием производства научно-технических, статистических и т.п. данных (включая данные интернета вещей, медицинские данные и пр.), а также фото-, аудио- и видеоматериалов.
Метафора Холмса заставила задуматься. «Вопрос не в том, будет ли ИИ снова поедать данные», - подчеркнул он. «Вопрос в том, что будет в меню». Нужно сказать, что прозвучавший в ответ смех содержал и нотки беспокойства…
Специалисты по управлению с документами, - продолжил свою аналогию Холмс, - в эпоху ИИ являются шеф-поварами. Структура и целостность наших наборов данных будет определять, какого рода мир ИИ научится описывать - и чьим истинам и ценностям он будет отдавать предпочтение.
(Окончание следует)
Эндрю Поттер (Andrew Potter)
Источник: сайт Substack
https://metaarchivist.substack.com/p/when-ai-comes-for-the-archives



Комментариев нет:
Отправить комментарий