«Недоступный для поиска текст не может считаться знаниями. Настоящая польза может быть получена тогда, когда разбросанная по миллионам документов информация может быть связана, сопоставлена и интеллектуально проанализирована; когда исследователь может задать вопрос и получить полный ответ, основанный на материалах всего архива». - Эти слова сказаны ценящим архивы человеком, работающим, однако, в сфере информационных технологий. Звучат они красиво и вдохновляюще, но, боюсь, эти представления идеалистичны. Тем не менее, они подтолкнули меня к тому, чтобы сформулировать ряд идей в отношении ИИ и содержания архивов.
1. Архивы не хранят «Истину» (с большой буквы – т.е. абсолютную истину «в последней инстанции» - Н.Х.). Я уже писал об этом раньше, и в профессиональной литературе имеется множество суждений по данному вопросу (от неверных интерпретаций и до абсолютно уместных позиций).
Архивы хранят одно представление об истине - истину того, кто создал документы; и которая быть, а может и не быть достоверной т.е. верным отражением реальности. С этой точки зрения, если Вы «вложите» в ИИ все имеющиеся в библиотеке книги по физике, то получите более авторитетные знания, чем если бы Вы отсканировали несколько миллионов архивных документов. Именно поэтому, говоря традиционным языком, в библиотеке работают читатели, а в архиве - исследователи. Это различие появляется не потому, что архивы более сложно устроены, а потому, что в архиве хранятся фрагменты истины, которые, - чтобы быть релевантными для знаний, - должны быть интерпретированы и помещены в правильное место в схеме знаний. Как гласила классическая парадигма (сейчас может быть иначе, я не знаю): сначала Вы читаете книги, а затем идете в архив...
Если Вы идете в библиотеку и копируете материалы из 4 книг, то Вы можете написать статью. Если Вы идете в архив и копируете материалы из 400 документов, то Вы создаёте коллекцию документов. Это как разница между выставкой, где вы демонстрируете 30 документов, и историей, которая связывает содержание документов и другие ресурсы. Книги пишутся с целью получения знаний и имеют повествовательную нить; в то время как документы представляют собой фрагменты реальности административного процесса, который их породил, и которые были созданы потому, что процессы деловой деятельности нуждаются в информации. Документы, безусловно, не создавались для передачи в будущее знаний о прошлом; когда мэр подписывал документ, он вряд ли думал о том, что это определит, какой останется память о нём в истории…
2. Архивный документ - это информация, интерпретация которой сильно обусловлена контекстом и смысл которой устанавливается профессиональным исследователем посредством процессов оценки и интерпретации, которые не всегда являются осознанными, но всегда присутствуют.
Например, допустим, что 13 марта 1933 года произошла автомобильная авария. Когда поступает запрос, очевидно, что система выдаст информацию об аварии. Но эта информация ещё не представляет собой релевантные знания… Нам всё ещё предстоит выполнить рад проверок, например:
- Каков источник информации: был ли это 1) писатель, информация приведена в рукописи романа; 2) сотрудник дорожной полиции, информация приведена в протоколе; 3) журналист, информация приведена в статье?
- Где хранилась информация: а) в личном архивном фонде; б) в архиве местного управления дорожной полиции; c) в архиве редакции газеты?
Возможно множество комбинаций ответов на эти два вопроса, например: полицейский протокол (не хранившийся, однако, в полицейском архиве), который был добыт журналистом, и о котором главный редактор пишет в своих мемуарах…
Такие требующие ответов вопросы возникают у исследователя архивных материалов почти рефлексивно; это называется критикой источников (critica izvoarelor), которая в исторической дисциплине является (как я надеюсь - или была раньше) предметом изучения. Крайне важно, чтобы архивный документ был подвергнут подобному процессу критического анализа с тем, чтобы установить его релевантность для знаний.
И это не единственный контекст. Если Вы обучите систему ИИ на административных документах 1950-1965 годов, то я убеждён, что результаты покажут, что в 90% случаев они связаны с буржуазией или собственниками недвижимости (с вариациями). А если использовать эту систему для анализа периода между мировыми войнами, она покажет, что правительства отражали интересы помещиков и капиталистов, и угнетали рабочий класс… Или, скажем, если для обучения ИИ взять документы 1938-1945 годов, то я уверен, что они будут полны этнических терминов, которые сегодня встречаются редко. И всё это нельзя удалить из архивного документа, потому что тогда Вы уничтожите его сущность, а именно - отражение реальности, какой её видел автор документа или создатель архива. Но нельзя также рассматривать эту реальность как знание сегодняшнего дня, и публично её продвигать…
По этим причинам, одно дело - это описание документа, которое представляет его содержание на подходящем для «целевого сообщества» языке и обеспечивает согласованность и контекст; и совсем другое - передача содержания исходного документа. Вот почему использование содержания документов для генерации знаний в отсутствие контекстуализации является рискованным, поскольку оно может породить знание, которое не является знанием сегодняшнего уровня, а представляет собой знание в логике реальности прошлого. И я не думаю, что мы ожидаем этого от ИИ в архивах... Именно поэтому поиск по содержанию документов может дать впечатляющие результаты, однако в отсутствие систематизации Вы не доберетесь до «второй страницы выдачи результатов поиска» (как иронизируют специалисты по поиску информации, лучшее место, чтобы спрятать труп, - это вторая страница результатов поиска Google. Туда никто никогда не смотрит...).
Большая проблема для ИИ-решений на основе архивного контента, на мой взгляд, заключается не в формировании «рассказа», а в предоставлении источников и описании их контекста; и в систематизации информации (да, я знаю, Вы спросите – по какому критерию?), которую может изучить «исследователь», - сократив тем самым (не думаю, что его удастся полностью исключить) трудоёмкий процесс выявления релевантных источников по теме. И нет, я не думаю, что ИИ в архивах должен давать ответы - потому что, неизбежно, хранящиеся в архивах свидетельства и доказательства субъективны, и их необходимо интерпретировать… А для этого ИИ должен очень многому научиться заранее.
Богдан-Флорин Поповичи (Bogdan-Florin Popovici)
Источник: блог Богдана-Флорина Поповичи
https://bogdanpopovici2008.wordpress.com/2026/03/13/un-ai-pentru-arhive/




