Данная статья Дейва Ричи (Dave Ritchie) была опубликована 30 января 2026 года на сайте WebProNews (WPN).
Национальные Архивы США (NARA) приступает к осуществлению одной из самых амбициозных технологических трансформаций за всю свою 86-летнюю историю, развёртывая инструменты на основе искусственного интеллекта (ИИ) для каталогизации и обеспечения доступности миллионов исторических документов, которые до сих пор оставались в значительной степени невидимыми для общественности. Эта инициатива представляет собой фундаментальный сдвиг в том, как будет сохраняться документальное наследие Америки и как к нему будут получать доступ будущие поколения.
Согласно публикации на сайте TechRepublic (см. https://www.techrepublic.com/article/news-national-archives-museum-ai/ ), Национальные Архивы внедряют инструменты на основе ИИ для обработки своей обширной коллекции, насчитывающей около 13,5 миллиардов страниц текстовых документов, 40 миллионов фотографий и бесчисленное множество других исторических артефактов. Масштабы этого проекта невозможно переоценить: при нынешней численности сотрудников и при использовании традиционных методов каталогизации потребовались бы столетия на то, чтобы должным образом проиндексировать и сделать доступными для поиска все архивные фонды.
Развёртываемая система ИИ в первую очередь ориентирована на распознавание текста (OCR) и обработку естественного языка для преобразования рукописных и печатных исторических документов в доступный для поиска цифровой текст. Эта технология даст возможность исследователям, историкам и представителям широкой общественности отыскивать конкретные документы, имена и события в огромной коллекции Национальных Архивов с беспрецедентной скоростью и точностью. Последствия выходят далеко за рамки одного лишь обеспечения эффективного поиска - они представляют собой демократизацию исторических знаний, которые ранее были доступны только тем, у кого было время и ресурсы для физического посещения Национальных Архивов и/или работы с его ограниченными по охвату и детальности цифровыми каталогами.
Техническая инфраструктура, лежащая в основе исторических исследований
Внедрение ИИ в Национальных Архивах опирается на развитые модели машинного обучения, специально обученные на исторических документах. В отличие от современного текста, при работе с историческими документами возникают уникальные проблемы: это и различные стили почерка, деградировавшее качество бумаги, устаревшая терминология и непоследовательное форматирование, использовавшиеся в различные периоды времени и в различных государственных учреждениях. Системы ИИ должны уметь понимать контекст, распознавать закономерности в рукописях XVIII века так же легко, как и в машинописных меморандумах XX века, и различать похожие имена или термины, которые могут встречаться в документах разных десятилетий.
В рамках данного проекта Национальные Архивы сотрудничают с поставщиками технологий, специализирующимися на оцифровке культурного наследия и архивной обработке. Подобное партнерство позволяет объединить как опыт разработки передовых технологий ИИ, так и опыт удовлетворения специализированных требований, связанных с обеспечением долговременной сохранности исторических материалов. Системы спроектированы таким образом, чтобы выделять тексты с неоднозначной интерпретацией и представлять их на проверку человеком, обеспечивая тем самым, что стремление к эффективности не повлияет на точность – это критически важный фактор при работе с первоисточниками, представляющими собой основу исторических исследований.
Трансформация методологий проведения исследований и исторической науки
Воздействие на методологии исторических исследований обещает быть революционным. Ученые, которые раньше тратили месяцы или годы на ручной поиск в коллекциях документов, теперь могут проводить всесторонний поиск по миллионам страниц за считанные минуты. Тем самым появляется возможность для использования совершенно новых форм исторического анализа, включая крупномасштабное распознавание закономерностей, привязку материалов социальных сетей к историческим личностям и выявление ранее неизвестных взаимосвязей между событиями и отдельными лицами.
Инструменты ИИ особенно ценны для возможности услышать маргинализированные голоса и забытые нарративы в американской истории. Хранящиеся в архивах документы, касающиеся женщин, меньшинств и представителей рабочего класса, часто было трудно систематически отыскивать. Делая доступной для поиска всю коллекцию Национальных Архивов, система ИИ даёт исследователям возможность выявлять и изучать этих, ранее находившихся в теми действующих лиц американской истории и их вклад в американское общество. Данная технологическая возможность хорошо согласуется с более широким движением в рамках сообщества специалистов-историков, направленным на формирование более инклюзивных и репрезентативных описаний прошлого.
Неприкосновенность частной жизни, точность и этические соображения
В связи с внедрением ИИ в Национальных Архивах встают важные вопросы об обеспечении неприкосновенности частной жизни (защите персональных данных), особенно в отношении более поздних документов. Хотя большинство архивных материалов достаточно давние для того, чтобы избежать современных проблем с защитой персональных данных, в архивных фондах также хранятся документы, относящиеся к концу 20-го и началу 21-го веков. Архивному учреждению необходимо сбалансировать право общественности на доступ к государственным документам с правами отдельных лиц на неприкосновенность частной жизни, что осложняется способностью ИИ быстро сопоставлять и связывать разрозненные фрагменты информации.
Ещё одним важным поводом для озабоченности являются проблемы с точностью. Системы ИИ, несмотря на свою изощрённость, не являются непогрешимыми. Неправильно прочитанные символы, неверно истолкованный контекст и алгоритмическая предвзятость могут привести к некорректным транскрипциям или вводящим в заблуждение результатам поиска. Национальные Архивы внедрили ряд мер контроля и управления качеством, включая надзор человека над сформированными ИИ транскрипциями, и сохранение оригинальных образов документов наряду с преобразованным в цифровую форму текстом. Исследователям рекомендуется проверять созданные ИИ транскрипции, сверяя их с первоисточниками, тем самым поддерживая научную строгость, столь необходимую для исторических исследований.
(Окончание следует)
Дейв Ричи (Dave Ritchie)
Источник: сайт WebProNews (WPN)
https://www.webpronews.com/inside-the-national-archives-unprecedented-ai-experiment-how-machine-learning-is-unlocking-americas-historical-memory/


Комментариев нет:
Отправить комментарий