понедельник, 4 августа 2025 г.

Расширение доступа к архивным документам с помощью искусственного интеллекта: Инновации в сфере культурного наследия на основе «участия человека в контуре управления»

Данный пост эксперта в области управления электронными документами, эксперт ИСО от США и сотрудника компании MetaArchivist Consulting Энди Поттера (Andy Potter - на фото) был опубликован 17 июня 2025 года в социальной сети Substack.

Мой комментарий: Полный текст поста находится в платном доступе; ниже переведена предоставляемая бесплатно выдержка из него.


Введение

Архивы и хранилища документации по всему миру хранят обширные коллекции бумажных документов, фотографий и материалов на иных носителях, отыскать которые и получить к ним доступ к в электронном виде сложно. Доступ к большей части этих материалов, от исторических рукописей и до машинописных документов, можно получить только путем физического просмотра или чтения, что является трудоемким процессом. 

Сегодня искусственный интеллект (ИИ) предлагает новые способы решения этой проблемы. Такие технологии, как оптическое распознавание символов (Optical Character Recognition, OCR) для печатного текста и распознавание рукописного текста (Handwritten Text Recognition, HTR) для рукописей, способны автоматически транскрибировать отсканированные архивные документы, превращая их в оцифрованный текст и делая их более доступными, в том числе посредством поиска по ключевым словам. 

Крайне важно то, что эти ИИ-инструменты наиболее эффективны в рамках подхода «человек в контуре» (human-in-the-loop), когда архивисты и специалисты по управлению информацией направляют, обучают и корректируют ИИ с целью обеспечения точности и аутентичности. 

В данной заметке рассматривается, каким образом ИИ используется для улучшения доступа к архивным материалам, с реальными примерами из опыта работы Национальных архивов Голландии и других инициатив, - и подчеркивается важность в этих инновациях человеческого надзора, стандартов и хороших практик.

Транскрипция с помощью ИИ-инструментов в действии: Опыт Национальных архивов Голландии

Один из новаторских примеров взят из опыта Национальных архивов Голландии. Столкнувшись с проблемой управления огромной коллекцией бумажных документов (более 140 погонных километров документов – для Голландии это довольно много :) – Н.Х.), архив инициировал амбициозную программу оцифровки, предусматривающую сканирование и транскрибирование миллионов страниц. 

Национальные архивы Голландии планирует в течение последующих 15 лет отсканировать около 10% своих фондов - более 100 миллионов страниц - и использовать распознавание рукописного текста на основе ИИ, чтобы сделать эти цифровые изображения доступными для полнотекстового поиска. 


В центре внимания на первом этапе этого проекта были 3 миллиона страниц исторических документов (включая документы Голландской Ост-Индской компании XVII–XVIII веков и нотариальные акты XIX века), которые были автоматически транскрибированы с использованием технологии HTR. Преобразовывая рукописные страницы в машиночитаемый текст, архивы стремились радикально повысить доступность документов для исследователей и общественности. В рамках проекта архивисты-люди подготовили наборы данных для обучения и проверки, обеспечивая тем самым, что точность выходных данных ИИ-моделей и возможность им доверять.

Эндрю Поттер (Andrew Potter)

Источник: сайт Substack
https://metaarchivist.substack.com/p/augmenting-archival-access-through 

Комментариев нет:

Отправить комментарий