среда, 26 октября 2022 г.

Архивы: Искусственный интеллект заставляет документы говорить

Данная заметка была опубликована 21 сентября 2022 года на сайте Министерства культуры Франции.

По случаю проводимой во Франции Недели генеалогии (Semaine de la généalogie) Межведомственная служба Архивов Франции (Service interministériel des Archives de France, SIAF – архивное ведомство, которое подчинено Министерству культуры Франции – Н.Х.) рассказывает о плодотворном вкладе искусственного интеллекта в архивные исследования.

Новые функциональные возможности, открывающие неожиданные перспективы, изменение масштаба взаимосвязей между информацией, автоматическое распознавание рукописных документов... В течение нескольких последних лет вклад искусственного интеллекта в архивные исследования оказался несравненно богатым и беспрецедентным. «Искусственный интеллект затем находит сокровище, он заставляет документы говорить!» - резюмирует глава французского архивного ведомства Франсуаза Банат-Берже (Françoise Banat-Berger – на фото).

У истоков этой маленькой революции мы находим желание Межведомственной службы архивов Франции (Service interministériel des archives de France, SIAF, https://francearchives.fr/ ) Министерства культуры изучить возможности искусственного интеллекта с целью их использования в интересах архивов. Эта работа перешла в новую фазу в начале 2022 года с запуском амбициозного проекта SOCFACE (см. https://www.culture.gouv.fr/Presse/Communiques-de-presse/Lancement-du-projet-Socface-l-intelligence-artificielle-appliquee-aux-documents-d-archives ), целью которого является широкомасштабное изучение эволюции французского общества за столетие с 1836 по 1936 год на основе масштабного использования данных переписей населения.

По случаю Недели генеалогии (см. https://www.rfgenealogie.com/agenda/semaine-de-la-genealogie-a-mandelieu-la-napoule ), в рамках которой 26 сентября состоится круглый стол на данную тему (использования ИИ в архивном деле – Н.Х.), глава SIAF Франсуаза Банат-Берже, ответила на ряд вопросов, связанных с проблемами использования искусственного интеллекта в архивах.

«Искусственный интеллект делает более доступными сухие, но в то же время необычайно богатые - будь то с исторической, семейной или личной точки зрения - источники»

Вопрос: Уже в течение ряда лет искусственный интеллект играет ключевую роль в обработке многих архивных фондов. Каким образом его применение революционизирует данную сферу деятельности?

Ответ: Чтобы сделать архивные документы доступными для как можно большего числа людей, архивные службы очень рано оцифровали и разместили в Интернете свои наиболее часто используемые источники - в частности, генеалогические: записи актов гражданского состояния, материалы переписей населения, нотариальные регистры и т.д. Сегодня в Интернете доступны сотни миллионов страниц, и усилия по оцифровке и размещению в открытом доступе архивных материалов продолжаются. Однако из этих миллионов страниц, этих миллиардов строк и сотен миллиардов слов нельзя извлечь нужную информацию «в один клик». Она становится доступной только после проведения исследований, которые, к счастью, поддерживаются различными разработанными архивными службами инструментами, такими как формы поиска по дате и по месту.

Как только машине можно доверить автоматическое чтение всех этих письменных текстов, поиск становится не только мгновенным, но и выявляется неожиданная информация. Возможность полнотекстового поиска по нотариальному реестру может не только упростить отыскание материалов, связанных с конкретной фамилией, но также найти, например, все вхождения названия улицы, профессии, вида деятельности, которые в одиночку люди никогда не смогут ни прочитать, ни проиндексировать.

Эта революция сравнима с той, которая сегодня позволяет в онлайн-библиотеках, таких как Gallica ( https://gallica.bnf.fr/accueil/fr/content/accueil-fr?mode=desktop ), за долю секунды выполнять поиск по тысячам коллекций книг и газет. В мире архивов результат, вероятно, будет еще более поразительным, поскольку архивные документы по своей природе являются уникальными, и в большинстве случаев они не создавались для чтения подобно книгам. Искусственный интеллект затем находит «сокровище», он заставляет документы говорить!


Проект SOCFACE нацелен на обработку данных переписей населения Франции в период между 1836 и 1936 годами © SOCFACE

Как Вы только что подчеркнули, одно из основных достижений этих инициатив заключается в том, чтобы сделать источники более доступными для всех аудиторий. Будет ли это в конечном итоге способствовать большей демократизации архивов?

В гены архивных служб заложено призвание демократизировать доступ к хранимым ими документам. Архивные документы действительно открыты для всех, бесплатно и независимо от причины исследования или уровня диплома. Однако работа с архивными документами остаётся непростым делом: они отражают создавшие их учреждения, чью историю и функционирование часто бывает трудно понять, и, прежде всего, они не создавались для тех целей, для которых мы их используем сегодня.

Даже тогда, когда есть возможность привлечь посредников, предпринимающих значительные усилия для облегчения выявления документов и поддержки пользователей при работе с ними, часто бывает необходимо запастись большим терпением, чтобы, например, отталкиваясь от одной части информации, добраться до другой; иле же просто для того, чтобы расшифровать старые рукописные тексты. Разрушая барьер, связанный с пониманием рукописных и древних текстов, и позволяя выполнять полнотекстовый поиск по документам, искусственный интеллект тут же делает более доступными сухие, но в то же время необычайно богатые - будь то с исторической, семейной или личной точки зрения - источники.

Сегодня, например, благодаря проекту Himanis (см. https://www.irht.cnrs.fr/fr/recherche/les-programmes-de-recherche/himanis ), в котором приняли участие Национальные Архивов Франции, можно, не обучаясь палеографии, искать все случаи появления конкретного слова в реестрах французской королевской канцелярии начиная с конца Средних веков.


Поимённые списки жителей (liste nominatives) департамента Приморская Шаранта (Charente Martime) © Archives départementales de Charente Martime

Был начат ряд крупных проектов, в том числе поддерживаемый Межведомственной службой Архивов Франции проект SOCFACE ( https://francearchives.fr/fr/actualite/491300912 ), который является первым в мире проектом такого рода по обработке данных переписей населения Франции в 19-м и 20-м веках. Насколько инновационным является этот проект?

До сих пор проекты по автоматическому распознаванию рукописных символов охватывали лишь относительно небольшое число документов, часто хранящихся в одном учреждении и относительно однородных с точки зрения их формы и стиля письма. Я уже упоминала реестры королевской канцелярии, то сюда же относятся и реестры нотариусов 19-го века, рукописные описи документов, хранящихся в Национальных Архивах, и даже реестры Бургундского государства (États de Bourgogne) в архивах департамента Кот-д'Ор (Côte-d’Or).

Проект SOCFACE является инновационным в плане его географического и хронологического охвата, поскольку он нацелен на обработку материалов всех переписей населения Франции в период между 1836 и 1936 годами, что соответствует массиву в 15 миллионов графических образов и, вероятно, 500 миллионам персональных записей.

Проект амбициозен ещё и в связи с тем, что в период с начала 19-го по начало 20-го века изменился стиль письма, равно как и представление поимённых переписных списков, а также точность содержащейся в них информации. Конечно, недавно Соединённые Штаты также применили автоматическое распознавание символов к документам такого же типа – материалам переписи, но это была одна только перепись 1950 года, документы которой к тому же сильно стандартизированы.

В проекте SOCFACE ( https://socface.site.ined.fr/ ) амбиции куда больше, тем более, что проект направлен не только на компьютерное транскрибирование текстов из переписных листов, но и на связывание воедино содержащейся в них информации. В результате мы сможем изучить на протяжении столетия эволюцию семейных структур, появление и исчезновение профессий, их распространение по территории Франции. Таким образом, станет возможным пролить свет, например, на трансформации рынка труда, причины и последствия миграции или даже эволюцию неравенства. Чрезвычайно богатую персонализированную информацию будут иметь в своём распоряжении не только специалисты по генеалогии, но также и историки, социологи, демографы, экономисты ...

Источник: сайт Министерства культуры Франции
https://www.culture.gouv.fr/Actualites/Archives-l-intelligence-artificielle-fait-parler-les-documents

Комментариев нет:

Отправить комментарий