среда, 3 июля 2019 г.

Великобритания: Как научить компьютер читать?


Заметка электронного архивиста Национальных Архивов Великобритании Франчески Маккензи (Francesca Mackenzie – на фото) была опубликована 13 мая 2019 года на блоге Национальных Архивов.

Когда Вы читали заголовок этого блога, Вам, возможно, приходила в голову мысль: «Зачем нам вообще нужно, чтобы компьютер мог читать?». Ответ на этот вопрос заключается в том, что, несмотря на огромный размер онлайн-каталога Discovery («Открытие») Национальных Архивов Великобритании (см. https://discovery.nationalarchives.gov.uk/ ), существует гораздо больше информации об этих фондах! Компьютеры могут помочь нам раскрыть эту ранее скрытую информацию.

Возьмём, например, серию PROB 11 ( https://discovery.nationalarchives.gov.uk/details/r/C12122 ) - обширный набор зарегистрированных экземпляров завещаний, подтверждённых прерогативным судом Кентербери (Prerogative Court of Canterbury). Документы относятся к периоду с 1384 по 1858 год и содержат богатейшую информацию о местах, бенефициарах, семьях, взаимоотношениях, товарах, религии, ценностях и земельной собственности, и о многом другом.

Одно завещание может содержать информацию о нескольких людях, однако в приведенном в каталоге описании указаны лишь завещатель, место и дата, что затрудняет поиск по остальным данным. Имея дело с 2 тысячами томов, каждый из которых содержит тысячи страниц, добавление дополнительной информации стало бы колоссальной задачей для волонтёров, которым пришлось бы извлечь более «сложные» данные или подготовить протранскрибировать документы. Именно в таких ситуациях нам бы не помешала помощь.

Пример завещания из коллекции PROB 11, в сопоставлении с его описанием в каталоге

Недавно я закончила в Национальных Архивах работу по гранту «Ранняя карьера» (Early Career Fellowship) в Национальном архиве – он стал первым из грантов, очень щедро спонсированных «Друзьями Национальных Архивов» (Friends of The National Archives,  https://ftna.org.uk/ ). Выделенное мне место было в составе группы электронных исследований (Digital Research Team), и я помогала в одном из их текущих исследовательских проектов, а именно в транскрибировании документов серии PROB 11 с использованием машинного обучения. Тема была достаточно широкой, рассматривались различные варианты краудсорсинга в сочетании с процессами распознавания рукописного текста с использованием программного обеспечения Transkribus.

Transkribus (см. https://transkribus.eu/Transkribus/ ) - это программное обеспечение, которое каждый может скачать, и которое может читать рукописные документы. Для этого требуется подготовить полную транскрипцию (расшифровку) обучающей выборки документов. Документы из обучающей выборки и их транскрипции загружаются в программное обеспечение, которое затем создает модель почерка. Эту модель оно может использовать для прочтения других документов, написанных тем же стилем почерка. Как только начнут поступать результаты на основе модели, мы можем повысить точность, сообщая программе об ошибках, - в итоге получая всё более и более качественные результаты.

«Цикл краудсорсинга» (точнее, цикл непрерывного совершенствования модели – Н.Х.)

Что касается обучения, то компьютеры очень похожи на людей: большее количество примеров и опыта позволяют им намного лучше читать текст. Если вы попросите компьютер прочитать текст, написанный почерком, которого он раньше не видел, он, возможно, не справится с это задачей; а слова, которые он видит реже, будут правильно прочитаны с меньшей вероятностью. Именно поэтому такие коллекции, как серия PROB 11, идеально подходят для экспериментов с программным обеспечение такого типа, поскольку тексты очень формализованы, а стиль письма является стабильным.

Чем мы можем здесь помочь? По ходу всего процесса есть две точки, где свой вклад вносит человек – это полная транскрипция в самом начале, а также на стадии корректировки результатов. Многим нравится транскрибировать документы, но вот коррекция выданных компьютером результатов рассматривается как более обыденная задача, которая не столь увлекательна. Однако, с точки зрения эффективности, корректировка документов занимает гораздо меньше времени.

Значительная часть данного исследовательского проекта заключалась в том, чтобы сделать корректировку более приятным и легким для пользователя делом, с учётом основных мотивов, по которым люди занимаются расшифровкой документов.

Таблица, отражающая мотивацию пользователя заниматься транскрибированием документов

Это исследование можно разделить на три ключевые области. Первая – поиск способа визуализации поправок на большом экране. Чтобы выделить области, которые с наибольшей вероятностью могут быть ошибочными, и сделать их более легко находимыми, мы использовали инструмент обработки текстов на естественном языке (Natural Language Processing) для оценки вероятностей того, что Transkribus мог ошибиться. Затем, используя эти вероятности, мы подсвечивали определенные строки, которые больше всего нуждались в корректировке, с тем, чтобы пользователи могли в первую очередь сосредоточиться на них. Было очень весело использовать разные цвета для выделения.

Что касается мотивации заниматься расшифровкой документов, волонтерам часто доставляет удовольствие знать контекст и историческую подоплёку тех документов, которые они обрабатывают. Когда отображается полная страница, появляется возможность не только вносить исправления, но и прочитать документ целиком.

Вторая область исследований была связана с анализом краудсорсинговых проектов в различных секторах. Самые захватывающие проекты опирались на две или более мотивации для волонтёров. Был, например, проект, в котором группа устраивала пробежку, а также расписывала общественный центр, тем самым одновременно помогая сообществу и способствуя укреплению физической формы и социальному общению участников. Волонтерские проекты, благодаря которым их участники изучали или развивали определенные навыки, также были очень успешными.

Ещё одним важным фактором были инициативы, позволяющие экономить время. Если у Вас есть возможность делать два или более дел одновременно, вероятность успешности проекта выше. Краудсорсинг и волонтерство должны вписываться в жизнь людей, и это демонстрирует рост числа инициатив по микро-волонтерству.

Среднестатистический гражданин Великобритании каждый день проводит около часа в пути. С учётом этого мы провели кое-какие эксперименты с идеей разработки мобильных приложений и транскрибирования «на ходу», с дополнительной целью – получить возможность одновременно обучать пользователя палеографии. Мы создали демо-версию мобильного приложения под названием «Многие руки» (Many Hands), в котором пользователю предлагаются упражнения для улучшения навыков палеографии «на ходу», в то же время одновременно корректирую результаты, полученные от Transkribus.

Скриншот приложения «Многие руки». Документы из коллекции PROB 11 используются для демонстрации потенциальных неточностей

Наконец, мы внимательно рассмотрели способы сделать транскрибирование увлекательным для тех, кто, возможно, вообще не знает об этой работе. В результате в начале этого года мы провели игровую джем-сессию (Game Jam) совместно с проектом «Транскрибирование Бентама» (Transcribe Bentham Project) Университетского колледжа Лондона (University College London, UCL) и с командой UCL «Инновации и предпринимательство» (Innovation and Enterprise). Более подробную информацию об этом можно найти в наших предыдущих постах здесь: https://blogs.ucl.ac.uk/transcribe-bentham/2019/02/28/project-update-game-jam/ и здесь: https://blog.nationalarchives.gov.uk/blog/hacking-past-archives-game-jam/ .

Целью игровой сессии было сделать более увлекательным процесс корректировки и расшифровки. В ней приняло участие 55 человек с различными интересами и точками зрения, от ученых до разработчиков игр, и они выдвинули ряд удивительно изобретательных предложений. Победила идея, представлявшая собой вариант игры Frogger, в которой игрок должен уклоняться и транскрибировать уголовные документы из серии HO13. Смотрите сами! (здесь: https://nationalarchives.github.io/transcribegames/ ). Это был большой успех, и мы получили на сессии не только множество новых фантастических идей, но и уверенность в том, что транскрибирование может быть весёлым и занимательным для всех!

Идеи, предложенные для игровой сессии

Хочу выразить огромную благодарность «Друзьям Национальных Архивов» за поддержку этого исследования, а также сотрудникам UCL и проекту «Транскрибирование Бентама» (  https://www.ucl.ac.uk/bentham-project/transcribe-bentham ), особенно д-ру Луизе Сиворд (Louise Seaward), которая сделала возможной проведение игровой сессии.

Франческа Маккензи (Francesca Mackenzie)

Источник: блог Национальных Архивов Великобритании
https://blog.nationalarchives.gov.uk/how-to-teach-a-computer-to-read/

Комментариев нет:

Отправить комментарий