Данная заметка была опубликована в сентябре 2021 года на сайте Института Алана Тьюринга (The Alan Turing Institute). В ней рассказывается об отчёте, подготовленном по итогам недельного семинара, проведенного 9-13 декабря 2019 года в Институте Алана Тьюринга. Отчет объёмом 49 страниц, официально опубликованный 18 июня 2021 года, доступен по адресу https://www.turing.ac.uk/sites/default/files/2021-06/data_study_group_final_report_2020_-_national_archives.pdf
Во вводной части документа отмечается:«Национальные Архивы Великобритании являются официальным архивом и издателем для центрального правительства Великобритании, а также для правительств Англии и Уэльса. Национальные Архивы выполняют роль хранителя некоторых из самых знаковых документов и фондов страны - возраст некоторых превышает 1000 лет. Они также отвечают за сохранение материалов, которые были опубликованы в Интернете органами и учреждениями правительства Великобритании.
Веб-архив правительства Великобритании (UK Government Web Archive, UKGWA) - это обширный ресурс, включающий контент государственных веб-сайтов и социальных сетей, который является важным источником по новейшей национальной истории, охватывающий 23 года. Он содержит более пяти миллиардов объектов [resources - идентифицируемых уникальными URL-идентификаторами] и является одним из наиболее часто используемых веб-архивов мира, «собирающим» сотни тысяч просмотров страниц ежемесячно.
Национальные Архивы Великобритании несут ответственность за сохранение государственного веб-контента во всех его формах (включая веб-страницы, официальные публикации, наборы данных, материалы социальных сетей, такие, как твиты и мультимедийный контент), и стремятся обеспечить долговременную сохранность этой части документального наследия, где это возможно, в её первоначальном контексте с помощью данного архивного ресурса. Веб-архив полностью доступен через Интернет, включая сервис полнотекстового поиска, и доступ к нему является бесплатным. Объёмы, разнообразие форматов и сложность этой обширной коллекции затрудняют пользователям поиск интересующего их контента, и, как следствие, возрастает нагрузка на справочно-поисковую службу, связанная с удовлетворением потребностей этих пользователей.
Институт Алана Тьюринга является национальным институтом, занимающимся вопросами науки о данных и искусственного интеллекта, со штаб-квартирой в Британской библиотеке. «Группы изучения данных» (Data Study Groups) - это проводимые Институтом Алана Тьюринга интенсивные пятидневные совместные хакатоны, которые собирают представителей организаций государственного, коммерческого и некоммерческого секторов, а также исследователей по различным направлениям из академических кругов. Национальные Архивы являются владельцем «Вызова группам изучения данных»; их эксперты присутствовали в течение всей недели работы хакатона и являются соавторами настоящего отчёта. Они представили реальную проблему на рассмотрение данной группы исследователей, деятельность которой направляли главный исследователь (Principal Investigator) и координатор (Facilitator). Данный отчёт является кульминацией этого процесса.
Проблема, которую мы рассматриваем в этом отчёте, заключается в том, чтобы предпринять шаги для улучшения для будущих пользователей процесса поиска и обнаружения материалов в этом огромном архиве, а также в изучении вопроса о том, как можно было бы начать «разблокирование» коллекции веб-архива UKGWA для проведения исследований и экспериментов, рассматривая её как данные (т.е. как огромный набор данных). Одновременно веб-архив начал независимо изучать полезность моделирования гиперссылочной структуры своей коллекции для расширенного исследования входящих в её состав материалов. Целью данных совместных усилий является тестирование алгоритмов, способных искать документы по темам, которые они охватывают (например, «изменение климата»), с учётом будущего сближения этих двух направлений исследований. Такой двусторонний подход идеально подходит для изучения появления новых тем и того, как они отражаются на государственных веб-сайтах с течением времени; и он будет указывать на приоритеты взаимодействия и на то, как они меняются с течением времени.
Последний раз Национальные Архивы Великобритании выполняли проект по использованию инструментов обработки естественного языка (natural language processing, NLP) в веб-архиве UKGWA в 2010 году. Проект дал многообещающие результаты и продемонстрировал полезность данного подхода для решения некоторых проблем поиска объектов при поиске по неструктурированному контенту, собираемому в течение длительного периода времени. В конечном итоге данный проект столкнулся с трудностями на этапе запроса предложений из-за его масштабов, и в итоге так и не был создан подходящий для исследователей пользовательский интерфейс. Тем не менее, участники проектной группы многому научились, и за прошедшее с тех пор время в этой области был достигнут значительный прогресс с точки зрения программного обеспечения, вычислительных методов и доступности необходимых для предоставления услуги пользователям вычислительных мощностей. Поэтому было сочтено своевременным заново вернуться к концепциям с конечной целью улучшения доступа к веб-архиву.
Основные цели
Общая цель заключается в том, чтобы использовать эти курируемые наборы данных, содержащие «образцовые» документы, для изучения алгоритмов, которые способны идентифицировать похожие документы во всем корпусе материалов и выделить темы, которые те охватывают. Данная работа будет способствовать созданию обзора фондов веб-архива UKGWA, который будет разработан для включения в сервисы для пользователей, для улучшения поиска и дальнейшего способствования использованию материалов веб-архива UKGWA.
Основные задачи заключаются в том, чтобы дать представление о том, 1) какие подходы могут использоваться для содействия пониманию данных в UKGWA; 2) каковы наиболее жизнеспособные подходы к улучшению предлагаемых пользователям услуг по поиску и извлечению объектов.»
Содержание документа следующее:
1. Краткое резюме для руководства
2. Количественная постановка проблемы
3. Качественная постановка проблемы
4. Удобство работы пользователей
5. Описание данных
6. Эксперимент: массовое распознавание и различение объектов / сущностей
7. Эксперимент: векторные представления (document embedding)
8. Эксперимент: кластеризация
9. Эксперимент: интерфейс
10. Направления будущей работы и исследований
11. Состав группы
12. Примечания
13. Благодарности
Литература
Мой комментарий: Просто собрать много материалов, не дав им погибнуть – безусловно, гораздо лучше, чем всё утратить. Однако Национальные Архивы Великобритании в какой-то степени стали жертвами своих же успехов – они быстро собрали очень много материалов, но при этом своевременно не продумали, как затем эти материалы эффективно использовать, не вложили необходимых усилий в упорядочение и описание. Теперь им приходится искать инновационные решения проблемы, потому, что традиционное архивное описание накопленных богатств было бы неподъёмно трудоёмким и затратным …
Россия благополучно утратила если не все, то почти все материалы первых десятилетий электронной эпохи (и пока что продолжает их терять во всё возрастающих масштабах). Конечно, когда-нибудь даже Росархив очнётся от спячки (особенно если руководство страны в какой-то момент пойдёт на не слишком гуманные организационные меры) – и хотя утерянного нам уже вряд ли вернуть, но мы можем хотя бы облегчить себе жизнь на будущее по сравнению с зарубежными коллегами, если сразу самым серьёзным образом «вложимся» в решение вопросов упорядочения, описания, классификации, поиска и раскрытия сохранённого веб-контента.
Источник: сайт Института Алана Тьюринга
https://www.turing.ac.uk/research/publications/data-study-group-final-report-national-archives-uk