среда, 1 августа 2018 г.

Великобритания: Как директор по электронным технологиям Национальных Архивов Джон Шеридан оцифровывает государственные документы


Данная заметка Лори Кларк (Laurie Clarke) была опубликована 9 июля 2018 года на сайте издания «Директор по информационным технологиям» (CIO UK).

Национальные Архивы – ведомство правительства Великобритании, не являющееся министерством или его частью и напрямую не подотчетное какому-либо министру (non-ministerial department - т.е. обладающее определенной долей самостоятельности – Н.Х.), которое хранит официальные британские архивы за тысячу лет.

Национальным Архивам поручено обеспечение сохранности важного политического и культурного наследия, в том числе как физических, так и электронных документов, от завещания Шекспира до твит-сообщений с учетных записей должностных лиц государственных органов. В состав электронного контента входят документы с веб-сайта Управления национальной статистики (Office for National Statistics) и сайта открытых данных data.gov.uk.

Директор Национальных Архивов по электронным технологиям Джон Шеридан (John Sheridan - на фото) работает в ведомстве с 2010 года. В настоящее время участвует в одном из наиболее захватывающих проектов за всю свою длительную карьеру - огромном проекте оцифровки всех коллекций Национальных Архивов, выполняемом в партнерстве с компанией по веб-архивации MirrorWeb.

Оцифровка этой обширной коллекции естественным образом вписывается в цели данного учреждения. «По мере того, как деятельность по государственному управлению была перенесена в Интернет-среду, мы шли вслед. Мы уже много лет прилагаем усилия к тому, чтобы захватить, сохранить и сделать доступным в Интернете полный архив материалов правительства Великобритании», - говорит Шеридан. «Это неотъемлемая подхода правительства к сохранению его корпоративной памяти».

«Мы являемся физическим архивом, и мы также являемся электронным архивом первого поколения, переходя сейчас к созданию построенного на совершенно иных принципах электронного архива второго поколения».

Обеспечение сохранности государственных документов, несомненно, является важной задачей, но кто те люди, которые, скорее всего, будут регулярно использовать эту базу данных? - «Это на самом деле любой, кто интересуется тем, что говорило правительство, начиная от гражданина-активиста, который хочет сослаться на заархивированные нами материалы в рамках дискуссии в Twitter, - и вплоть до людей, работающих внутри самого правительства», - отвечает Шеридан.

 «Мы знаем, что многие государственные служащие и государственные чиновники будут использовать наш веб-архив для того, чтобы быстро и просто проверить, что представляла собой прежня политика, или же для выяснения того, что было сказано в старом документе».

Ранее веб-архив поддерживался с использованием «специально разработанной локальной инфраструктуры хостинга». Соответственно, по словам Шеридана, ещё одна цель проекта - перенести эту коллекцию в облачное хранилище, а также улучшить возможности для поиска, доступа и использования ей заинтересованными в этом людьми. «Поиск - традиционно очень сложная задача для большого веб-архива, а объём данной коллекции в настоящее время составляет около 135 терабайт, так что она довольно-таки крупная», - говорит он.

Дополнительные сложности связаны с тем, что коллекция включает не только текстовые материалы. «В коллекции есть видеоматериалы, тексты, электронные таблицы, исходные данные, CSV-файлы, фотографии и изображения, самые разнообразные материалы», - говорит Шеридан. «Это очень разнообразная коллекция данных».

Чтобы улучшить возможности поиска по этому обширному контенту, Национальные Архивы используют технологии оптического распознавания текста (OCR), которое представляет собой электронное преобразование письменного текста в машиночитаемый текст; это общераспространенный способ оцифровки печатных документов.

«Распознавание этого контента означало, что мы впервые смогли обеспечить полнотекстовой поиск по всем хранящимся в архиве материалам», - говорит Шеридан.

«Затем мы смогли добавить к поиску дополнительные возможности его настройки», - говорит он. «Если что-то было выложено на старом веб-сайте Департамента образования, и вы знали, что этот материал был именно там, то вместо поиска по всему веб-архиву Вы теперь сможете искать материалы именно этого домена и найти весь контент, который мы заархивировали внутри этого домена за всё время, - или же Вы можете ограничить свой поиск определенным периодом времени».

Шеридан также видит возможности, которые предлагают различные нарождающиеся технологии. «У нас большой интерес к искусственному интеллекту, и мы рассматриваем для него целый ряд различных применений, которые поддерживаются облачной средой, поскольку, когда речь идёт об обработки больших объёмов контента, мы видим возможности для улучшения доступа и интеллектуальный контроль, а также нашего понимания коллекции», - говорит он.

«Под искусственным интеллектом могут пониматься технологии распознавания рукописного текста, но мы также изучаем возможности искусственного интеллекта в таких областях, как экспертиза ценности и отбор – скажем, при сортировке электронной почты, чтобы с его помощью получить возможность различать личную переписку и деловую электронную почту».

Технологии блокчейна также представляют потенциальный интерес для Национальных Архивов. «Мы очень заинтересованы в технологиях, связанных с обеспечением доверия и аутентичности, поэтому мы проводим немало исследований в связи с технологиями, обеспечивающими уверенность в неизменности документов во времени», - подчёркивает Шеридан.

Текущий проект представляет собой ключевой момент в его длительной карьере в Национальных Архивах. «Это один из интереснейших проектов, в которых мне довелось принимать участие», - отмечает он. «Я здесь работаю уже около 10 лет, и это просто блестящий проект».

Лори Кларк (Laurie Clarke)

Источник: сайт издания CIO UK
https://www.cio.co.uk/cloud-computing/national-archives-digital-director-john-sheridan-digitises-government-records-3680240/

Комментариев нет:

Отправить комментарий