понедельник, 11 февраля 2019 г.

Веб-архивы Библиотеки Конгресса США: Пробуем пальцем воду в озере данных, часть 1


Данная заметка Чейза Дули (Chase Dooley) и Грейс Томас (Grace Thomas) была опубликована на сайте Библиотеки Конгресса США 9 января 2019 года в блоге «Сигнал» (The Signal).

Сегодняшний гостевой пост подготовлен Чейзом Дули и Грейс Томас - специалистами по электронным коллекциям из группы веб-архивирования Библиотеки Конгресса США.

В течение последних двух десятилетий в рамках программы веб-архивации Библиотеки Конгресса ( https://www.loc.gov/programs/web-archiving/about-this-program/?loclr=blogsig ) были приняты на хранение и сделаны доступными более 16 тысяч архивных объектов (которые авторы называют «веб-архивами» (web archives) – Н.Х.) ( https://www.loc.gov/websites/?loclr=blogsig ), в составе более чем 114 коллекций, посвященных конкретным событиям и темам ( https://blogs.loc.gov/thesignal/2018/08/more-web-archives-less-process/?loclr=blogsig ).

Каждый такой архивный объект содержит материалы одного или нескольких веб-сайтов, которые, в свою очередь, представлены в виде совокупности множества файлов, отображаемых совместно в браузере как веб-страница. В составе этой совокупность файлов - и изображения, которые Вы видите на целевой странице вашего любимого новостного (или сплетничающего – здесь мы нейтральны) сайта; и наполняющие статьи тексты; и фрагменты кода, благодаря которым Вы получаете чистую, чёткую современную разметку. Все вместе эти файлы позволяют Вам увидеть цельную веб-страницу.

Имея дело с архивом, содержащим более 1,7 петабайта данных, отслеживание каждого их веб-объектов, участвующих в формировании веб-сайтов, которые, в свою очередь, образуют архивные объекты,  несколько похоже на, ну, в общем, ... попытку управлять стадом кошек.

Нашей программе повезло в том, что шёл экспоненциальный рост общего объема ежегодно собираемых данных, увеличивалось количество и разнообразие коллекций, а сбор веб-материалов всё больше становился инструментом регулярного пополнения фондов библиотеки. Однако текущая поддержка веб-архивов в условиях подобного роста объёмов оставляла мало места для изучения веб-архивов с использованием вычислительных средств. Но если Вам показалось, что вот-вот прозвучат слова «до сих пор», - то лучше Вы оставьте свою повседневную работу и купите себе колоду карт Таро ;)

Новые инструменты и рабочие процессы, используемые группой веб-архивации Библиотеки Конгресса, открыли нам дорогу для того, чтобы начать делать нечто давно назревшее: «глубокое погружение» в веб-архив. В ходе такого погружения мы надеемся сформировать более глубокое понимание природы отдельных веб-объектов в составе архива. Это более глубокое понимание в будущем позволит организовать более всестороннюю поддержку заархивированных веб-объектов. Оно в конечном итоге также обеспечит несколько вариантов доступа к архиву для Вас, наших пользователей, наших патронов, - что идеально согласуется с целью помочь «открыть сундук с сокровищами», как это сформулировано в Электронной стратегии Библиотеки Конгресса ( https://www.loc.gov/digital-strategy?loclr=blogsig ). Настоящий пост является вводным рассказом о работе, которую мы уже проделали, и о работе, которая ещё предстоит.

Лучший способ съесть «слона» веб-архивации (для нас, на настоящий момент времени)

Когда мы начали своё путешествие в этот «храбрый новый мир» вычислительного анализа, то первое, с чем мы столкнулись, была дилемма, причем довольно-таки фундаментального характера: С чего нам вообще начать? Хотя имевшиеся в нашем распоряжении инструменты и ресурсы были наилучшими, мы ещё не дошли до той точки, где были бы в состоянии провести анализ всего веб-архива - просто ввиду его размера и масштаба.

Прежде чем двигаться дальше, нам нужно определить - для тех, кто не очень хорошо знаком с веб-архивацией - рад базовых терминов. Когда мы говорим об «архивных объектах» (web archive), мы конкретно имеем в виду файлы формата WARC или его предшественника ARC, хранящиеся в электронных системах хранения Библиотеки. W/ARC-файлы являются стандартными форматами файлов для веб-архивации (см. https://www.loc.gov/preservation/digital/formats/fdd/fdd000236.shtml?loclr=blogsig ) и представляют собой сжатые контейнеры, содержащие веб-объекты и метаданных о них. Объём именно этих W/ARC-файлов в совокупности составляет почти 1,7 петабайта, о которые были упомянуты ранее. Именно размер и количество этих файлов были причиной и предметом нашего маленького предприятия. Итак, что же нам теперь делать?

К счастью, мы решили, что в качестве пилотного проекта и нашего первого «погружения» в это настоящее озеро данных нам не нужно анализировать весь веб-архив. Нас интересовали лишь несколько полей данных, которые, так уж получилось, были представлены в индексных CDX-файлах (см. https://iipc.github.io/warc-specifications/specifications/cdx-format/cdx-2006/ - эти файлы мы формируем в рамках нашего обычного рабочего процесса. Опять же, для тех, кто не очень знаком с веб-архивацией или же не переходит по гиперссылкам, приведенных в постах на блоге, скажем, что индексные CDX-файлы представляют собой объединенные строки метаданных об объектах, содержащихся в файлах W/ARC. Каждая строка в CDX-файле описывает отдельный веб-объект.

Итак, в рамках нашего первоначального анализа веб-архива мы изучали метаданные о веб-объектах, а не сами веб-объекты. Мы исходили из того, что подобный подход позволит нам получить высокоуровневое представление об архиве и станет прочным фундаментом для дальнейшего анализа.

Чейз Дули (Chase Dooley) и Грейс Томас (Grace Thomas)

(Окончание следует, см. http://rusrim.blogspot.com/2019/02/2.html )

Источник: блог «Сигнал» (The Signal) на сайте Библиотеки Конгресса США
https://blogs.loc.gov/thesignal/

Комментариев нет:

Отправить комментарий