пятница, 15 мая 2020 г.

Является ли формат WARC наилучшим для целей веб-архивации?


Данная заметка специалиста по электронной сохранности Национальной библиотеки Голландии Барбары Сирман (Barbara Sierman – на фото) была опубликована 18 апреля 2020 года на её блоге «Семена электронной сохранности» (Digital Preservation Seeds, http://digitalpreservation.nl/seeds/ ).

Недавно научно-поисковая система Google Scholar «подсказала» мне интересный препринт  по теме веб-архивации (The Case For Alternative Web Archival Formats To Expedite The Data-To-Insight Cycle – «Обоснование полезности альтернативных форматов веб-архивации для ускорения процесса извлечения знаний из данных», см. https://www.researchgate.net/publication/340332233_The_Case_For_Alternative_Web_Archival_Formats_To_Expedite_The_Data-To-Insight_Cycle ).

Авторы публикации Ван Синье (Xinyue Wang) и Сье Джиу (Zhiwu Xie) подняли вопрос о том, используем ли мы, как сообщество специалистов в области веб-архивации, «правильный» формат, когда полагаемся в наших веб-архивах на контейнерный формат WARC.

Формат WARC стандартизирован Международной организацией по стандартизации (ИСО) как стандарт ISO 28500:2017 «Информация и документация – файловый формат WARC» (Information and documentation - WARC file format, см. https://www.iso.org/standard/68004.html и https://www.iso.org/obp/ui/#!iso:std:68004:en ), и коллеги из Международного консорциума по сохранению Интернета (International Internet Preservation Community, IIPC, http://netpreserve.org/ ) внесли свой вклад в формирование текущей версии 1.1 формата WARC как преемника используемого «Интернет-архивом» (Internet Archive) формата ARC (который также применяется многими занимающимися веб-архивацией организациями, использующими более старую версию веб-сканера Heritrix для сбора материалов – о Heritrix см. также https://en.wikipedia.org/wiki/Heritrix - Н.Х.).

Являясь контейнерным форматом, WARC подходит не только для веб-архивов, но и для других цифровых объектов. При проектировании формата WARC для целей сканирования и захвата веб-материалов также ставилась задача добавить в структуру формата соответствующие метаданные, нужные для обеспечения долговременной сохранности цифровых объектов. При разработке формата управление хранением и долговременной сохранностью были важными задачами.

Однако авторы препринта основное внимание уделяют другому аспекту использовании больших веб-архивов: доступу. И здесь имеется в виду не тот тип доступа, который был предусмотрен при первоначальной разработке формата WARC: один человек ищет один сохранённый веб-сайт. Речь идёт о доступе к большим коллекциям веб-сайтов с целью проведения крупномасштабного анализа данных - это именно тот способ доступа, который в настоящее время многие ученые хотели бы использовать в отношении веб-архивов. Иными словами, речь идёт о повторном использовании собранных веб-сайтов.


Титулдьная страница препринта

По словам авторов, «[…] главной задачей современных веб-архивов по-прежнему является преимущественно сбор и обеспечение долговременной сохранности веб-материалов. Повторное использование, за рамками предусмотренных моделей просмотра, поддерживается редко. В результате архитектура архивной системы выстроена вокруг WARC-файлов и не оптимизирована для рабочих процессов аналитики, движимых целями исследований».

Не только свойства коллекции веб-сайтов, но и сам формат WARC делает невозможным проведение таких крупномасштабных исследований, поскольку производительность является слишком низкой: «Производительность, таким образом, может стать фактором, определяющим, возможно ли вообще изучение определенных вопросов, поставленных в рамках исследования». Несмотря на то, что специалисты предметной области сделали всё возможное для того, чтобы добиться максимума при ограниченных возможностях, авторы полагают, что «статус-кво предметной области отражает лишь основанные на прошлом опыте наилучшие и требования, которые могут оказаться неадекватными в условиях обработки больших данных». Иными словами: неадекватным может оказаться предпочтительный сегодня формат WARC.

В качестве подтверждения своих аргументов авторы приводят в статье результаты ряда тестов производительности на основе больших коллекций WARC-файлов. Они делают следующий вывод: «Наши оценки свидетельствуют о том, что с использованием формата WARC связана значительная потеря производительности при пакетной обработке данных – обработка осуществляется на два порядка медленнее, чем при использовании более эффективных форматов. Поэтому мы призываем сообщество специалистов в области веб-архивации подумать о внедрении альтернативных архивных форматов».

Ну, это легче сказать, чем сделать. Помимо того, что уже существуют большие веб-коллекции в формате WARC, во многих коллекциях материалы представлены в ещё более старом формате ARC. Но в одном аспекте авторы могут быть правы. В рамках обеспечения сохранности веб-архивов нам необходимо отслеживать изменяющиеся требования нашего целевого сообщества. Очевидно, что сообщество исследователей является частью этого целевого сообщества. Учитывая. что все веб-архивы хотят, чтобы материалы их веб-коллекций повторно использовались, - уделяем ли мы достаточно внимания изменяющимся потребностям нашего целевого сообщества? Разве нам не следует подумать о последствиях появления новых методов повторного использования материалов, сохранение которых обеспечивается ценой столь больших усилий и затрат? К сожалению, конференция IIPC в этом году из-за пандемии коронавируса не состоится, - но это в любом случае интересная тема для обсуждения.

Библиографические данные о публикации: Ван Синье (Xinyue Wang) и Сье Джиу (Zhiwu Xie) «Обоснование полезности альтернативных форматов веб-архивации для ускорения процесса извлечения знаний из данных» (The Case For Alternative Web Archival Formats To Expedite The Data-To-Insight Cycle), 2020 год, 10 стр., см. https://www.researchgate.net/publication/340332233_The_Case_For_Alternative_Web_Archival_Formats_To_Expedite_The_Data-To-Insight_Cycle , прямая ссылка на PDF-файл: https://arxiv.org/pdf/2003.14046

Барбара Сирман (Barbara Sierman)

Источник: блог Digital Preservation Seeds
https://digitalpreservation.nl/seeds/warc-the-best-web-archiving-format/

Комментариев нет:

Отправка комментария