вторник, 12 февраля 2019 г.

Веб-архивы Библиотеки Конгресса США: Пробуем пальцем воду в озере данных, часть 2


(Окончание, начало см. https://rusrim.blogspot.com/2019/02/1.html )

Что и как мы узнали из нашего быстрого погружения в веб-архивацию

Ответ на вопрос «как» довольно простой. Для тех из Вас, кого интересуют технологические подробности, скажем, что мы выполнили ряд заданий в MapReduce (это модель распределённых компании Google, используемая для параллельных вычислений над очень большими наборами данных в компьютерных кластерах, см. https://ru.wikipedia.org/wiki/MapReduce Н.Х.) над индексными CDX-файлами, сопоставляя поля типа MIME и дайджеста. Для тех же из Вас, кого такие детали менее волнуют, отметим, что мы программно читаем индексные CDX-файлы, сортируем все строки по типу MIME и по полю дайджеста, и подсчитываем результаты. В рамках этого процесса мы также обрабатывали URL-адрес захваченного веб-объекта для группировки объектов по доменам верхнего уровня, - но об этом позже.

Следует пояснить, что поле типа MIME указывает тип файла данных (media type), в соответствии с классификацией, введённой и поддерживаемой «Администрация адресного пространства Интернет» (Internet Assigned Numbers Authority, IANA, https://www.iana.org/assignments/media-types/media-types.xml ) и сообщаемый соответствующим сервером во время захвата веб-объекта. Поле дайджеста - это уникальный криптографический хеш «полезного содержания» (payload) веб-объекта на момент проведения сканирования и захвата веб-сайтов, который обеспечивает однозначную идентификации этого объекта. Для целей нашего высокоуровневого анализа, MIME–типы помогли организовать метаданные исследованных нами веб-объектов, а дайджесты помогли отсеять повторно встречающиеся объекты.

После «как», пришло время ответить на вопрос «что». Наш анализ индексных CDX-файлов, и в особенности метаданных веб-объектов формата PDF, позволил получить некоторые очень интересные данные. Например, мы насчитали 42,2 миллиона уникальных веб-объектов формата PDF. Но что на самом деле означает это число? Итак, если каждый веб-объект формата PDF, представленный строкой в индексном CDX-файле с указанием на MIME-типе PDF, действительно является тем, чем представляется, т.е. ссылкой на фактический файл PDF в архивном объекте, то это означает, что в веб-архиве Библиотеки содержится чуть более 42 млн. PDF-файлов. Однако, как и все остальное, архивные объекты - это во многих отношениях особый «цветок», и это вроде бы очевидное предположение сопровождается рядом оговорок.

Эти оговорки можно суммировать следующим образом:
  • Сведения о MIME-типах в CDX-файлах могут быть неточными; и

  • Метаданные о веб-объектах – не то же самое, что сами веб-объекты.
Сервер, сообщивший MIME-тип объекта во время сканирования веб-сайтов, возможно, погрешил против истины. Поскольку этот сообщение лежит в основе метаданных, использованных для нашего анализа, мы должны понимать, что работаем с производными метаданными, а не с самим объектом. Проверка объектов, содержащихся в файлах W/ARC, является трудоемким процессом, который мы еще не готовы осуществлять.

Вы не можете сказать, что мы Вас не предупреждали! Но простоты ради давайте пока отложим оговорки в сторону, возьмем эти цифры как есть. В дальнейшем мы говорить о метаданных, извлеченных из индексных CDX-файлов, как о правильных метаданных веб-объектов. Но даже с учетом этого, как нам уложить у себя в голове необходимость обрабатывать 42,1 миллиона каких бы то ни было объектов? Одна особенность, работающая в нашу пользу, заключается в том, что PDF-файлы, возможно, представляют собой тот тип электронного объекта, что больше всего похож на физические объекты - печатные страницы. К счастью, в отрасли уже была проделана большая работа с реальными PDF-документами в веб-архивах, способствовавшая развитию этого направления мысли, и мы можем «стоять на спинах коллег», делая некоторые выводы о наших веб-объектах.

Анализ коллекции веб-сайтов законодательной, исполнительной и судебной ветвей власти на момент окончания деятельности администрации Буша в 2008 году (2008 End of Term Web Archive) показывает (см. https://digital.library.unt.edu/ark:/67531/metadc155622/ ), что PDF-документы в составе этой коллекции в среднем содержали 13,8 страниц. Таким образом, если бы мы распечатали наши 42 миллиона уникальных PDF-файлов, то, исходя из этого среднего значения, на выходе мы бы получили 582 миллионов страниц, которые «похоронили» бы наш принтер. Если мы будем исходить из того, что погонный фут  документов составляет 1800 страниц (https://www.ilmcorp.com/tools-and-resources/estimate-the-number-of-pages-or-images/ ), то эти 582 миллиона печатных страниц будут эквивалентны более чем 61 погонной миле полок!

Мой комментарий: В метрических единицах, один погонный метр документов вмещает, согласно данных авторов, около 5900 страниц, а весь многомиллионный массив  займет 98,6 погонных километров.

Если Вы помните, мы в рамках нашего анализа также рассматривали URL-адреса веб-объектов. Мы выполнили определённую постобработку и подсчитали, насколько часто сохранённые веб-объекты типа PDF встречались в доменах верхнего уровня (см. таблицу).

Набор уникальных веб-объектов типа PDF собран из 739 доменов верхнего уровня. Домен верхнего уровня является последней частью домена веб-сайта (например, .com или .gov). В таблице приведены 20 доменов с наибольшим числом захваченных их них уникальных веб-объектов типа PDF.

Наглядным подтверждением размаха усилий Библиотеки по архивации государственных веб-сайтов является то, что наиболее часто встречающимся доменом верхнего уровня для веб-объектов типа PDF является домен .gov. Из этого домена было захвачено 19,2 миллиона веб-объектов типа PDF. Поскольку домен .gov могут использовать только органы государственной власти США федерального, регионального и местного уровней, то при дальнейших исследованиях (подсказка!) эти 19,2 миллиона веб-объектов типа PDF могут рассматриваться как государственные документы.

Если посмотреть дальше по списку, то начинает проявляться географическое разнообразие наших усилий по веб-архивации, которые является отражением разнообразия коллекции международных материалов Библиотеки на носителях всех видов. Домены верхнего уровня .id, .br, .ir и .au являются национальными доменами Индонезии, Бразилии, Ирана и Австралии соответственно, и из них поступило 6,2 миллиона международных документов - потенциальное богатство более для изучения.

При выполнении масштабного вычислительного анализа любого рода крайне важно знать свои данные. Мы знакомы с политиками комплектования Библиотеки Конгресса, а также с темами коллекций архивных веб-объектов Библиотеки. Мы также были в курсе доминирования в живом Интернете таких доменов, как .com и .org. Наш начальный шаг по погружению в CDX-файлы отразил то, что мы ожидали увидеть в результате подобного анализа.

Вы говорите, «Хотим большего!»?

Мы слышим Вас! Продолжайте следить публикациями в блоге «Сигнал», где в будущем будут выложены итоги более глубокого анализа архивных веб-объектов. Хотя мы всё еще не в состоянии проанализировать весь наш архив единым махом, мы используем наши «микроскопы» для изучения образцов, взятых по всему архиву, делясь результатами по ходу этой работы. По словам наших друзей из LC Labs, эти наборы образцов будут выложены для скачивания, - только для Вас!

Чейз Дули (Chase Dooley) и Грейс Томас (Grace Thomas)

Источник: блог «Сигнал» (The Signal) на сайте Библиотеки Конгресса США
https://blogs.loc.gov/thesignal/

Комментариев нет:

Отправить комментарий