Заметка зам.декана по вопросам электронных библиотек университета Северного Техаса (University of North Texas) Марка Филипса (Mark Phillips – на фото) была опубликована на его блоге 23 февраля 2016 года под названием «How many of the EOT2008 PDF files were harvested in EOT2012».
В своём предыдущем посте ( http://vphill.com/journal/post/5861/ ) я начал рассказывать о некоторых данных, полученных университетской библиотекой на основе анализа материалов «снимка» федерального интернета, сделанного для веб-архива в конце 2012 года (EOT2012). В нём Вы найдёте дополнительную информацию о EOT2012.
Мой комментарий: Речь идёт о «снимках» сайтов американских федеральных органов исполнительной власти, выполняемых совместно рядом учреждений в конце срока очередного Президента США – отсюда название программы «Конец срока» (End of Term, EOT). Логика понятна: когда приходит новый президент, среди прочего кардинально обновляются и все веб-сайты государственных органов. Если их контент не захватить в этот момент, многое может быть утрачено.
PDF-файлы в составе «снимка» 2008 года
Из веб-архива EOT2008 (сделанного в конце срока полномочий президента Буша – Н.Х.) я извлек 4,5 миллиона уникальных (уникальность определялась по значению хеш-функции) PDF-файлов и провел анализ этой совокупности в целом, в попытках выявить что-нибудь интересное. Результаты этого исследования несколько лет тому назад я представил на конференции по архивации IS&T Archiving Conference, проводимой Обществом по вопросам науки и технологии обработки графических образов (Society for Imaging Science and Technology, http://www.imaging.org ). Текст этой статьи в трудах конференции выложен по адресу http://digital.library.unt.edu/ark:/67531/metadc155622/ , а соответствующая презентация к докладу доступна по адресу http://digital.library.unt.edu/ark:/67531/metadc155638/.
С тех пор прошло несколько лет, и мне было любопытно узнать, сколько из этих почти 4,5 миллиона PDF-файлов по-прежнему имелись на веб-сайтах в 2012 году, когда мы снова сделали снимок федерального интернета в рамках проекта EOT2012.
Для этого исследования я использовал ту же базу хэш-значений, о которой рассказал в предыдущем посте – благодаря ей задача решилась очень просто. Сначала я взял все хэш-значения для PDF файлов из снимка EOT2008. Затем я загрузил все значения хеш-функции для файлов из снимка EOT2012. Осталось сделать следующий и последний шаг – для каждого хэш-значения из базы 2008 года проверить, присутствует этот хэш в базе 2012 года. Всё достаточно прямолинейно.
Результаты
По завершении обработки были получены следующие цифры:
PDF-файлов | Процент | |
Сохранились | 774375 | 17% |
Отсутствуют | 3715300 | 83% |
Всего | 4489675 | 100% |
Ниже данные представлены на диаграмме, где доля пропавших файлов показана красным цветом.
Результаты поиска фалов 2008 года в «снимке» 2012 года
Таким образом, 83% PDF-файлов, существовавших в федеральном интернете в 2008 году, в архиве EOT2012 найдены не были.
Без существенных трудозатрат сложно установить, какая часть PDF-файлов сегодня располагается в Интернете по тем же URL-адресам, что и в 2008 году. Полагаю, это число куда меньше 17%.
Важно отметить, что поскольку при анализе я использовал хэш-значения для контента, а не URL-гиперссылки, вполне возможно, что многие PDF-файлы из набора EOT2008 были в 2012 году, когда делался новый «снимок», доступны по совсем другим URL-адресам. Таким образом, старая гиперссылка может не работать, однако файл может быть доступен в другом месте.
Если у Вас есть замечания или вопросы по данному посту, дайте мне знать в Твиттере ( https://twitter.com/vphill ).
Марк Филипс (Mark Phillips)
Дополнительная информация: Новость по этому же поводу под заголовком «Утраченное наследие: Веб-архив федеральных органов США потерял большую часть данных» (см. http://naar.ru/news/utrachennoe-nasledie-veb-arkhiv-federalnykh-organov-sshsa-poteryal-bolshuyuy-chast-dannykh/ ) 29 марта 2016 года опубликовал сайт "Наш Архив".
Источник: блог Марка Филипса
http://vphill.com/journal/post/5872/
Комментариев нет:
Отправить комментарий