Кто не идёт вперед, тот идёт назад: Насколько коротка жизнь выложенных в интернете PDF-файлов? Результаты одного исследования

вторник, 5 апреля 2016 г.

Насколько коротка жизнь выложенных в интернете PDF-файлов? Результаты одного исследования

Заметка зам.декана по вопросам электронных библиотек университета Северного Техаса (University of North Texas) Марка Филипса (Mark Phillips – на фото) была опубликована на его блоге 23 февраля 2016 года под названием «How many of the EOT2008 PDF files were harvested in EOT2012».

В своём предыдущем посте ( http://vphill.com/journal/post/5861/ ) я начал рассказывать о некоторых данных, полученных университетской библиотекой на основе анализа материалов «снимка» федерального интернета, сделанного для веб-архива в конце 2012 года (EOT2012). В нём Вы найдёте дополнительную информацию о EOT2012.

Мой комментарий: Речь идёт о «снимках» сайтов американских федеральных органов исполнительной власти, выполняемых совместно рядом учреждений в конце срока очередного Президента США – отсюда название программы «Конец срока» (End of Term, EOT). Логика понятна: когда приходит новый президент, среди прочего кардинально обновляются и все веб-сайты государственных органов. Если их контент не захватить в этот момент, многое может быть утрачено.

PDF-файлы в составе «снимка» 2008 года

Из веб-архива EOT2008 (сделанного в конце срока полномочий президента Буша – Н.Х.) я извлек 4,5 миллиона уникальных (уникальность определялась по значению хеш-функции) PDF-файлов и провел анализ этой совокупности в целом, в попытках выявить что-нибудь интересное. Результаты этого исследования несколько лет тому назад я представил на конференции по архивации IS&T Archiving Conference, проводимой Обществом по вопросам науки и технологии обработки графических образов (Society for Imaging Science and Technology, http://www.imaging.org ). Текст этой статьи в трудах конференции выложен по адресу http://digital.library.unt.edu/ark:/67531/metadc155622/ , а соответствующая презентация к докладу доступна по адресу http://digital.library.unt.edu/ark:/67531/metadc155638/.

С тех пор прошло несколько лет, и мне было любопытно узнать, сколько из этих почти 4,5 миллиона PDF-файлов по-прежнему имелись на веб-сайтах в 2012 году, когда мы снова сделали снимок федерального интернета в рамках проекта EOT2012.

Для этого исследования я использовал ту же базу хэш-значений, о которой рассказал в предыдущем посте – благодаря ей задача решилась очень просто. Сначала я взял все хэш-значения для PDF файлов из снимка EOT2008. Затем я загрузил все значения хеш-функции для файлов из снимка EOT2012. Осталось сделать следующий и последний шаг – для каждого хэш-значения из базы 2008 года проверить, присутствует этот хэш в базе 2012 года. Всё достаточно прямолинейно.

Результаты

По завершении обработки были получены следующие цифры:

	PDF-файлов	Процент
Сохранились	774375	17%
Отсутствуют	3715300	83%
Всего	4489675	100%

Ниже данные представлены на диаграмме, где доля пропавших файлов показана красным цветом.

Результаты поиска фалов 2008 года в «снимке» 2012 года

Таким образом, 83% PDF-файлов, существовавших в федеральном интернете в 2008 году, в архиве EOT2012 найдены не были.

Без существенных трудозатрат сложно установить, какая часть PDF-файлов сегодня располагается в Интернете по тем же URL-адресам, что и в 2008 году. Полагаю, это число куда меньше 17%.

Важно отметить, что поскольку при анализе я использовал хэш-значения для контента, а не URL-гиперссылки, вполне возможно, что многие PDF-файлы из набора EOT2008 были в 2012 году, когда делался новый «снимок», доступны по совсем другим URL-адресам. Таким образом, старая гиперссылка может не работать, однако файл может быть доступен в другом месте.

Если у Вас есть замечания или вопросы по данному посту, дайте мне знать в Твиттере ( https://twitter.com/vphill ).

Марк Филипс (Mark Phillips)

Дополнительная информация: Новость по этому же поводу под заголовком «Утраченное наследие: Веб-архив федеральных органов США потерял большую часть данных» (см. http://naar.ru/news/utrachennoe-nasledie-veb-arkhiv-federalnykh-organov-sshsa-poteryal-bolshuyuy-chast-dannykh/ ) 29 марта 2016 года опубликовал сайт "Наш Архив".

Источник: блог Марка Филипса
http://vphill.com/journal/post/5872/

Кто не идёт вперед, тот идёт назад

вторник, 5 апреля 2016 г.

Насколько коротка жизнь выложенных в интернете PDF-файлов? Результаты одного исследования

Комментариев нет:

Отправить комментарий

Dr Natasha Khramtsovsky

Обо мне: Наташа Храмцовская / Dr Natasha Khramtsovsky

Поиск по блогу / Search this blog

Искать по блогу / Search this blog 2

Архив блога / Blog Archives

Используйте теги / Click the tags!

География моих читателей (RU)

Постоянные читатели

Кто не идёт вперед, тот идёт назад

вторник, 5 апреля 2016 г.

Насколько коротка жизнь выложенных в интернете PDF-файлов? Результаты одного исследования

Комментариев нет:

Отправить комментарий

Dr Natasha Khramtsovsky

Обо мне: Наташа Храмцовская / Dr Natasha Khramtsovsky

Поиск по блогу / Search this blog

Искать по блогу / Search this blog 2

Архив блога / Blog Archives

Используйте теги / Click the tags!

География моих читателей (RU)

Постоянные читатели

вторник, 5 апреля 2016 г.