понедельник, 30 сентября 2013 г.

Великобритания: Британская библиотека начала сканирование и сохранение национального веб-домена


Данная заметка была опубликована на сайте Британской библиотеки 16 сентября 2013 года.

После того, как стих первый шквал общественного резонанса вокруг окончательного принятия в апреле решения об обязательном экземпляре непечатных изданий (Non-Print Legal Deposit – Правило о предоставлении обязательного экземпляра Британской библиотеке, а также тем из пяти других крупных библиотек страны, которые его запросят, с 6 апреля 2013 года было распространено на материалы, опубликованные в электронном виде и в сети – например, на веб-сайты, блоги, электронные журналы и CD-диски. Под законодательство подпадают и социальные сети (за исключением частных сообщений), но не подпадают сайты, распространяющие исключительно потоковое видео, такие как YouTube – Н.Х.), группа веб-архивирования Британской библиотеке начала «осваивать» часть этой новой ответственности, а именно, проведение регулярной архивации всего британского веб-домена. Это делается в партнерстве с остальными пятью депозитарными библиотеками Великобритании: Национальной библиотекой Уэльса, Национальной библиотекой Шотландии, Библиотекой Кембриджского университета, Бодлеанской библиотекой Оксфордского университета и Тринити-колледжем Дублина.

Еще в апреле мы писали (см. http://britishlibrary.typepad.co.uk/webarchive/2013/04/dispatches-from-the-domain-crawl-1.html ) о том, как продвигается эта работа – тогда за одну только первую неделю мы собрали  3,6 терабайт сжатых данных по 191 миллиону URL-ссылок.

Теперь мы закончили. После неуверенного старта 8 апреля, сканирование закончилось одиннадцать недель спустя, 21 июня. Начав со списка из 3,8 миллионов первоначальных адресов, мы в конце концов захватили более 31 терабайта сжатых данных. На пике скорости одна программа-сборщик посещала 857 адресов в секунду.

Безусловно, на основе сформированного набора данных можно провести немало увлекательных исследований, и мы заинтересованы в предложениях по части вопросов, которые можно было бы поставить. Пока что у нас есть несколько интересных результатов, полученных по этим данных. Например, на приведенном ниже графике показано распределение сайтов в зависимости от общего объема собранных на них данных:


Из данного графика следует, что имеется очень много небольших по размеру сайтов -  так, более 200 тысяч сайтов дают лишь мизерный объём данных в 64 килобайта каждый. Это сайты, которые или вообще не возвращают какого-либо контента, или перенаправляют на другой адрес, или используются для «парковки» доменов. На другом конце шкалы – около  50 тысяч сайтов, с каждого из которых удается «собрать» 256 мегабайт данных и более.

Следует иметь в виду, что это только те сайты, о которых мы знаем, что они британские (т.е. по большей части сайты из домена .uk). Существуют различные способы определения того, подпадает ли конкретный сайт из доменов .com, .org или .net под требования законодательства, но ни один из них пока нельзя использовать в больших масштабах. По наиболее оптимистическим оценкам, мы, возможно, ещё не захватили примерно треть  британских сайтов.

На следующих этапах работы нам предстоит проиндексировать данные, а затем ввести их в нашу Электронную библиотечную систему (Digital Library System)  - задачи, которые сами по себе потребуют нескольких недель. Предполагается, что собранные данные станут доступны в читальных залах депозитарных библиотек в самом конце 2013 года. Мы планируем проводить сканирование и захват сайтов, по крайней мере, один раз в год – или дважды в год, если позволят ресурсы.

Источник: сайт Британской библиотеки
http://britishlibrary.typepad.co.uk/webarchive/2013/09/domaincrawl.html

Комментариев нет:

Отправка комментария