среда, 23 июня 2010 г.

Национальная библиотека Новой Зеландии провела очередную кампанию по архивации веб-сайтов национального домена

Национальная библиотека Новой Зеландии закончила кампанию сплошной архивации новозеландских веб-сайтов 2010 года. В итоге получен «снимок» текущего состояния новозеландского интернета, который дополнит материалы, собираемые с 1999 года путем регулярной выборочной архивации более чем 2 тысяч сайтов.

Право проводить такие работы руководителю библиотечной службы (Национальному Библиотекарю - National Librarian) предоставлено Законом о национальной библиотеке Новой Зеландии 2003 года (National Library of New Zealand Act 2003), а также Извещением  министра по делам Национальной Библиотеки № 2006/118 от 2 мая 2006 года о требованиях Национальной Библиотеки в отношении обязательных экземпляров электронных документов (National Library of New Zealand Act 2003 and the Minister's National Library Requirement (Electronic Documents) Notice 2006, http://www.natlib.govt.nz/downloads/Requirement_Notice_2006.PDF ). Сохранность материалов обеспечивает Веб-архив Новой Зеландии (New Zeeland Web Archive, http://www.natlib.govt.nz/collections/a-z-of-all-collections/nz-web-archive ).

Сбор материалом (harvesting) по заказу библиотеки в течение 23 дней, начиная с 12 мая 2010 года, проводила известная американская некоммерческая организация Internet Archive (http://www.archive.org/ ) базирующаяся в Сан-Франциско. Всего было обработано 170 миллионов URL-ссылок. Таким образом, перевыполнен первоначальный план, предусматривавший обработку 130 млн. страниц. С целью повышения качества результата кампания была продлена более чем на неделю.

Предыдущая кампания проводилась в 2008 году, тогда за десять дней было обработано 106 миллионов страниц.

В этом году были приняты меры по соблюдению задаваемых владельцами сайтов инструкций для роботов-сборщиков в файлах robots.txt, поэтому процесс архивации шёл существенно медленнее. В итоге одни сайты оказались заархивированы гораздо менее полно, чем раньше, зато другие – более детально. Однако для обеспечения полноты информации, всегда архивировалась головная страница сайта, а также все вложенные элементы веб-страниц (например, графические образы и фотографии).

Интересно отметить, что перед проведением кампании на сайте библиотеки были опубликованы достаточно подробные технические пояснения для владельцев сайтов, и рекомендации по настройке файла  robots.txt.

Для сайтов из доменов .com и .co.nz был установлен лимит в 70 тыс. страниц, а для прочих сайтов из домена .nz – 90 тыс. страниц. Для сравнения, в 2008 году лимиты были 50 тыс. страниц для сайтов государственного домена, и 20 тыс. страниц для всех прочих.

Примерный объём собранной информации (в сжатом виде) оценивается в 4-5 терабайт.

Источники: сайт Национальной библиотеки
http://librarytechnz.natlib.govt.nz/search/label/web%20harvest
http://www.natlib.govt.nz/about-us/current-initiatives/web-harvest-2010

Комментариев нет:

Отправка комментария