среда, 21 сентября 2016 г.

Архивация веб-сайтов администрации Обамы в качестве цифрового наследия


Заметка Аманды Зияде (Amanda Ziadeh – на фото) была опубликована 6 сентября 2016 года на сайте GCN https://gcn.com ).

Поскольку приближается конец президентства Обамы, веб-архивисты стараются задокументировать веб-сайты федеральных органов исполнительной власти и их контент в социальных сетях до того, как 20 января 2017 года произойдёт переход власти к новой администрации.

Сотрудничество по созданию веб-архива «Конец срока» (End of Term, EOT) началось летом 2008 года с тем, чтобы задокументировать состояние веб-сайтов законодательной, исполнительной и судебной ветвей власти на момент окончания деятельности администрации Буша.


Проектная группа собирает все федеральные сайты из домена .gov, федеральный контент в доменах .mil и .com, контент в социальных сетях. Группа также обратилась к общественности с просьбой номинировать сайты и контент в домене .gov с помощью инструмента номинирования «Конец срока» (End of Term nomination tool, см. http://digital2.library.unt.edu/nomination/eth2016/ ).

Как написала в своем посте ведущий ИТ-специалист группы веб-архивации Библиотеки Конгресса США Эби Гротке (Abbie Grotke, https://www.linkedin.com/in/abigail-grotke-378b808 ), этот архив, который называют «веб-урожаем», будет документировать веб-контент и делать эту информацию доступной для общественного доступа и для обеспечения долговременной сохранности.

Библиотека Конгресса сотрудничала с организациями-партнерами с целью обхода и захвата веб-сайтов, разработки интерфейса для архива и поддержки процесса передачи данных. Как отмечается на сайте архива «Конец срока» ( http://eotarchive.cdlib.org/background.html ), масштабы проекта заставили разработать новые технологии захвата веб-сайтов и предоставления доступа к накопленным материалам, включая следующее:
  • Робот-сборщик (web crawler) Heritrix (см. http://sourceforge.net/projects/loc-xferutils/ ), созданный «Интернет-Архивом» (Internet Archive) при поддержке Международного консорциума по сохранению Интернета;

  • Библиотеку Bagit ( http://sourceforge.net/projects/loc-xferutils/ ) программного обеспечения с открытым кодом на языке Java, решившую проблемы передачи и агрегирования контента для архива «Конец срока»;

  • «Интернет-Архив» перенастроил развернутые на его площадке инструменты для автоматического создания метаданных и мини-изображений для более чем 6 тысяч сайтов в составе архива;

  • Модифицированная версия созданного Калифорнийской электронной библиотекой открытого программного инструмента eXtensible Text Framework (  http://xtf.cdlib.org/ ) стала основой для портала доступа к материалам веб-архива;

  • Инструмент номинирования способствовал коллективной работе над формированием фондов веб-архива.
В этом году в проекте участвуют Библиотека Конгресса США (Library of Congress, LoC), Калифорнийская электронная библиотека (California Digital Library), Библиотека университета Северного Техаса, «Интернет-Архив», Библиотека Университета Джорджа Вашингтона (George Washington University Libraries), Библиотека Стэнфордского университета (Stanford University Libraries) и Государственное издательство США (U.S. Government Publishing Office).

Данные, собранные в рамках проектов «Конец срока» обеспечения сохранности контента государственных доменов 2008 и 2012 годов можно найти на сайте веб-архива «Конец срока» ( http://eotarchive.cdlib.org/ ).

Сайт веб-архива «Конец срока»

Аманда Зияде (Amanda Ziadeh)

Источник: GCN
https://gcn.com/articles/2016/09/06/end-of-term-archive.aspx

Комментариев нет:

Отправить комментарий