Более 100 миллионов веб-страниц, созданных во время второго срока президента Буша, будут сохранены для историков, исследователей и общественности, благодаря совместным усилиям государственных учреждений и некоммерческих библиотек.
Библиотека Конгресса и Государственное издательство (Government Printing Office), в партнерстве с электронной библиотекой Калифорнийского университета, библиотекой университета Северного Техаса и «Интернет-архивом», проведут сбор и архивацию всех веб-сайтов, которые могут измениться с приходом новой президентской администрации. Общий объем данных в коллекции, которая будет ориентирована на веб-сайты органов исполнительной и законодательной власти, как ожидается, составит от 10 до 12 терабайт.
«Эти сайты или быстро изменяются - сразу же по окончании выборов - или меняются уже ближе к моменту приведения президента к присяге», говорит Крис Карпентер (Kris Carpenter), директор веб-группы некоммерческой организации «Интернет-архив» (Internet Archive). «Мы хотим сохранить наиболее важную информацию для будущих исследователей».
Например, комитеты, состоящие из назначенных президентом лиц и из выборных должностных лиц, изменяются с приходом новой администрации, поэтому необходимо сохранить информацию об их членах, сферах ответственности, политике и достижениях. Некоторые изменения бросаются в глаза, в то время, как другие менее заметны, говорит Карпентер, но все они могут быть многое сказать исследователям, изучающим прошлое и задающим вопрос, «Как это повлияло на конкретные действия текущей и последующей администраций?».
Помимо содержания, исследователи смогут проанализировать, каким образом информация размещалась на веб-странице; что был помещено вместе с ней, и какое это могло иметь значение для воздействия на читателей.
Библиотека Конгресса уделит основное внимание сохранению веб-сайтов Конгресса США, в то время, как «Интернет-архив» будет проводить всеобъемлющие «сканирование». Сайтов домена .gov, фактически делая «снимки» всех соответствующих сайтов. Университет Северного Техаса и электронная библиотека Калифорнийского университета проведут более углубленное сканирование сайтов отдельных государственных агентств, а Государственное издательство будет консультировать по вопросам, связанным с процессом сохранения. Провести сбор материалов помогут средства автоматизации, хотя инвентаризация будет проводиться вручную, с тем, чтобы ничего не упустить.
«Мы используем технологии и процессы, которые позволяют нам отображать материалы точно так же, как их сейчас видят пользователи», - говорит Карпентер. «Это очень важно – мы никоим образом их не модифицируем». После завершения проекта, исследователи и широкая публика смогут перемещаться по страницам архива точно так же, как они делают в сети: набрав адрес, они смогут увидеть страницу и вести дальнейший просмотр материалов. Содержание будет проиндексировано, чтобы была возможность полнотекстового поиска.
Аналогичные проекты были выполнены в 2000 и 2004 годах, чтобы задокументировать веб-страницы, созданные при президенте Клинтоне и во время первого срока президента Буша. Коллекция, собранная в 2004 году, насчитывает около 75 миллионов адресов Интернет-ресурсов (Uniform Resource Identifiers, URIs).
Настоящий проект является наиболее масштабным, - отчасти из-за того, что документы увеличились в объёме. В 2004 году правительственный веб-документ был в семь раз больше, чем средний коммерческий веб-документ. За последние четыре года средний объём документов, судя по всему, вырос ещё больше, с учетом все более широкого использования мультимедийных материалов, таких, как графические образы, pdf-документы и видеозаписи. «Интернет-архив» проводит ежемесячное сканирование ряда сайтов федерального правительства, и компания отмечает 15-процентное увеличение объема собираемой информации только за последние два года.
Джил Айторо (Jill R. Aitoro)
Источник: NextGov
http://www.nextgov.com/nextgov/ng_20080815_9193.php
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий