понедельник, 25 марта 2019 г.

Австралия: Национальная библиотека открыла доступ к «колоссальному» архиву национального интернета


Статья Джорджа Нотта (George Nott – на фото) была опубликована 11 марта 2019 года на сайте австралийской редакции журнала Computerworld.

Официально открытый в этом месяце Австралийский веб-архив (Australian Web Archive) является одним из крупнейших в мире

«Австралийский веб-архив (Australian Web Archive, AWA) является одним из самых больших в мире. И когда мы говорим «большой», мы имеем в виду «громадный»», - подчёркивает генеральный директор Национальной Библиотеки Австралии д-р Мари-Луиза Эйрес (Dr Marie-Louise Ayres).

Мари-Луиза Эйрес

Новый архив, открытый на прошлой неделе для публики (см. https://trove.nla.gov.au/website?q= ), содержит примерно 9 миллиардов документов общим объёмом около 600 терабайт. На языке погонных метров книжных полок: если бы эти документы распечатать и сложить подряд, бумажная лента простирались бы от Канберры (Canberra) до Кэрнса (Cairns) (т.е. через всю Австралию с юга на север – Н.Х.)

Архив содержит тысячи веб-страниц из национального домена .au - некоторые из них по-прежнему популярны, а другие давно не функционируют, - что даёт пользователям возможность увидеть, как эти страницы выглядели в разные моменты времени в период с 1996 года по настоящее время.

Проект постепенно осуществлялся почти 20 лет, а функциональные возможности архива была разработаны в течение последних двух лет небольшой ИТ-группой Национальной Библиотеки во главе с ИТ-директором Дэвидом Вонгом (David Wong).

Дэвид Вонг (David Wong)

«Сайты захватывались с того момента, когда Интернет более-менее родился», - рассказывает Вонг. «Они все находятся на постоянном хранении, и мы намереваемся обеспечить их постоянную доступность».

Хотя его концепция знакома пользователям запущенной в эксплуатацию в 2001 году «Машины прошлого» (Wayback Machine, https://archive.org/web/ ) фирмы «Интернет-архив» (Internet Archive),  архив AWA обладает значительно более широкими функциональными возможностями, поскольку поддерживается полнотекстовой поиск по всем его материалам.

Чтобы найти нужные страницы в Wayback Machine, пользователи должны знать их гиперссылки. При использовании AWA они могут находить интересующий их контент с помощью машины поиска в стиле Google, самостоятельно созданной командой Вонга.

«Вы можете ввести ключевое слово и найти сайты, где оно встречается. Это делает контент намного более доступным и отыскиваемым. Это очень удобная функциональная возможность», - отмечает Вонг.

Сбор сегодня того, что будет нужным завтра

Национальная Библиотека Австралии была одним из первых подобных учреждений в мире, создавшим свой интернет-архив (см. https://www.computerworld.com.au/article/631141/national-library-embraces-digital-future/ ).

Работы по сбору и обеспечению сохранности веб-страниц начались в 1996 году, когда кураторы библиотеки отобрали для архивации «важные сайты», сформировав в итоге веб-архив PANDORA. Позже усилиями по архивации были охвачены все сайты государственных органов и учреждений, и был создан веб-архив органов правительства Австралии (Australian Government Web Archive..

«Это было действительно хорошее предвидение будущих потребностей. Многие сайты, которые Вы видите в архиве, исчезли много лет назад. Мы благодарны нашим предшественникам за эту идею и за её реализацию на практике», - говорит Вонг.

С 2005 года Библиотека начала проводить ежегодный «массовый захват» всех сайтов в домене .au. В процессе сбора материалов задействованы веб-сканеры (web crawlers) - интернет-боты, которые просматривают сеть и индексируют страницы.

Массовый захват означает, что коллекция даёт более точную картину Австралии в Интернете, однако огромные объемы собранных данных значительно усложняют просмотр содержания хранилища.

«Это наш самый сложный проект создания машины поиска из всех, который мы до сегодняшнего дня выполняли», - подчёркивает Вонг.

Четверо разработчиков Библиотеки использовали свой собственный, а также открытый исходный код для обеспечения полнотекстового поиска по материалам хранилища.

Так выглядел в 1999 году сайт журнала Computerworld Australia

«Мы использовали нашу версию предложенного Google алгоритма PageRank, и применяем определенную байесовскую фильтрацию и машинное обучение. Нам потребовалось довольно много времени, чтобы придумать этот алгоритм, и его настройка заняла много месяцев», - говорит Вонг.

Группа также использовала распознавание образов на основе машинного обучения, с целью выявления и удаления страниц с порнографическими материалами.

«Мы пришлось подумать о способах подавления шума и мусора, предоставляя при этом пользователям нужные им материалы. Мы использовали несколько методов в комбинации», - поясняет Вонг.

Объёмы хранилища создали значительные проблемы. Группа разработчиков уже имела опыт решения таких проблем, накопленный при создании сервиса Trove ( https://trove.nla.gov.au/ ) - запущенного в 2008 году интерфейса для поиска по базе данных, охватывающей более 90 миллионов предметов из библиотек, музеев, архивов, хранилищ и других исследовательских организаций. Архив AWA доступен через сервис Trove ( https://trove.nla.gov.au/website?q= ), услугами которого  пользуется до 70 тысяч пользователей в день.

Мой комментарий: Поскольку мне удалось найти в веб-архиве упоминающие меня страницы, я простоя обязана дать ему высокую оценку! :)

«Нам пришлось внести изменения в подход и внедрить новое решение, потому что, если Вы посмотрите на веб-архив, он содержит гораздо больше материалов, но, как мы ожидаем, его пользовательская база будет меньше. Нам пришлось перепроектировать решение, чтобы оно соответствовало контенту. Мы пришлось инвертировать дизайн», - объясняет Вонг.

«Наши серверы специально сконфигурированы для поддержки сервиса веб-архива. В случае Trove серверы имеют много оперативной памяти, а в случае веб-архива всё обстоит наоборот - оперативной памяти меньше, но больше дисковой памяти», - добавляет Вонг.

В среднесрочной перспективе архив останется на локальных серверах Библиотеки, но, по мере увеличение объёмов, может быть перемещён впоследствии в облако.

«Двигаясь дальше, это будет непростая задача – собрать сегодня те материалы, которые будут важны завтра», - подчёркивает Вонг.

Метод захвата также может адаптироваться.

«В интернете так много контента, что нам придётся изучить другие механизмы захвата материалов с использованием машинного обучения и искусственного интеллекта, однако прямо сейчас эту роль выполняют люди-кураторы, которые делают это очень эффективно», - говорит Вонг.

Хранители истории

Ожидается, что архив интернет-активности Австралии станет для будущих историков и исследователей ключевым по важности ресурсом.

«Мы закладываем фундамент на следующие 100 лет. Когда люди захотят узнать о сегодняшнем дне, о том, что происходило сегодня, то вместо доступа к оцифрованным книгам, журналам и газетам, они скорее предпочтут посмотреть, что было в Твиттере, на новостных сайтах и в разделах комментариев. Они смогут это сделать на основе веб-контента», - отмечает Вонг.

Национальная Библиотека считает усилия по созданию и поддержанию веб-архива частью своих обязанностей в качестве «хранителями австралийской истории», - говорит Айрес.

«Для тех из нас, кто жил и работал до появления веб-сайтов, это замечательное напоминание о том, как много всего изменилось. Для тех, кто никогда не знал мира без Интернета, это замечательный урок истории», - отметила она.

Джордж Нотт (George Nott)

Источник: сайт журнала Computerworld
https://www.computerworld.com.au/article/658641/national-library-launches-enormous-archive-australia-internet/

1 комментарий:

  1. Прекрасно.
    Остается сидеть и радоваться за них.
    Наташа - спасибо!

    ОтветитьУдалить