пятница, 9 ноября 2018 г.

«Петабайтный план» Норвегии: Сохранить всё, что было опубликовано, в архиве, рассчитанном на тысячу лет


Заметка Стига Ойванна (Stig Øyvann – на фото) была опубликована 4 октября 2018 года на сайте ZDNet в разделе, рассказывающем о скандинавском опыте. 

Все эти материалы, от древних манускриптов до кинофильмов, Национальная библиотека Норвегии хочет выложить в Интернете в публичном доступе.

На дальнем севере Норвегии, недалеко от Полярного круга, специалисты защищённого хранилища Национальной библиотеки Норвегии (Nasjonalbiblioteket) занимаются реализацией на практике удивительного плана.

Они поставили себе целью оцифровать всё, что когда-либо было опубликовано в Норвегии: книги, газеты, манускрипты, плакаты, фотографии, фильмы, трансляции и карты, а также захватить все сайты в национальном норвежском домене Интернета .no .

Эта работа ведётся уже в течение 12 лет, и, по текущим оценкам, на её завершение потребуется ещё 30 лет.

На данный момент в созданном Библиотекой архиве имеется более 540 тысяч книг и более 2 миллионов газет. Перед закладкой на хранение, они прошли процессы поточного сканирования и распознавания текста, поэтому по всему этому контенту можно вести полнотекстовой поиск.

Как сообщил изданию ZDNet директор отдела развития цифровой библиотеки Национальной библиотеки Свейн Арне Солбакк (Svein Arne Solbakk), по состоянию на начало сентября 2018 года объём этой коллекции составляла 8,1 петабайт данных, при ежедневном приросте в 5-10 терабайт.

Уставная задача Национальной библиотеки - это не просто обеспечение защищённого долгосрочного хранения. Она должна делать свои архивы доступными для общественности, поэтому ей требуется онлайн-хранилище для публикации материалов коллекции.

 «Чтобы иметь возможность обрабатывать большие объемы данных, мы должны иметь их онлайн. Когда я получаю от газеты файл в формате PDF, я знаю, что этот формат не проживёт тысячу лет. Его придётся преобразовать в более современные форматы - вероятно, несколько раз за эти тысячи лет», - говорит Солбакк.

В качестве пояснения он рассказывает, что Библиотеке уже пришлось провести своё первое крупномасштабное преобразование форматов, затронувшее 50 миллионов файлов графических изображений. Этим процессом были круглосуточно загружены 10 серверов в течение трех месяцев, даже несмотря на то, что файлы хранились на жёстких дисках.


Рекламный видеоролик о проекте Национальной Библиотеки Норвегии

Кроме того, учитывая относительно короткий срок службы жестких дисков, используемый Национальной библиотекой подход предусматривает программу «скользящей» замены дисков, в рамках которой заменяются целые стойки с дисками, когда те отработают свой расчётный 5-летний срок службы.

Помимо этого, все материалы Библиотека хранит в трёх экземплярах. Одна копия находится на жестком диске, а еще две - на ленте. Хранилище магнитных лент представляет собой архивную систему на основе решения Oracle SAM-FS, так что это не традиционная ленточная система резервного копирования.

«Когда мы говорим о петабайтах, мы не можем говорить о резервном копировании. На восстановление петабайта информации с ленты уйдут недели», - говорит Солбакк. Таким образом, система Библиотеки более похожа метод виртуализации хранилища, и в настоящее время она обрабатывает более 24 петабайт данных.

К настоящему времени оцифрованы около 83% всех книг и 40% процентов всех газетных страниц. Кроме того, Библиотека участвует в ряде других проектов, в рамках которых идёт работа по оцифровке 100 тысяч лент с записями радиопередач, прежде чем необходимые для работы с ними ленточные плееры исчезнут навсегда. Амбиции Национальной библиотеки Норвегии впечатляют!

«Мы амбициозны, но крайне важно задокументировать настоящее для будущего», - подчёркивает Солбакк.

По состоянию на сентябрь 2018 года электронная коллекция Национальной библиотеки Норвегии включает:
  • 2 миллиона газет - около 40 миллионов страниц;

  • 540 тысяч книг - около 80 миллионов страниц;

  • 700 тысяч страниц тестовых и музыкальных манускриптов;

  • 1,3 миллиона фотографий;

  • 1,4 миллиона часов радиовещания;

  • 950 тысяч часов телевещания;

  • 55 тысяч музыкальных произведений;

  • 16 тысяч кинофильмов и видеозаписей;

  • 24,8 миллиарда веб-страниц.
Система ленточного хранения представляет собой архивную систему на основе решения Oracle SAM-FS, так что это не традиционная ленточная система резервного копирования (Фото: Nasjonalbiblioteket/Jan Inge Larsen)

Источник: сайт ZDNet
https://www.zdnet.com/article/norways-petabyte-plan-store-everything-ever-published-in-a-1000-year-archive/

Комментариев нет:

Отправить комментарий