вторник, 6 января 2015 г.

Конференция DLM-форума 2014 года в Лиссабоне: Подход к обеспечению долговременной сохранности баз данных, обеспечивающий их осмысленное использование


На прошедшей в ноябре 2014 года в Лиссабоне, Португалия, конференции DLM-форума был представлен подготовленный участниками европейского проекта E-ARK Джанет Делв (Janet Delve, университет Портсмута, Великобритания – на фото слева), Райнером Шмидтом (Rainer Schmidt, Австрийский институт технологий AIT – на фото справа) и Кульдаром Аасом (Kuldar Aas, Национальные Архивы Эстонии) доклад на тему «Подход к обеспечению долговременной сохранности баз данных, обеспечивающий их осмысленное использование» (Long-term preservation of databases the meaningful way). Полный текст доклада выложен на сайте конференции (см. http://purl.pt/26107/1/DLM2014_PDF...pdf  ), а ниже приведен перевод его отдельных фрагментов.

В европейском проекте E-ARK центральное место занимает вопрос архивации как документов, так и баз данных,

Существующая практика архивации баз данных

Вопрос об архивации баз данных активно изучается уже более четырех десятилетий. Тем не менее, основные принципы используемых подходов, разработанные еще в 1970-х и 1980-х годах, остались более или менее теми же, и их можно резюмировать в виде следующего трехэтапного процесса:
  • Делается «снимок» состояния исходной базы данных в определенный момент времени;

  • Этот снимок преобразовывается в открытые форматы, при этом предпринимаются усилия для того, чтобы как можно меньше изменить в ходе такого преобразования исходные структуры данных;

  • Когда требуется доступ к данным, снимок базы данных восстанавливается в современной системе управления базами данных (СУБД) на основе данных, сохраненных в открытых форматах.
Проект E-ARK получил особенно большую пользу от опыта являющихся членом этого консорциума Датских Национальных Архивов (ДНК), которые все свои данные архивируют в виде баз данных, используя собственную версию формата SIARD (SIARD-DK).

Данная статья рассказывает о том, как финансируемый Евросоюзом проект E-ARK ( http://www.eark-project.com/ ) пытается решить более широкий круг задач при архивации баз данных и обеспечении доступа к ним.

Развиваемый в проекте E-ARK подход, в частности, нацелен на поддержку более широкого круга вариантов применения, используя с этой целью комбинацию передовых методов, заимствованных из арсенала хранилищ данных (data warehousing), таких, как аналитическая обработка в реальном времени (Online Analytical Processing, OLAP – согласно Википедии, это «технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу», см. https://ru.wikipedia.org/wiki/OLAP - Н.Х.), интеллектуального анализа данных (data mining) и семантического аннотирования (semantic annotation). В целом такой подход означает, что:
  • Во время предварительной обработки перед приемом на хранение или в ходе рабочего процесса приёма на хранении создаются денормализованные представления исходной реляционной базы данных (денормализация обычно проводится с целью ускорения операций чтения из базы за счет добавления избыточных данных, не соответствующее критериям нормализации, см. https://ru.wikipedia.org/wiki/Денормализация - Н.Х.) ;

  • Контент базы данных семантически обогащается в соответствии с имеющимися централизованно контролируемыми словарями;

  • Обогащенные представления хранятся вместе с исходной базой данных;

  • Когда пользователей интересует специфическая тема, которая покрывается данными, содержащимися в нескольких снимках баз данных, им предоставляется возможность создавать семантические запросы, которые идентифицируют соответствующие кубы OLAP и могут использовать дополнительные методы интеллектуального анализа данных для объединения данных и и их понимания.
Разработанные к настоящему времени в рамках проекта E-ARK спецификации сдаточных (SIP), архивных (AIP) и дистрибутивных (DIP) информационных пакетов (в соответствии с моделью OAIS) обеспечивают встроенную поддержку реляционных баз данных. Сюда входит архивация баз данных на нескольких уровнях, среди которых могут быть первичный объект, его сериализованные и семантически обогащенные представления (например, на основе XML-схемы), а также представления, подготовленные для целей проведения дальнейшего анализа. Аналогичным образом E-ARK поддерживает доступ к архивным базам данных на различных уровнях. Сюда входят:
  • доступ на основе баз данных общего вида, которые могут быть загружены и сделаны доступными через систему управления реляционными базами данных (СУБД);

  • доступ на базе агрегированных и предварительно обработанных наборов данных с использованием методов на основе OLAP, таких, как денормализация; и

  • доступ к отдельным записям путем запросов, выполняемых над рядом архивных баз данных.
по материалам доклада Джанет Делв (Janet Delve), Райнера Шмидта (Rainer Schmidt)  и Кульдара Ааса (Kuldar Aas)

Источник: сайт конференции DLM-форума 2014 года в Лиссабоне
http://purl.pt/26107/1/DLM2014_PDF/23%20-%20LONG-TERM%20PRESERVATION%20OF%20DATABASES%20THE%20MEANINGFUL%20WAY.pdf 
http://purl.pt/26107/1/

Комментариев нет:

Отправить комментарий