вторник, 19 февраля 2019 г.

Евросоюз: Заканчивается публичное обсуждение «Базовых спецификаций для систем управления электронными документами», но кто о них слышал?


В конце декабря 2018 года я рассказывала (см. https://rusrim.blogspot.com/2018/12/blog-post_27.html ) о деятельности Фонда соединения Европы CEF, название которого иногда переводят как «Фонд соединения европейской инфраструктуры», и который «является ключевым инструментом финансирования Евросоюза, способствующим экономическому росту, созданию рабочих мест и повышению конкурентоспособности посредством целевых инвестиций в инфраструктуру на европейском уровне. Он поддерживает развитие высокопроизводительных, устойчивых и эффективно взаимодействующих трансевропейских сетей в сфере транспорта, энергетики и электронных услуг. Инвестиции CEF позволяют закрывать пробелы в базовой европейской энергетической, транспортной и электронно-цифровой инфраструктуре.»

Фонд, в частности, поддерживает создание рассчитанных на повторное использование так называемых «строительных блоков» CEF, среди которых есть и блок «электронной архивации», который был официально представлен на мероприятии в Брюсселе 7 декабря 2018 года. В его основе лежат «Базовые спецификации для систем управления электронными документами» (Common Specification for Electronic Records Management Systems, см. https://github.com/DILCISBoard/E-ARK-ERMS/blob/master/Specification/DRAFT_CS_ERMS.pdf ). Обсуждение заканчивается 24 февраля, о чём на днях напомнил твиттер проекта E-ARK4ALL («Электронный ковчег для всех»), наследника проекта «Электронный ковчег» (E-ARK, от European Archival Records and Knowledge Preservation – «Обеспечение долговременной сохранности архивных документов и знаний Европы». Подборку материалов моего блога о проекте E-ARK см. здесь: http://rusrim.blogspot.ru/search/label/e-Ark ).

Сам документ был первоначально разработан в рамках проекта E-ARK, а затем доработан в ходе последующего проекта E-ARK4ALL.

Наверное, сложно было бы придумать более неудачное, не отражающее содержание документа название. По сути же речь идёт о схеме метаданных, которую предлагается использовать для передачи контента систем управления электронными документами на архивное хранение. Само собой, всё это может быть интересно главным образом национальным архивным службам, да и то лишь тех стран, в которых на требования национальных архивов обращают серьёзное внимание (такая ситуация встречается нечасто). Учитывая, что это по сути дела это достаточно низкоуровневые, очень «технические» требования, к тому же никак не отражающие национальной специфики, шансы на то, что кто-то реализует их в своих решениях, весьма сомнительные.

Сама схема метаданных «человеко-читаемых» объяснений не предлагает, поэтому для тех, для кого язык XML – не родной, предлагается воспользоваться сопровождающим 32-страничным документом «Спецификации для EDRMS-систем», в котором описаны общие идеи и основные понятия (большей частью позаимствованные из уже подзабытых специалистами спецификаций MoReq2010).

Ниже приведен перевод вводной части из этого документа:
Спецификация для систем управления электронными документами (ERMS)

Назначение и область применения

Целью настоящего документа является описание базовых спецификации для систем управления электронными документами (ERMS, Electronic Records Management Systems). Спецификации предназначены для использования при передаче в архивы, а также для обмена документами между ERMS-системами. Спецификация поддерживается XML-схемой и документом Schematron, включающим в себя те правила, которые XML-схема не может проверить.

Существует два варианта извлечения информации из системы организации-создателя документов и информации:

1. Извлечение данных в структуру реляционной базы данных

Извлечение данных из реляционной базы данных в формат для долговременного хранения баз данных (SIARD), сохраняющий свойства реляционной базы данных таким образом, чтобы в дальнейшем, когда потребуется доступ к данным, их можно было импортировать в систему управления реляционными базами данных (RDBMS). Доступ может осуществляться через запросы к базе данных или через поле поиска.

Основными вариантами доступа являются следующие:
  • Организация-создатель (producer) хочет извлечь свои данные для деловых целей и/или для повторного использования;

  • Пользователь архивной информации (consumer) желает ознакомиться с данными для исследовательских целей;

  • Архивист хочет извлечь данные для их профессиональной обработки: проконтролировать их состояние и, при необходимости, выполнить меры по обеспечению их долговременной сохранности и т.д.
Более подробные сведения о таком варианте применения можно найти в швейцарском стандарте спецификаций формата SIARD 2.0 (eCH-0165 SIARD Format Specification 2.0, http://www.eark-project.com/resources/specificationdocs/32-specification-for-siard-format-v20/file ).

2. Извлечение данных и метаданных в виде [традиционных – Н.Х.] документов

В этом случае документы извлекаются из системы и нормализуются в стандартный формат XML. Это означает проведение семантической разметки документов с использованием метаданных (интересно, авторы документа сами-то поняли, что хотели сказать? ;) – Н.Х.). Техническая корректность и соответствие настоящим спецификациям делает их непосредственно доступными для проверки, управления данными, индексации и поиска. Структурированное семантическое описание с помощью метаданных делается явным, а не скрытым внутри RDBS-системы управления базами данных. Основные преимущества по сравнению с представлением в виде базы данных следующие:
  • Возможно объединение документов из различных источников;

  • Поиск и доступ возможны по всем документам изо всех источников;

  • Есть возможность обеспечить единообразно управление и доступ к документам;

  • Исходное программное обеспечение системы управления базами данных/документами не требует лицензирования и обеспечения его долговременной сохранности.
Именно данный конкретный вариант (т.е. когда специфицируется семантически размеченный профиль метаданных - semantically marked-up metadata profile) будет обсуждаться и описываться в остальной части настоящий спецификаций для ERMS-систем.

Ожидается, что настоящие спецификации будут реализованы в инструментах, которые:
  • Извлекают данные и метаданных из первичных систем организации-создателя информации;

  • Осуществляют контроль того, что метаданные и данные соответствуют спецификациям; полны и внутренне согласованны;

  • Принимают метаданные и данные в другой системе организации-создателя;

  • Формируют сдаточный информационный SIP-пакет из извлеченных данных и метаданных;

  • Передают SIP-пакет в архив;

  • Принимают SIP-пакет в архиве;

  • Формируют архивный информационный AIP-пакет из SIP-пакета;

  • Подтверждают, что AIP-пакет соответствует спецификациям, полон и внутренне согласован;

  • Загружают AIP-пакет в архивное хранилище;

  • Обеспечивают управление AIP-пакетом в архиве.
Мой комментарий: Данный проект оставляет у меня двоякое чувство. С одной стороны, стандартизация ключевых метаданных и информационных пакетов - дело прогрессивное. С другой стороны, практически в каждом конкретном контексте (страна, отрасль, вид документов, конкретная организация-создатель и конкретный архив) состав метаданных будет меняться, поэтому полная стандартизация, с моей точки зрения, вряд ли возможна. Кстати говоря, как показал практический опыт, документы могут быть настолько объёмными и сложными, что их становится невозможно или неэффективно запихивать в информационный пакет формата XML (нее говоря уже об определенном риске для действительности усиленных электронных подписей, если хотя бы один бит документа будет искажён).

Источник: Твиттер проекта E-ARK4ALL / GitHub / сайт проекта E-ARK4ALL
https://twitter.com/EARKProject/status/1094886056221179904
https://github.com/DILCISBoard/E-ARK-ERMS/blob/master/Specification/DRAFT_CS_ERMS.pdf
http://e-ark4all.eu/activities/activity-2/

Комментариев нет:

Отправка комментария