понедельник, 6 августа 2007 г.

Великобритания: Активный подход к обеспечению длительной сохранности электронных документов


Национальные Архивы Великобритании (The National Archives, TNA) продолжают разработку т.н. «активного» подхода к обеспечению длительной сохранности документов (Active Preservation Framework), и практическую реализацию соответствующе программной системы.

В концепции предусмотрены три основных функциональных блока, образующих замкнутый цикл, причем каждый из блоков опирается на услуги, обеспечиваемые центральным техническим реестром.

Первый функциональный блок анализа характеристик отвечает за определение тех свойств цифровых объектов, которые имеют существенное значение для их долговременной сохранности, и знание которых необходимо для принятия решений на этапе планирования, а также при проверке результатов действий по обеспечению долговременной сохранности.

В рамках данного блока можно выделить три основных процесса, каждый из которых применим как к документу в целом, так и к составляющим его файлам:
  • Идентификация – данный процесс отвечает за точную идентификацию версии файлового формата. По результатам идентификации корректируются метаданные файла. В настоящее время TNA использует в качестве инструментального средства идентификации  программу DROID, а для описания форматов применяются универсальны идентификаторы, используемые в реестре файловых форматов PRONOM. В 2007 году планируется выпустить третью версию  DROID, обеспечивающую большую точность идентификации и повышенную производительность.

  • Контроль соответствия структуры файла спецификациям формата, определенного по итогам идентификации. В реестре PRONOM содержатся сведения об имеющихся средствах контроля, и о форматах, которые они способны проверять. Средство проверки может быть выбрано автоматически на основе результатов процесса идентификации.

  • Определение свойств. В ходе этого процесса определяются существенные с точки зрения обеспечения длительной сохранности свойства цифрового объекта, такие, как:

    • Технические свойства файлов, используемые в дальнейшем на этапе планирования. Основным таким свойством является формат; но это также могут быть и любые свойства, относящиеся к технической реализации объекта, такие, как алгоритм сжатия графического изображения, или же природа макросов в офисном документе.

    • Внутренние свойства, связанные с подлежащими сохранению документами. Эти свойства не зависят от технической реализации. Примером служат продолжительность видеоклипа или содержание текстового документа.
Второй функциональный блок планирования действий по обеспечению долговременной сохранности. Здесь определяется, когда и какие действия должны быть выполнены с цифровыми объектами. Эти действия должны уменьшить неблагоприятное воздействие внутренних или внешних событий, ставящих под угрозу постоянную доступность цифрового объекта. В этой связи TNA разработало метод планирования на основе анализа рисков. Используемая в TNA модель предусматривает возможность хранения нескольких представлений одного документа, которые могут быть по-разному подвержены воздействию неблагоприятных факторов.

В настоящее время учитываются два вида рисков: риски, связанные с определенным форматом, и риски, связанные с индивидуальным цифровым объектом. Риски, связанные с определенным форматом, вычисляются и документируются в реестре PRONOM на основе таких факторов, как число поддерживающих данный формат программных продуктов, открытость формата и т.д. Риски, связанные с конкретным объектом, вычисляются с учетом таких факторов, как наличие макросов в офисном документе или использование алгоритма сжатия в графическом файле.

Если для какого-либо объекта риски, относящиеся к возможности его представления или к долговременной сохранности, превышают установленное пороговое значение, то автоматически инициируется создание соответствующего плана действий, и последующее выполнение процесса миграции (в случае изменений в технологиях, данные в реестре PRONOM уточняются и риски пересчитываются заново).

Окончательным результатом на выходе второго блока является план действий по обеспечению долговременной сохранности, включающий конкретный путь обеспечения долговременной сохранности, точную последовательность выполняемых действий и список обрабатываемых таким образом цифровых объектов. 

Реестр PRONOM используется здесь двояко: для определения наиболее подходящего формата, в который будет осуществляться миграция, а также для получения сведений о программном обеспечении, способном читать и писать в каждом из форматов – что позволяет определить возможные пути миграции. Пути миграции затем тестируются и результаты анализируются (путем контроля определенных существенных свойств). По итогам этих экспериментов определяется предпочтительный путь миграции в конкретных обстоятельствах.

Третий функциональный блок – блок выполнения действий, обеспечивающих долговременную сохранность. Здесь претворяются в жизнь результаты планирования, производятся преобразования цифровых объектов, позволяющие обеспечить их постоянную доступность.

Технический реестр представляет собой базу знаний, поддерживающую работу трёх основных функциональных блоков. Это – ядро всей системы. В настоящее время реестр уже действует и доступен по адресу http://www.nationalarchives.gov.uk/PRONOM/default.htm . Текущая версия PRONOM ориентирована на использование человеком; в настоящее время идет разработка средств, позволяющих реализовать межмашинное взаимодействие.

Программная система разрабатывается на основе сервисно-ориентированной архитектуры, в которой основные функции реализованы в виде веб-сервисов. Для большей гибкости реализована иерархия сервисов. Каждому сервису, как правило, в виде параметров передаются местоположение обрабатываемых файлов и сопровождающих их XML-метаданных. Разработка ведется с использованием Java J2EE, причем так, чтобы была возможность через стандартный интерфейс использовать инструментальные средства, разработанные сторонними организациями. Для запуска сервисов используется workflow-«движок», который отвечает за управление электронными документами, начиная с момента их отбора и передачи на хранение и до предоставления документов пользователям. Разработку workflow-системы планируется завершить к концу 2007 года.

Источники:

Комментариев нет:

Отправка комментария