четверг, 1 февраля 2018 г.

Обеспечение сохранности электронных данных не является ни революцией, ни недостижимой целью, часть 3


(Продолжение, предыдущую часть см. http://rusrim.blogspot.ru/2018/01/2_31.html )

Обеспечение долговременной пригодности к использованию, или управление коллекцией электронных данных

Хотя защищённое хранение позволяет обеспечить целостность хранимых данных, оно не гарантирует возможности их использования. Для решения этой задачи существуют два подхода:
  • Эмуляция (о ней будет более подробно сказано в следующем разделе), которая направлена на то, чтобы воспроизвести поведение приложения и/или устройства на другой устройстве, обычно с использованием специализированного программного обеспечения, называемого «эмулятором»;

  • Миграция формата, предусматривающая преобразование электронных данных из формата, в котором они были сохранены, в новый пригодный для использования формат.
В обоих случаях это гораздо более сложные процедуры, чем просто сохранение потока битов. В самом деле, в случае миграции, помимо описательных метаданных, необходимых для понимания содержания хранящихся данных, их поиска и извлечения, система «радостно» вычисляет и сравнивает хеши данных. Чтобы обеспечить миграцию формата (это также верно для эмуляции, но в меньшей степени), необходимо точно знать характеристики каждого файла и что из этого следует. Если у Вас имеется ограниченная по объёму однородная коллекция файлов, в которой представлено небольшое число различных файловых форматов, то управлять ею может быть довольно просто; но если у Вас имеются данные в очень разнородных форматах (или вариациях формата - например, в случае использования XML необходимо также учитывать XML-схему кодирования), то Вам совершенно необходимо хорошо управлять своей коллекцией.

Вы может возразить мне, что достаточно сохранить данные в формате, подходящем для длительного хранения, и проблема будет решена… Да, конечно, за исключением той малости, что, как и для носителей, «вечного» формата не существует. Как я уже объяснил в своём блоге ( https://www.lespetitescases.net/vous-avez-dit-format-perenne ) - ну ладно, это было давно, так что я повторюсь :), - формат является жизнеспособным в длительной перспективе только в том случае, если организация-хранитель способна контролировать его использование. Конечно, если речь идёт о текстовых данных, извлеченных из базы данных, использование формата CSV или, ещё лучше, XML может упростить этот процесс контроля и управления во времени. Однако если Вы не сохранили документацию о структуре CSV- или XML-файла (или, что лучше, XML-схему), работа по восстановлению данных для использования (rétro-ingénierie) сильно осложнится или может оказаться невозможной.

Помимо защищённого хранения, управление электронными данными с целью обеспечения их долговременной пригодности к использованию означает:
  • Обеспечение при приеме электронных данных на архивное хранение их соответствия ожиданиям (иными словами, никогда полностью не полагайтесь на организацию, передающую данные на хранение);

  • Сохраняемые данные делаются независимыми не только от программного приложения, из которого они поступили, но также и от самой системы архивации: в случае, если Ваша система архивации рухнет, у Вас должны оставаться возможность извлекать и использовать данные непосредственно с носителя информации;

  • Точное документирование сохраняемых данных: их содержания, их технических и правовых характеристик, их структуры, истории обработки до и после поступления в архив - в частности, этапов форматно-логического контроля данных при приеме на архивное хранение и в ходе миграции;

  • Сохранение метаданных и документации (сведения о форматах, программных приложениях и операционных средах) наравне с самими данными и обеспечение максимально гибких возможностей поиска по ним (в противном случае создавать метаданные не имеет смысла);

  • Разработку «индикационных панелей» (dashboards) для максимально полного представления содержания архива и для мониторинга показателей активности и эволюции архива (с тем, чтобы, например, предвидеть возможные проблемы с поддержанием материалов в пригодном для использования состоянии);

  • Регулярный мониторинг различных используемых архивом форматов, для своевременного планирования возможных миграций;

  • Регулярный выборочный аудит электронных данные с целью проверки достоверности метаданных и целостности потока битов, с целью обеспечения безопасного хранения.
Если Вы всё это сделаете, Вы сможете без проблем выполнять операции миграции форматов. Также Вы сможете безопасно и без каких-либо осложнений проводить уничтожение электронных данных, утративших правовую и деловую ценность.

Использование данных, или проблемы предоставления доступа

В завершение, поговорим о главной причине сохранения электронных данных – об обеспечении пригодности к использованию и возможность доступа к ним во времени. Можно выделить (по крайней мере) три варианта использования или отображения этих данных.

Использование данных внешней системой

Сохраненные электронные данные могут передаваться в систему третьей стороны, предоставляющую интерфейсы для поиска, навигации и ознакомления, как это делается, например, через систему Национальной библиотеки Gallica ( http://gallica.bnf.fr/ - это электронная библиотека – Н.Х.) или через сайт INA ( http://www.ina.fr/ ). Деятельность по обеспечению сохранности электронных данных направлена на защищённое хранение данных, полученных с мест оцифровки (часто это дорогостоящие и трудновоспроизводимые в таком масштабе данные) и поддержание во времени возможности их использования.

Хотя электронные хранилища, предназначенные для обеспечения долговременной сохранности, являются первоисточником данных для упомянутых систем третьих сторон, данные передаются асинхронно. В случае взаимодействия с реальными защищенными системы хранения (ленточные LTO-библиотеки, https://fr.wikipedia.org/wiki/Linear_Tape-Open ), различия в характеристиках между форматами файлов для хранения и для оперативного использования, возможные проверки, связанные с авторским правом и требования к высокой доступности для веб-просмотра исключают прямое подключение систем. Иначе говоря, временные рамки и характеристики систем третьих сторон отличаются от требований к системам долговременного хранения, поэтому предпочтительно иметь два вида систем, каждый для своего варианта применения, даже если внешняя система «запитывается» данными из системы архивации (это был один из главных уроков, извлеченных в ходе проекта SPAR ...).

Эмуляция программного обеспечения и виртуализация операционной среды

В случае, когда Вы сохраняете само программное приложение, цель заключается в том, чтобы сохранить ощущения пользователя. Это крайне важно для видеоигр, цифрового искусства или даже при архивации Интернета, где взаимодействие с пользователем является неотъемлемой частью восприятия этих материалов. Рано или поздно наступает время, когда программное приложение, о котором идет речь, больше не может работать в стандартной программно-аппаратной среде, и в этом случае есть два решения:
  • Эмуляция, которая заключается в воспроизведении поведения программного приложения в современной аппаратной среде с помощью специального программного обеспечения-эмулятора;

  • Виртуализация (см. https://fr.wikipedia.org/wiki/Virtualisation ), которая заключается в использовании полномасштабной программной среды (операционной системы и программного обеспечения), формируемой на хост-компьютере.
Эти два метода не разрабатывались специально для целей обеспечения долговременной сохранности данных. Эмуляция появилась в среде пиратства видеоигр, позволяя использовать игру на платформе, для которой она изначально не предназначалась (здесь автор несколько отклоняется от исторической правды, поскольку эмуляция появилась намного раньше видеоигр и первоначально использовалась для проектирования и отладки новых процессоров и программного обеспечения на платформах совсем другой архитектуры – Н.Х.). Виртуализация первоначально появилась как способ максимально эффективного использования возможностей сервера путем запуска одновременно нескольких виртуальных «машин». Данный подход в настоящее время очень активно используется ИТ-службами и облачными системами.

В то время, как эмуляция почти исключительно используется для видеоигр, виртуализация является очень перспективным решением для сохранения электронных данных. В самом деле, виртуализация позволяет обеспечить долговременное использование данных и/или приложений, для которых трудно было осуществить миграцию формата. В этом случае мы «довольствуемся» защищённым хранением файла для виртуализации и обеспечиваем наличие программное обеспечения для работы с ним.

Мой комментарий: На одной из осенних конференций 2017 года представитель ГАРФ рассказал об опыте принятия на архивное хранение виртуальной машины, содержащей базу данных и обслуживающее её уникальное программное обеспечение.

Данный метод уже используется для обеспечения, например, в Национальной библиотеке для доступа к первым CD-ROM с цифровым искусством. В перспективе он сможет обеспечить возможность работы с самыми старыми веб-архивами, когда это уже не смогут делать современные браузеры.

Предоставление и удаленное скачивание файлов

Последний случай представляется мне наиболее сложным: как обеспечить предоставление разнородных данных, типа тех, что создаются государственными органами? Файлы офисных приложений и файлы, полученные из разнообразных баз данных, представляют собой разнородные форматы и структуры. Мне кажется, что в этом случае примером для нас могут стать порталы открытых данных, то есть можно создать упорядоченный каталог существующих наборов данных и разрешить их скачивание для локального ознакомления и использования. При этом, конечно, могут возникнуть юридические проблемы, но мне кажется, что это самый простой и эффективный способ обеспечить доступ ко всем этим разнородным данным.

(Продолжение следует, см. https://rusrim.blogspot.ru/2018/02/4.html )

Готье Пупо (Gautier Poupeau)

Источник: блог Les Petites Cases
http://www.lespetitescases.net/la-conservation-des-donnees-numeriques-n-est-ni-une-revolution-ni-inatteignable

Комментариев нет:

Отправить комментарий