среда, 31 января 2018 г.

Обеспечение сохранности электронных данных не является ни революцией, ни недостижимой целью, часть 2


(Продолжение, начало см. http://rusrim.blogspot.ru/2018/01/1_29.html )

Ландшафт сферы обеспечения сохранности электронных данных


Теперь я предлагаю вернуться к этим различным аспектам с тем, чтобы попытаться показать, что помимо существующих решений в этой области, на карту поставлены традиционные навыки и ноу-хау архивистов (у меня складывается ощущение, что я повторяю то, что говорил ещё 8 лет назад, см. мой пост 2010 года: http://www.lespetitescases.net/expression-digital-preservation-est-elle-pertinente ).

Задумайтесь о целях сохранения и об отборе на архивное хранение и на уничтожение

Прежде всего, конечно, речь идёт об отборе материалов на постоянное архивное хранение. Ввиду постоянно растущего производства данных в электронном формате очевидно, что невозможно сохранить всё. Как верно указывает Энн Боф в упомянутом выше интервью, отбор необходим и для «традиционных» архивов, и архивисты прекрасно справляются с этой задачей (вопреки тому, что, по-видимому, думают некоторые историки).  Поэтому я постараюсь не вмешиваться в дискуссию по этой теме, а также в вопросы управления документами, тем более, что последние не являются актуальными для тех учреждений, в которых я работал или работаю в настоящее время.

С другой стороны, как и у носителей любого иного вида, у электронно-цифровых носителей есть особенности, из-за которых встает вопрос о том, что, собственно, следует сохранять. Ответ, однако, зависит от того, что мы пытаемся увековечить. В самом деле, если традиционные носители как поддерживают запись/чтение, так и содержат собственно информацию, то в электронной среде это не так, и вопросы сохранности независимо решаются в каждом из следующих уровней:
  • собственно носитель информации;

  • устройство, необходимое для чтения носителя;

  • программное обеспечение, способное расшифровывать сохраненную информацию;

  • сами данные.
Каждому из этих уровней соответствует своя цель в плане обеспечения сохранности:
  • сохранение технических систем;

  • сохранение интерфейса пользователя;

  • сохранение самой информации.
В качестве иллюстрации своей точки зрения, я предлагаю сначала вернуться к примеру, приведенному Анной Боф в упомянутом выше интервью: тексты журналов, выложенные на сайте CAIRN ( https://www.cairn.info/ ). Он особенно интересен тем, что, вопреки утверждениям Анн Боф, эти данные уже увековечены как минимум в рамках проекта сохранения национального интернета (см. http://www.inaglobal.fr/numerique/article/l-archivage-du-web-un-outil-pour-comprendre-internet-9386 ), которым совместно занимаются Национальная библиотека (BnF) и INA. Веб-сайт CAIRN (в ведении которого Национальная библиотека принимает участие) был полностью захвачен BnF. Собранные данные затем сохраняются в системе электронной архивации SPAR в стандартном формате WARC (см. соответствующий международный стандарт ISO 28500:2017: https://www.iso.org/standard/68004.html ). Контроль экспертов по обеспечению сохранности над данными и предоставление доступа к ним осуществляются через специализированные интерфейсы хранилища «обязательных экземпляров» (dépôt légal) веб-сайтов, поддерживаемого Национальной библиотекой.

В этом случае целью является сохранение данных и интерфейса навигации по сайту (из-за чего не могут не возникнуть вопросы об обеспечении доступности в долгосрочной перспективе, но я вернусь к этому вопросу позже). Но в случае CAIRN можно было бы «удовлетвориться» более ограниченной целью сохранения самих данных, и тогда было бы достаточно извлечь тексты из базы данных веб-сайта и закодировать их в стандартном формате типа XML. Это довольно просто сделать, и сохранение данных такого типа не представляет особой проблемы. Национальный вычислительный центр системы высшего образования (Centre Informatique National de l’Enseignement Supérieur, CINES, https://www.cines.fr/ ) уже предоставляет такие услуги (см. https://www.cines.fr/archivage/typologies/ressources-des-bibliotheques-et-centres-de-documentation/ ) для открытого архива научных статей HAL ( https://hal.archives-ouvertes.fr/ ) и портала публикаций по гуманитарным наукам и социологии Persée  ( http://www.persee.fr/ ).

Существуют более сложные ситуации, такие, как обеспечение сохранности видеоигр или цифрового искусства, где взаимосвязь между носителем данных и устройством для его чтения очень важна, и адекватные ощущения пользователя имеют существенное значение для правильного восприятия заархивированного объекта. Но, как показывают два последних мероприятия, организованных Национальной библиотекой («Сохранение наследия видеоигр. Каковы задачи и действующие лица?», http://bnf.hypotheses.org/2170 ; и «Цифровое искусство и грядущие поколения», http://artnumeriqueposterite.labex-arts-h2h.fr/fr/content/programme-du-colloque-art-numérique-et-postérité-jour-1 ), решения появляются и доказывают свою эффективность. Так, для видеоигр (см. https://france3-regions.francetvinfo.fr/paris-ile-de-france/paris/bnf-conserve-memoire-jeux-videos-1395589.html ) Национальная библиотека, с одной стороны, сохраняет устройства и картриджи, а с другой – работает со средствами эмуляции этих игр на современных компьютерах, чтобы упростить ознакомление и изучение этих игр. В этом случае решение заключается в обеспечении сохранности на различных уровнях.

Что касается электронных архивов органов государственной власти, то, как мне кажется, очень часто приоритетом здесь является сохранение самих данных. Это не вопрос отрицания заинтересованности в сохранении соответствующих программных приложений (могут представлять интерес как их история, так и особенно то, что они могут рассказать о видении государственным органом собственной миссии) – однако затраты и сложность будут существенно больше, и для того, чтобы получить представление о работе этих приложений и систем, проще создать реестр существующих приложений, дополненный рядом скриншотов.

Сохранение потока битов, или защищенное хранение

В первую очередь необходимо сохранить поток битов, то есть обеспечить целостность электронных данных с течением времени. Мы, однако, знаем, что «вечных» носителей информации не существует. Некоторые носители более надёжны, чем другие (как, например, ленты LTO, см. https://fr.wikipedia.org/wiki/Linear_Tape-Open ), но абсолютной гарантии никогда нет.

Для обеспечения безопасного хранения необходимо выполнять два действия:
  • Создавать несколько копий данных (на LTO-лентах или на жёстких дисках на серверах), которые, по возможности, хранятся в географически удаленных друг от друга местах;

  • Регулярно контролировать целостность этих копий, а в случае появления проблем проводить миграцию носителей, т.е. заменять поврежденный носитель, копируя одну из неповрежденных копий на новый носитель.
Чтобы убедиться в целостность данных, достаточно регулярно вычислять значения хешей для каждого сохраненного файла (например, алгоритм MD5 представляет собой простой алгоритм вычисления хеша, который может быть эффективно реализован на всех операционных системах) и сравнивать эти значения с эталонными.

Мой комментарий: В настоящее время алгоритм MD5 считается скомпрометированным, и его использование, хотя и может быть вполне адекватным для внутриархивной работы, не обеспечивает надёжной защиты от атак со стороны злоумышленников.

Данный уровень обеспечения сохранности не требует огромных инвестиций и уже решает многие проблемы. Существуют готовые, устанавливаемые «под ключ» решения, которые отлично решают данную задачу, и на месте архивной службы, я бы двигался в сторону соответствующих облачных решений (что, по-видимому, допускается данным информационным письмом SIAF, см. https://francearchives.fr/fr/file/03da67e398796d6e2d49035f014e98e995e9e00e/DGP_SIAF_2018001_mutualisation_archivage_electronique.pdf , - пусть даже существует требование о хранении данных на территории Франции,  см. http://siaf.hypotheses.org/656 ). И, возможно, мои слова вызовут у кое у  кого из Вас скрежет зубовный, но я думаю, что решение «Glacier» для резервного копирования от фирмы Amazon ( https://aws.amazon.com/fr/glacier/ ) может быть одним из элементов системы защищённого хранения, в дополнение к более «локальной» системе хранения на сетевых серверах ( https://fr.wikipedia.org/wiki/Serveur_de_stockage_en_réseau ). Но для этого, возможно, нужно будет признать, что глобализация информационного обмена также проходит через архивы?

(Продолжение следует, см. http://rusrim.blogspot.ru/2018/02/3.html )

Готье Пупо (Gautier Poupeau)

Источник: блог Les Petites Cases
http://www.lespetitescases.net/la-conservation-des-donnees-numeriques-n-est-ni-une-revolution-ni-inatteignable

1 комментарий:

  1. Добрый день, Наталья Александровна!
    Мы разрабатываем курс по теме электронный архив организации.
    Хотели бы пригласить Вас лектором.
    Если Вас это интересует просим дать знать на эл.почту tikhjuli@gmail.com

    ОтветитьУдалить