пятница, 2 февраля 2018 г.

Обеспечение сохранности электронных данных не является ни революцией, ни недостижимой целью, часть 4


(Продолжение, предыдущую часть см. http://rusrim.blogspot.ru/2018/02/3.html )

Проблемы и перспективы


Помимо важности интеграции вопроса о, архивации электронных данных в обычные процессы архивного центра, необходимо также отметить, что особые трудности создают механизмы приема/передачи материалов на архивное хранение.

Сложность экспорта и форматирования данных

С чисто технической точки зрения, главной проблемой при обеспечении сохранности электронных данных является экспорт данных и их представление в форматах, которыми архивный центр способен управлять. Строго говоря, здесь нет непреодолимых технологических препятствий и соответствующие решения существуют: это может быть программное  обеспечение типа ETL (от англ. Extract-Transform-Load – «Извлечение, преобразование, загрузка», популярная с 1970-х годов концепция при хранении данных, см. https://fr.wikipedia.org/wiki/Extract-transform-load ), первоначально предназначенное для обслуживания информационных систем для принятия решений. Но для каждой системы, ещё до её разработки, необходимо определить:
  • Экспорт каких данных должен поддерживаться;

  • Формат экспорта (например, CSV, XML, Json) и структура данных;

  • Частота и порядок экспорта;

  • Ассоциированные метаданные, обеспечивающие документирование делового контекста создания данных и свойства самих данных;

  • Механизмы проверки целостности и формально-логического контроля передаваемых на архивное хранение материалов;

  • Политика обеспечения сохранности, соответствующая правовым рамкам и принципам, установленным архивным центром по согласованию с владельцем данных.
Решение данной задачи усложняет ряд проблемных вопросов:
  • Отсутствие платформы, поддерживающий обмен между архивными центрами готовыми адаптерами для приложений, используемых различными организациями - чего-то вроде среды Github ( https://github.com/ ) для архивов, по модели того, что существует для генераторов сдаточных информационных SIP-пакетов, соответствующих «Стандарту обмена данными для целей архивации» (Standard d'échanges de données pour l'archivage, SEDA) (см. https://github.com/PatPercot/Seda-Generatorhttps://github.com/CGI-France/Java-Seda-Generator  и https://github.com/ProgrammeVitam/generateur-seda );

  • Специфичность подавляющего большинства приложений и, как следствие, сложность разработки универсальных программных решений в этой области;

  • Отсутствие необходимых навыков для осуществления таких ИТ-разработок: в большинстве организаций ИТ-службы не в состоянии выполнять такие задачи, потому что их специалисты не имеют необходимой для этого подготовки;

  • Полное отсутствие интереса со стороны ИТ-служб государственных органов, которые, по их словам, должны заниматься более срочными делами, и которые, в любом случае, ничего не понимают в данном вопросе ...
Конечно, первым шагом на пути решения этих проблемных вопросов является расстановка внутри организации людей, способных самостоятельно вести диалог с ИТ-специалистами, формулировать требования, контролировать и тестировать разработки и даже участвовать во внедрении решений - или, как минимум, экспериментировать с ними. Например, выпускники ( http://ademec.com/ ) магистерской программы Школы хартий по применению информационных технологий в исторических исследованиях ( http://www.enc-sorbonne.fr/fr/rubrique-admissions/master-technologies-numeriques-appliquees-histoire ) как раз имеют такую двойную компетенцию и вполне способны помочь любому архивному центру в выполнении такой работы. Но этого может оказаться недостаточно для того, чтобы убедить ИТ-департамент инвестировать средства в экспорт данных из программных приложений с целью обеспечения их долговременной сохранности.

Большие и открытые данные спешат на помощь

Десять лет тому назад я полагал (см. http://www.lespetitescases.net/bilan-reflexion-sur-la-gestion-des-donnees-numeriques ), что проблема обеспечения сохранности электронных данных подтолкнет организации к тому, чтобы всерьёз заинтересоваться управлением своим информационным наследием и изменить парадигму (см. http://www.lespetitescases.net/logique-applicative-contre-logique-informationnelle-des-si ), перейдя от информационных систем, ориентированных на «процессы»,  к системам,  ориентированным на «данные» ( http://www.lespetitescases.net/comment-mettre-la-donnee-au-coeur-du-si ). Но оказалось недостаточно пообещать большую гибкость информационных систем и предложить новые возможные виды их применения: это нужно было продемонстрировать на практике, а обеспечение долговременной сохранности само по себе не является достаточным аргументом, способных склонить организаций к переменам.

Движущей силой эволюции на деле являются две другие инициативы: «больших данных» (см. http://www.lespetitescases.net/de-quoi-le-Big-Data-est-il-le-nom ) и «открытых данных». Обе они заставляют организации проявить интерес к имеющимся у них данным, вытаскивать эти данных из их «родных», часто изолированных систем для распространения и использования внутри организации (большие данные) или даже вне её (открытые данные).

Помимо присущих им проблем, инициативы «больших данные» и «открытых данных» являются для архивов организаций отличной возможностью включиться в работу по определению политики хранения электронных данных.

Концепция «открытости данных по умолчанию» (l'Open Data par défaut), предусмотренная в «Законе об электронной Республике» (см. https://www.etalab.gouv.fr/ce-que-le-projet-de-loi-pour-une-republique-numerique-change-pour-la-donnee ), должна заставить государственные органы организовать раскрытие государственных данных в соответствии с нормативно-правовыми принципами и, как минимум, взять государственные данные на учет. С учетом этих правовых аспектов, в нынешних обстоятельствах (ожидание прозрачности государственного управления и шумиха вокруг данных) принимающих решения лиц проще убедить соблюдать процесс раскрытия данных, чем поддержать проект по обеспечению их долговременной сохранности. Однако эти два подхода имеют общие цели: обеспечить гражданам доступ к данным, созданным государственными органами - в первом случае для целей прозрачности и повторного использования, а во втором - для целей сохранения их в качестве доказательств и исторической памяти.

Тем самым решается упомянутая выше основная проблема: экспорт данных из первоначальных систем и их представление в подходящих форматах. Для выполнения проектов углубленных статистических исследований, сопоставления данных или машинного обучения («большие данных») или публикации наборов данных на порталах органов и учреждений («открытые данные»), абсолютно необходимо извлекать данные из их первоначальных приложений и систем и преобразовывать их в форматы, которые способны сохранять структуру данных и которыми легко манипулировать (CSV, XML, Json и др.). Архивы могут хорошо вписаться в эти процессы и взять под свой контроль извлеченные/сформированные для этих целей наборы данных. Конечно, эти наборы данных не будут содержать абсолютно всё, что нужно, и потребуется проделать определенную работу для того, чтобы добавить ряд метаданных, но это всё лучше, чем ничего: это позволяет начать работу и включить архивистов в соответствующие процессы, в которых, как мне кажется, на данный момент они совершенно не принимают участия.

Я абсолютно уверен, что компания OpenDataSoft ( https://www.opendatasoft.fr/ ), программное обеспечение которой используется очень многими порталами открытых данных, вполне могла бы разработать дополнительный сервис, поддерживающий выгрузку раскрываемых с помощью данного приложения наборов данных в системы электронной архивации в соответствии с протоколом SEDA ( https://redirect.francearchives.fr/seda/index.html ). Аналогичным образом можно представить себе взаимосвязи между архивной системой Vitam ( http://www.programmevitam.fr/ ) и национальным порталом открытых данных ( http://www.data.gouv.fr/ ), и, возможно, этот вопрос уже стоит на повестке дня: ведь оба проекта разрабатываются Межведомственным управлением цифровых информационных систем и коммуникаций государства (Direction interministérielle du numérique du système d'information et de communication de l'Etat, DINSIC) ...

Эта идея не очень оригинальна: французы, как водится, создали для решения этой задачи новую государственную структуру - Etalab ( https://www.etalab.gouv.fr/ ), но наши соседи из Швейцарии доверили её федеральным архивам ( https://opendata.swiss/fr/faq/#qu-est-ce-qu-opendata-swiss ), что, между нами говоря, представляется вполне логичным. Действительно, работа с «открытыми данными» означает всего лишь расширение сферы деятельности архивов, установленной законодательством ( https://www.legifrance.gouv.fr/affichCodeArticle.do?cidTexte=LEGITEXT000006074236&idArticle=LEGIARTI000006845559&dateTexte=&categorieLien=cid&idSectionTA=LEGISCTA000006159940 ). И, хотя в швейцарской стратегии на 2014-2018 годы обеспечения открытого доступа к государственным данным ( https://www.admin.ch/opc/fr/federal-gazette/2014/3347.pdf ) не обнаружилось никаких следов вопроса долговременного сохранения электронных данных, нет сомнений, что синергия между «открытыми данными» и долгосрочным сохранением электронных данных лежит в основе идеологии швейцарских федеральных архивов.

Если какие-либо органы и организации уже экспериментировали или собираются экспериментировать с этой стратегией, сообщите мне по электронной почте или через Твиттер ( https://twitter.com/lespetitescases ); я буду рад дополнить этот пост новой информацией.

(Окончание следует, см. https://rusrim.blogspot.ru/2018/02/5.html )

Готье Пупо (Gautier Poupeau)

Источник: блог Les Petites Cases
http://www.lespetitescases.net/la-conservation-des-donnees-numeriques-n-est-ni-une-revolution-ni-inatteignable

Комментариев нет:

Отправить комментарий