понедельник, 10 февраля 2014 г.

Отзыв об отчете РГГУ «Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения»


Отчет по теме: «Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения» в рамках НИР «Исследование современных процессов документационного обеспечения управления и развития электронного документооборота» был подготовлен Российским государственным гуманитарным университетом (РГГУ) по заказу Росархива в 2013 году.

Документ объёмом 62 странице выложен на сайте Росархива по адресу http://archives.ru/sites/default/files/rekomendation-rggu-format-2013.pdf .

Первое, что режет глаз в отчете, это наличие морально устаревшей терминологии бумажной эпохи, к которой авторы не рискнули подойти критически. В отчете приводятся следующие определения:
Единица учета электронного фонда пользования – файл или совокупность файлов, составляющих образ дела, за единицу измерения файла принимается байт (Мб, Гб, Тб).

Единица хранения электронных документов – электронное дело, содержащее электронные документы и метаданные к ним, сформированное в соответствии с номенклатурой дел.
Реальность такова, что электронные документы далеко не все «бумагоподобны». Скажем, базу данных трудно «сформировать в дело» (да и зачем?). Более того, для электронного документооборота характерен (и уже реально применяется) учет на уровне документа, а не на уровне дела. Что касается объёма электронного документа в байтах, то это одна из наиболее бессодержательных его характеристик – тем более, что этот объём во времени будет изменяться как вследствие миграции электронных документов в новые форматы, так и вследствие пополнения метаданных документа.

Что касается единиц хранения, то авторы забыли про обычную логику. Это должны быть именно те объекты, которые, как говорится, можно взять в руки (носители информации), а не некие виртуальные сущности!

Приведено, на мой взгляд, неудачное, устаревшее определение термина «файл»:
Файл (англ. file) - блок информации на запоминающем устройстве компьютера, имеющий определённое логическое представление (начиная от простой последовательности битов или байтов и заканчивая объектом сложной СУБД)
Для сравнения процитирую определение из терминологической базы Международного совета архивов (см. http://www.ciscra.org/mat/termdb/term/2548 ):
Компьютерный файл - набор данных, обрабатываемый компьютером как единый объект
Авторы удивили тем, что ввели отдельные определения понятий «цифровой документ» и «электронный документ», которые в современной отраслевой литературе означают одно и то же, при этом в законодательстве Российской Федерации предпочтительно используется термин «электронный документ». С моей точки зрения, это способно лишь запутать читателя.

Постановка задачи во Введении дана достаточно хорошо, но всё же от РГГУ я ожидала большей гибкости. Например, не могу согласиться со следующим утверждением на стр.12:
Анализ нормативных документов, указанных в техзадании позволил сформулировать основные установленные требования к форматам электронных документов долговременного хранения: …

3. Проверку технических параметров электронных документов проводят с использованием специальной аппаратуры и программного обеспечения, предназначенных для работы с соответствующего вида архивными документами. Данный пункт предполагает, что программное обеспечение для воспроизведения файлов электронных документов должно быть доступно организациям-хранителям документов, что предполагает недопустимость использования в качестве утвержденных форматов файлов, форматы, образуемые дорогостоящим, малораспространенным или неподдерживаемым программным обеспечением.
Коллегам стоило бы знать, что дешёвое и распространенное программное обеспечение существует только для офисных форматов. Скажем, для таких распространенных объектов, как базы данных (ряду которых по закону уже установлен постоянный или длительный срок хранения) стандартных форматов и дешёвого массового ПО нет. Его по сути дела нет для аудио и видеофайлов, отличающихся огромным разнообразием структуры, не говоря уже о САПР-системах, геоинформационных системах и т.п. Вместо непрактичных заявлений о недопустимости нестандартных форматов не лучше ли было сказать о предпочтительности использования определенных форматов, хорошо поддерживаемых существующим матобеспечением?

Ссылка при этом на оторванное от жизни положение Правил организации хранения, комплектования, учета и использования документов Архивного фонда Российской Федерации и других архивных документов в государственных и муниципальных архивах, музеях и библиотеках, организациях Российской академии наук, согласно которому «Электронные документы принимаются на хранение в сопровождении программных средств, позволяющих их воспроизвести, и с необходимым комплектом сопроводительной документации», говорит лишь о том, что кабинетным учёным иногда полезно выходить в реальный мир. В реальном мире просто так передать архиву лицензионное ПО нельзя, не нарушив при этом права правообладателя – не говоря уже о том, что архивы явно не готовы стать музеями разнокалиберного программного обеспечения и необходимой для его использования программно-аппаратной инфраструктуры. В реальном мире федеральное или региональное правительство может просто приказать архивам принимать всё, что им дают, и в таком виде, в каком дают – примеры тому уже есть.

Следующий пункт 4 откровенно удивляет. По мнению авторов. «СЭД ФОИВ должна обеспечивать отображение следующих форматов файлов: pdf, rtf, doc, tiff». На практике практически все СЭД позволяют хранить объёкты любых форматов. Часть из них может просматриваться с использованием встроенной программы просмотра, а остальные – с использованием иного программного обеспечения, установленного на компьютере пользователя. Возникает вопрос о том, почему не упомянуты такие современные форматы, как ODF и OOXML (в.ч. .docx), как можно в современных условиях считать необязательной поддержку форматов электронных таблиц и презентаций?

В документе приведены многочисленные цитаты из различных стандартов и нормативных документов. В целом такой подход, наверное, оправдан, поскольку стандарты для многих практиков недоступны. В то же время авторам следовало отнестись к этим документам более критически – положение дел в области форматов меняется быстро, и большинство цитируемых ими документов либо были созданы в бумажную эпоху несведущими в электронных технологиях людьми, либо вышли в свет более 5 лет тому назад. Соответственно, они как минимум частично морально устарели.

Говоря об общих требованиях к файловым форматам (стр.15), я бы все-таки акцентировала внимание не на «устойчивости к многократным миграциям» - это дело непонятное, поскольку результат миграции зависит не только от формата, но и от используемого программного обеспечения, от квалификации проводящего миграцию специалиста, от наличия и надёжности системы контроля качества миграции. Главным является то, что использование подходящих форматов позволяет резко сократить частоту миграций и, соответственно, снизить риски и расходы.

Предложенная в документе методика сравнения форматов вполне адекватная и учитывает практические все основные факторы (стр.17-18). При этом материал о проведенных экспериментальных исследования все-таки лучше было вынести в приложения. Для той аудитории, которой адресован документ, приведенные формулы не нужны, а специалисты по математической статистике их, скорее всего, раскритикуют :) К тому же на данный момент в отношении большинства форматов накоплен настолько огромный международный опыт, что очень скромные по масштабы собственные эксперименты мало что к нему добавляют.

Что в сухом остатке? Здесь уже не столь хорошо. В сухом остатке получаем (см. фото ниже) рекомендации, позаимствованные – местами без перевода на русский язык! - из рекомендаций по форматам для долговременной сохранности, подготовленных университета штата Флорида (Recommended Data Formats for Preservation Purposes in the Florida Digital Archive, University of Florida, http://ufdc.ufl.edu/AA00017119/00011 ):


Сравните:


Эх, ну кто же у нас не знает ну очень широко распространенного в России формата SGML? :) Кто из государственных органов не использует в широких масштабах (см. стр.21) форматы EPUB и JPEG2000 (но не JPEG)? Список-то у американцев хороший и обширный (хотя и не бесспорный), но он отражает их, а не нашу реальность…

Список литературы показывает, что авторы из русскоязычных публикаций знают только стандарты, нормативные документы и публикации ВНИИДАД (в которых, как они сами признали во введении, в систематическом виде ничего по данному вопросу сказано до сих пор не было). Их знакомство с зарубежными публикациями также поверхностное – названа одна единственная свежая публикация (которая, собственно, и легла в основу результатов отчета) да ещё две старенькие, к тому же не самые авторитетные работы. Не упомянуты, скажем, ни переведенные на русский язык спецификации MoReq и MoReq2, ни документы Национальных Архивов США и стран Евросоюза…

В целом, учитывая голод на методическую литературу и актуальность вопроса, я бы оценила подготовленный РГГУ документ на «четверочку». В данном случае, на мой взгляд, важнее его очевидная потенциальная полезность для разработки государственными органами своей нормативно-методической базы, чем не менее очевидные недостатки.

Тем, кого интересует проблема файловых форматов для архивного хранения, могу также порекомендовать некоторые свои посты и статьи по этой теме:

2 комментария:

  1. По поводу данного документа на Фейсбуке началась дискуссия. На удивление, мой отзыв пока что оказался самым добрым :) Другие отзывы см.:

    https://www.facebook.com/groups/ecm.group.rus/permalink/676444619084445/
    https://www.facebook.com/groups/ecm.group.rus/permalink/676464649082442/

    ОтветитьУдалить
  2. Интересно, ясным, чистым и точным спасибо за эту статью, я желаю вам удачи в вашей работе.

    ОтветитьУдалить