вторник, 30 сентября 2025 г.

Репортажи из Берлина: Второй акт в истории формата PDF/A, часть 2

(Окончание, начало см. https://rusrim.blogspot.com/2025/09/pdfa-1.html )

Почему PDF/A всё ещё «в игре»

Вот тут-то Кевин меня и удивил. Вместо того, чтобы считать PDF/A компромиссным решением вчерашнего дня, он представил его как мост в завтрашний день:

  • Повсеместная распространённость: PDF-файл можно открыть практически на любом устройстве, в любом месте. Эта универсальность крайне ценна.

  • Стратегическое управление форматом осуществляет Международная организация по стандартизации (ИСО): Стабильность и принятие решений на основе консенсуса означают, что изменения не вносятся по чьей-то прихоти. Архивисты доверяют такому подходу.

    Мой комментарий:
    Это можно сказать и иначе - PDF/A является открытым стандартизированным форматом, из которого убраны «опасные» возможности «полного» формата PDF.

  • Расширяемость: В версии PDF/A-3 появилась возможность включать произвольные встроенные цифровые объекты, а в PDF/A-4 – возможность включения трехмерных изображений. Это не диковинки, а основа для поддержки более содержательных документов.

    Мой комментарий:
    Формат PDF/A-3 попал в серию PDF/A, он не является «архивным», поскольку его инновационная особенность как раз является крайне опасной возможностью (с точки зрения обеспечения долговременной сохранности и доступности), которую желательно избегать. Однако это формат весьма интересен как инструмент сохранения таких непростых электронных объектов, как сообщения электронной почты с вложениями, либо документы, сочетающие в себе человеко- и машиночитаемые представления информации – что не преминули заметить и наши регуляторы

  • Декларации: Представьте себе слой метаданных, связывающий документы с внешними стандартами, такими как HIPAA. Внезапно этот ящик с «загадочными файлами» становится пригодным для машинной обработки.

    Мой комментарий:
    Закон о переносимости и подотчётности медицинского страхования (Health Insurance Portability and Accountability Act, HIPAA) был принят в США 1996 году. Первая часть данного закона (Title I) защищает рабочих и членов их семей от потери медицинской страховки в случае смены или потери работы. Для нас представляет интерес вторая часть данного закона (Title II), известная как «Положения об административном упрощении» (Administrative Simplification provisions, AS), предписывающая создание национальных стандартов электронных транзакций в здравоохранении и введение национальных идентификаторов для поставщиков услуг, медицинских страховых полисов и сотрудников. В ряде положений этой же части закона рассматриваются вопросы защиты медицинских данных и защиты неприкосновенности личной жизни.

  • Формат PDF/R - версия стандарта PDF для растровых графических изображений. Представьте себе отсканированный документ, изначально созданный в формате PDF, с захваченной информацией о происхождении, полученной прямо с чипа. Никакой нормализации, никакого непрозрачного конвейера обработки - только изначально заложенная аутентичность.

    Мой комментарий:
    Это формат уже существует довольно давно – стандарт ISO 23504-1:2020 «Приложения для управления контентом – Хранение и передача растровых изображений – Часть 1: Использование ISO 32000 (PDF/R-1)» (Document management applications - Raster image transport and storage - Part 1: Use of ISO 32000 (PDF/R-1), см.
    https://www.iso.org/standard/75804.html и https://www.iso.org/obp/ui/#!iso:std:75804:en , а также мой пост https://rusrim.blogspot.com/2020/08/pdfr.html ) был опубликован осенью 2020 года, и пока интереса к нему что-то не видно. Похоже, он пока так и не нашёл свою нишу …

Именно здесь во всей красе показывает себя опыт Кевина. Его работа в сфере консалтинга сосредоточена на вопросах, касающихся цепочки ответственного хранения, аудита, метаданных и происхождения. Это уже не второстепенные вопросы; их решение играет ключевую роль в том, сможем ли мы доказать, что электронный документ является именно тем, чем он претендует быть (т.е. является аутентичным – Н.Х.).

Происхождение и аутентичность - следующий рубеж

Кевин связал всё это с проектом, за которым многие из нас внимательно следят: «Происхождение и аутентичность контента» (Content Provenance and Authenticity, CTPA – основным разработчиком является «Коалиция по вопросам происхождения и аутентичности контента» (Coalition for Content Provenance and Authenticity, C2PA), см. также пост на блоге https://rusrim.blogspot.com/2025/02/isodis-22144.html - Н.Х.). Он показал, как утверждения (assertions) в CTPA зеркально отражают структуру событий в PREMIS (Preservation Metadata Implementation Strategies – «Метаданные для долговременной сохранности: Стратегии реализации»: широко используемый стандарт метаданных для документирования усилий по обеспечению электронной сохранности - Н.Х.) — операции цензурирования, конверсии, извлечения — всё отслеживается как отдельные этапы.

Кевин участвует в работе группы, объединяющей представителей государственных органов, библиотек, архивов и музеев, которая устанавливает соответствие стандартов PREMIS и CTPA. Это может звучать скучно, но на деле это не так. Это как раз то недостающее звено, которое может обеспечить создание необходимых для обеспечения долговременной сохранности метаданных на более ранних стадиях жизненного цикла, ближе к моменту созданию контента.

Представьте себе: документ сканируется, электронный образ изначально создаётся в формате PDF/R со встроенными CTPA-утверждениями; заявляется о его соответствии законодательно-нормативным требованиям; а затем он упаковывается в оболочку PDF/A. Каждое преобразование, каждое утверждение является часть цепочки. Для архивистов это близко к Святому Граалю - созданию «идеального файла для долговременного сохранения».

«История любви»

Кевин пошутил, что чуть было не назвал свой доклад «PDF/A: История любви» - но это была не просто шутка. Он прошёл путь от скептика, мечтающего о том, чтобы «взорвать» PDF и начать всё с нуля, до сторонника его будущего. Суть заключается не в переписывании спецификаций, а в том, чтобы создать коллективно применяемое руководство по его разумному использованию формата.

Мы уже видели такой подход на примере EA-PDF (разрабатываемой версии формата PDF для сохранения сообщений электронной почты в т.ч. с вложениями), и нам нужны аналогичные усилия сообщества в отношении контента социальных сетей, мессенджеров и облачных сервисов. Архивисты, специалисты по управлению документами и представители сообщества PDF-технологий должны работать «за одним столом», вырабатывая соглашения, которые будут иметь смысл как для повседневного использования контента, так и для его долгосрочного курирования.

Почему это важно для архивистов и специалистов по управлению документами

С точки зрения архивно-документационного мира, выводы из сказанного очевидны:

  • Облако изменило характер проблемы. Аутентичные форматы, возможно, не смогут существовать за пределами проприетарных сервисов.

  • Формат PDF/A остаётся незаменимым - не потому, что он идеален, а потому, что он стабилен, универсален и способен адаптироваться.

  • Знание происхождение играет ключевую роль. Использование CTPA + PREMIS + декларации наконец-то позволят нам захватить события, связанные с созданием, преобразованием и сохранением, в одну неразрывную цепочку.

  • Мы должны стать владельцами рекомендаций по применению. Если мы не поможем определить, как следует использовать формат PDF/A, это сделают поставщики, и тогда наши потребности могут остаться без внимания.

Эндрю Поттер (Andrew Potter)

Источник: сайт Substack
https://metaarchivist.substack.com/p/dispatch-from-berlin-762 

Комментариев нет:

Отправить комментарий