(Окончание, начало см. http://rusrim.blogspot.com/2026/01/pdfa-1.html )
«Обращайте внимание на глаголы»
Одной из самых полезных вещей, полученных от доклада, стали рекомендации Уайета по чтению стандарта с точки зрения инженера. «Обращайте внимание на глаголы», - сказал он. Требования с формулировкой «обязан присутствовать» (shall be present), описывают те элементы, что содержится в файле. Требования с формулировкой «должен игнорировать» (shall ignore) описывают то, что должно выполнять программное обеспечение. Это простая эвристика, объясняющая, почему корректный файл может отображаться некорректно. Проблема в таком не в файле, а в программе просмотра.
Это различие - между соответствием требованиям на уровне файла и на уровне поведения программы-обработчика – во многих случаях позволяет разобраться с путаницей, связанной с валидацией файлов формата PDF/A. Уайет ясно дал понять: программы просмотра не являются инструментами валидации, а валидация не является интерпретацией. «Не существует «единственно верного» представления в формате PDF/A», - отметил он. «Два разных файла могут оба успешно проходить валидацию, по-разному отображаться, и при этом оба быть корректными».
Лабиринт метаданных
Если что задавало ритм обучающему семинару, так это тема метаданных. Уайет рассказал нам о долгом пути эволюции от примитивного «Словаря информации» (Info Dictionary) в формате PDF (строки «ключ-значение», такие как «Автор» или «Название») и до стандарта XMP (международный стандарт ISO 16684-1), который лежит в основе современных структурированных метаданных.
Он отметил, что PDF/A-1 вынуждает пользователей встраивать схемы для каждого настраиваемого поля, что увеличивает размер и сложность файлов. В стандарте для PDF/A-4 это правило было смягчено: появилась формулировка «Вам желательно включить схему», а не «Вам следует включить схему». Это не бросающееся в глаза изменение имеет серьёзные последствия. Теперь учреждения могут управлять схемами метаданных во внешних системах, ссылаться на них посредством RELAX NG (один из языков описания структуры XML-документа – Н.Х.) или же объединять их в PDF-портфолио, которые функционируют как ZIP-архивы с описательными слоями.
По мнению Уайета, архивисты должны сосредоточить свои усилия именно на этом - на содержательности метаданных, а не на обеспечении минимального соответствия требованиям. «Искусственному интеллекту всё равно, что вы видите на экране», - сказал он. «Он ищет структуру - заголовки, списки, таблицы, связи». Именно здесь лежат основы следующего поколения интеллектуальных систем обеспечения долговременной сохранности.
Валидация: недостоверность декларируемых версий формата
Уайет также поделился некоторыми весьма показательными результатами проведенного им самим тестирования. В выборке из миллиона PDF-файлов 20% содержали некорректные индикаторы версий – например, файлы, заявленные как «PDF 1.4», но содержащие функции формата PDF 1.5. Тем не менее, почти все они открывались нормально. Почему? Потому что большинство программ игнорируют заявленную версию и обрабатывает то, что находит в файле.
Его точка зрения: указанные в файлах номера версий лгут. Рабочие процессы обеспечения электронной сохранности, которые на них полагаются, рискуют тем, что будут исходить их ложных предположений о том, что находится внутри файла. По мнению Уайета, единственная настоящая истина заключается в использованных в файле функциональных возможностях – и поддерживается независимыми валидаторами, которые могут их обнаружить.
Обеспечение долговременной сохранности как «живой стандарт»
В заключительной части своего доклада Уайет перешёл от технических подробностей к вопросу прагматизма политик. Он отметил, что каждая часть серии стандартов ISO 19005 навсегда останется актуальной. Ни одна из них не будет отменена, поскольку деятельность по обеспечению электронной сохранности требует сохранения самих стандартов различных версий файловых форматов. В то же время экосистема форматов продолжает эволюционировать.
Уайет намекнул на предстоящую публикацию поправки к стандарту формата PDF/A-4 (в 2025–2026 годах), которая уточнит наименования и уровни соответствия, а также на продолжающиеся усилия по согласованию форматов PDF/A, PDF/UA и PDF/X для обеспечения сосуществования доступных для лиц со специальными потребностями и готовых к печати файлов. Это элегантной видение: один файл, множество стандартов, долговременное доверие.
Что дал доклад слушателям
Доклад Питера Уайета на конференции iPRES была не просто глубоким погружением в файловый формат PDF. Это также был обращённый к архивистам призыв к действиям – и в первую очередь к обновлению своего образа мышления. Уайет убедительно обосновал, что в рамках усилий в области электронной сохранности вопрос грамотности столь же важен, как и вопрос долговечности: речь идёт о понимании структуры, эволюции и семантики технологий, на которые мы полагаемся.
«Не существует единственно верного формата PDF/A», - сказал он в заключение. «Важно то, чтобы Ваше программное обеспечение и Ваши политики обеспечивали создание файлов, которые проходят валидацию, визуализируются и остаются понятными».
Трудно представить себе более чёткую формулировку миссии электронной сохранности в 21-м веке, - и я очень рад, что наконец-то смог лично услышать об этом.
Эндрю Поттер (Andrew Potter)
Источник: сайт Substack
https://metaarchivist.substack.com/p/inside-the-black-box-of-pdfa
вторник, 6 января 2026 г.
Изнутри «чёрного ящика» формата PDF/A: Мастер-класс Питера Уайета о ясности в сфере электронной сохранности, часть 2
ИСО: Закончено публичное обсуждение частей 1 и 2 обновлённых технических спецификаций ISO/TS 22957 «Управление контентом – Среды управления информацией и документами»
Публичное обсуждение частей 1 и 2 проекта технических спецификаций ISO/TS 22957 «Управление контентом – Среды управления информацией и документами» (Document management - Information/records management environments) завершено, и проект продолжается!
Мой комментарий: О работе над проектом см. пост на блоге http://rusrim.blogspot.com/2025/08/1-2-isots-22957.html . В состав ISO/TS 22957 входят следующие части:
- Часть 1: «Технологии и функциональные возможности» (Part 1: Technology and functionality), см. https://www.iso.org/standard/92864.html
- Часть 2: «Этапы проекта и виды деятельности» (Part 2: Project phases and activities), см. https://www.iso.org/standard/92865.html
Мы получили множество комментариев, вопросов и тем для обсуждения на предстоящем заседании рабочей группы WG11 технического подкомитета TC171/SC2 Международной организации по стандартизации (ИСО). Полученные замечания и предложения были крайне полезны, и мы получили множество замечательных идей от многочисленных международных экспертов. Эти замечания и предложения помогут обеспечить соответствие этих документов потребностям международного сообщества в ходе завершающего этапа их разработки и последующей публикации.
На следующем заседании рабочей группы WG11 мы выделим достаточно времени для обсуждения и анализа всех поступивших замечаний, вместе с подготовленными по ним решениями, - и будем коллективно готовить следующую версию документа, которая будет затем представлена на DIS-голосование (которое, скорее всего, станет завершающим этапом работы над документом – Н.Х.).
Мы продолжаем и дальше совершенствовать этот важный документ, отражающий современные технологии хранения и управления электронной информацией и документами. Данный документ будет крайне полезен для сообщества специалистов в области управлением электронной информацией, контентом и документами.
Я с нетерпением жду продолжения совместной работы над этими документами с участием всех стран-членов ИСО и их экспертов, а также последующих усилий, которые будут инициированы после публикации этого документа. Я благодарю всех за время, потраченное на участие как в этой работе, так и в других мероприятиях рабочей группы WG11, и с нетерпением жду продолжения этой командной работы.
Роберт Блатт (Robert Blatt),
Координатор рабочей группы ИСО TC171/SC2/WG11
Источник: сайт LinkedIn
https://www.linkedin.com/posts/robertblatt_iso-22957-parts-12-informationrecords-activity-7403179155003125760-IYsM
понедельник, 5 января 2026 г.
Изнутри «чёрного ящика» формата PDF/A: Мастер-класс Питера Уайета о ясности в сфере электронной сохранности, часть 1
Данный пост эксперта в области управления электронными документами, эксперта ИСО от США Энди Поттера (Andy Potter - на фото) был опубликован 3 ноября 2025 года в социальной сети Substack
Когда Питер Уайет (Peter Wyatt) выходит на трибуну, можно ожидать мастер-класс, характеризующийся как точностью, так и перспективой. На конференции iPRES 2025 в Веллингтоне Питер Уайет, директор по технологиям Ассоциации PDF и ключевой разработчик стандартов международной организации по стандартизации (ИСО) для формата переносимых документов (Portable Document Format, PDF), провёл насыщенный и увлекательный обучающий семинар, который приоткрыл завесу тайны над тем, как на самом деле «работает» формат PDF/A.
В начале этого года мне не удалось попасть на доклад Питера на проходившей в Берлине конференции «Дни PDF в Европе» (PDF Days Europe 2025, https://pdfa.org/event/pdf-days-europe-2025/ ), поэтому я был рад увидеть его имя в программе конференции в Веллингтоне. На этот раз я твёрдо решил не пропускать его выступление, которое представляло собой не просто обсуждение файловых форматов; в докладе был сделан чёткий разбор того, как пересекаются практика обеспечения долговременной сохранности электронных материалов (электронная сохранность), разработка программного обеспечения и международные стандарты.
Говорит архитектор
Уайет начал с того, что развеял завесу загадочности вокруг своей профессии. Он — австралийский инженер, технический редактор международного стандарта ISO 32000 (PDF 2.0) и контактное лицо, участвующее практически во всех международных дискуссиях об эволюции формата PDF. «Я тот человек, что пишет спецификации формата», - сообщил он. Однако его доклад был не о текущем состоянии стандарта, а о его разъяснении - помогая специалистам по электронной сохранности, архивистам и библиотекарям понять живую экосистему, поддерживающую 30-летнего возраста формат, который по-прежнему играет ключевую роль в сохранении мировой документальной памяти.
Он ясно сформулировал свою миссию: привести практику обеспечения электронной сохранности в соответствие с реальностью существующих стандартов. Использование формата PDF/A не является некоей мистической «печатью» архивной чистоты. Данный формат представляет собой ряд прагматических ограничений, наложенных на сложный и эволюционирующий «полный» файловый формат PDF. Посыл Уайета был ясен: невозможно сохранить то, чего не понимаешь.
От «цифровой бумаги» к платформе обеспечения сохранности
Первый тезис Уайета был обманчиво прост. PDF - это не файл, а контейнер. Это объектно-ориентированная структура с произвольным доступом, инкапсулирующая текст, изображения, векторную графику, метаданные и даже исполняемую логику. В начале своего существования PDF выступал в роли «цифровой бумаги» - окончательной формы для готовых к печати документов. Формат PDF 2025 года, пояснил Уайет, уже больше похож на самоописываемую цифровую экосистему. Он может содержать 3D-модели, мультимедийные объекты, встроенные метаданные в форматах XML или JSON, слои доступности, а также несколько представлений контента в одном файле.
Вот почему так важна буква «А» в аббревиатуре PDF/A (от слова «архивный»). Она укрощает хаос, ограничивая использование функциональных возможностей, которые могут нарушить воспроизводимость или же сделать контент зависимым от внешнего программного обеспечения. Речь идёт о фиксации визуального представления, а не смысла, политики или аутентичности. «Формат PDF/A определяет визуальное представление статической страницы, и это, по сути дела, всё», - напомнил Уайат аудитории. «Всё остальное - политика управления документами, структура метаданных, долговременная доступность доступ - определяется Вами».
Отправка «на покой» устаревшей редакции стандарта
Самое провокационное замечание Уайета касалось формата PDF/A-1, опубликованного в 2005 году, который отказывается исчезать. Уайет отметил, что некоторые архивные и государственные политики по-прежнему требуют его использования, и назвал эту практику «индикатором устаревшего программного обеспечения, а не хорошей политики». PDF/A-1 запрещает прозрачность, тени и использование формата изображений JPEG 2000, которые уже два десятилетия являются стандартными элементами цифрового контента. Преобразование современных документов в этот формат, по его словам, «отупляет контент и искажает его аутентичность».
Мой комментарий: Знаете ли Вы страну, в которой архивное агентство и многие государственные ведомства по-прежнему настаивают именно на использовании PDF/A-1? :)
Его призыв был недвусмысленным: Перестаньте считать соответствие стандарту PDF/A-1 признаком добродетели. Используйте архивный формат PDF/A-4 (регламентированный стандартом ISO 19005-4:2020), основанный на формате PDF 2.0, который объединяет в себе доступность, поддержку встроенных файлов и боле богатые модели метаданных. Если же Ваша система по-прежнему настаивает на PDF/A-1, сказал он, «то Вы не обеспечиваете отражение контента в том виде, в котором сегодня создаётся».
(Окончание следует, см. http://rusrim.blogspot.com/2026/01/pdfa-2.html )
Эндрю Поттер (Andrew Potter)
Источник: сайт Substack
https://metaarchivist.substack.com/p/inside-the-black-box-of-pdfa
Подходит к завершению работа над европейским стандартом prEN 18221 «Цифровой паспорт продукта – Хранение, архивирование и обеспечение сохранности данных» (2)
(Окончание, начало см. http://rusrim.blogspot.com/2026/01/pren-18221-1.html )
Проект европейского стандарта prEN 18221 «Цифровой паспорт продукта – Хранение, архивирование и обеспечение сохранности данных» (Digital product passport - data storage, archiving, and data persistence) по объёму невелик. Ниже приведен перевод ключевого раздела 4.
4. Общие принципы и требования
4.1. Требования к хранению данных и активов цифровых паспортов продукта
Цифровой паспорт продукта должен храниться экономическим оператором, и/или ответственным за его создание производителем, и/или действующими от их имени поставщиками услуг цифровых паспортов продуктов.
Данные в хранимом цифровом паспорте продукта должны быть точными, полными и актуальными.
Производитель обязан обеспечить доступность цифрового паспорта продукта в онлайн-режиме в течение всего срока действия цифрового паспорта продукта (digital product passport lifetime).
Цифровой паспорт продукта может содержать ссылки на другие цифровые паспорта продуктов, при этом цифровые паспорта продуктов всегда должны храниться независимо друг от друга.
Данные цифрового паспорта продукта должны храниться таким образом, чтобы на основе хранимых данных можно было генерировать человеко-читаемые и/или машиночитаемые представления.
Мой комментарий: Проще, наверное, было бы сказать, что должна поддерживаться понятность данных. Если данные понятны, то всегда можно создать разнообразные как человеко-читаемые, так и машиночитаемые представления.
Архитектура цифрового паспорта продукта является децентрализованной, и настоящий документ не предписывает каких-либо конкретных технологий хранения данных. Это позволяет экономическим операторам и поставщикам услуг цифровых паспортов продуктов использовать существующие системы в качестве основа для хранения данных.
Мой комментарий: Замечу, что отсутствует требование об обеспечении удобства поиска данных. В сложной распределённой системе (а речь идёт о целом континенте) данные могут существовать и, в принципе, быть доступными – но найти их сможет не каждая старушка :) Также не затронут вопрос о том, должны ли данные быть доступными пользователям на всех официальных языках Евросоюза.
4.2. Архивирование и правила архивирования
Мой комментарий: Напомню, что в данном стандарте понятие «архивирование» охватывает только старые версии цифрового паспорта продукта, и не охватывает его актуальную версию. Вообще стоит отметить, что в Регламенте №2024/1781 вопрос сохранения старых версий цифровых паспортов продуктов не рассматривается.
Сервис архивирования обеспечивает защищённое хранение исторических данных паспортов продуктов, сохраняя полную документацию об информации за прошлые периоды. Эта функциональная возможность особенно актуальна для целей надзора над рынком.
Архивирование начинается с момента внесения первого изменения в первоначальный цифровой паспорт продукта.
Архивные версии цифрового паспорта продукта должны храниться как в основном хранилище цифровых паспортов продукта, так и в резервном хранилище цифровых паспортов продукта (имеются в виду хранилища, поддерживаемые основными и резервными поставщиками услуг цифровых паспортов продуктов – Н.Х.).
Все архивные версии должны сохраняться в течение всего срока действия цифрового паспорта продукта.
Должны архивироваться все изменения в цифровом паспорте продукта, за исключением часто обновляемых или имеющих преходящее значение данных, если только иное не предписано какими-либо требованиями, специфическими для конкретного продукта.
На архивные версии распространяются те же ограничения доступа, что и на соответствующие атрибуты в текущем цифровом паспорте продукта.
Должна поддерживаться возможность поиска и извлечения аутентифицированными и авторизованными лицами архивной версии, соответствующей заданному моменту времени.
Целостность архивных версий и их верность оригиналам должны обеспечиваться в соответствии с европейскими стандартами по вопросам аутентификации, надежности и целостности данных.
4.3. Долговечность данных и правила обеспечения долговечности данных
Долговечность данных необходима для обеспечения доступности данных, включенных в паспорта продуктов, даже после прекращения активности на рынке создавшего паспорт экономического оператора.
При размещении продукта на рынке, экономический оператор, после регистрации продукта, должен предоставить резервную копию цифрового паспорта продукта через (основного – Н.Х.) поставщика услуг цифровых паспортов продуктов, который должен хранить резервную копию наиболее актуальной версии цифрового паспорта продукта.
Резервный поставщик услуг цифровых паспортов продуктов обязан хранить все версии цифрового паспорта продукта, если иное не предусмотрено требованиями, специфичными для конкретного продукта.
Доступ к атрибутам резервной копии цифрового паспорта продукта подпадает под те же ограничения, что и доступ к соответствующим атрибутам исходного цифрового паспорта продукта.
Если создавший паспорт продукта экономический оператор больше не проявляет активности на рынке, то резервный поставщик услуг цифровых паспортов продуктов несёт ответственность за интеграцию обновлений в цифровой паспорт продукта, когда такие изменения вносятся уполномоченной третьей стороной.
Цифровой паспорт продукта должен быть доступен через резервного поставщика услуг цифровых паспортов продуктов в течение всего срока действия цифрового паспорта продукта.
Доступ к цифровому паспорту продукта через резервного поставщика услуг цифровых паспортов продуктов должен предоставляться с тем же качеством обслуживания, которое по закону требуется от создавшего цифровой паспорт продукта экономического оператора, начиная с даты прекращения активности экономического оператора на рынке.
Мой комментарий: Разработчики стандарта всерьёз думают, что будет так легко установить момент «прекращения активности экономического оператора на рынке» …
Мне очень интересно, будут ли услуги доступа к паспортам платными? А если нет, то каковы будут риски и экономическая заинтересованность поставщиков услуг – причём требования к нему предъявляются настолько серьёзные, что взяться за подобную работу могут, наверное, только или коммерсанты-меценаты, или государственные органы.
4.4. Дополнительная электронная документация, прилагаемая к цифровому паспорту продукта
При предоставлении дополнительной электронной документации производитель обязан включить ее, напрямую или посредством ссылки, в цифровой паспорт продукта, и обеспечить к ней доступ через цифровой паспорт продукта.
Производитель обязан представить цифровые инструкции в формате, позволяющем скачивать и сохранять их на электронном устройстве, с тем, чтобы пользователь мог получить к ним доступ в любое время; он также обязан обеспечить к ним онлайн-доступ в течение всего срока действия цифрового паспорта продукта.
Мой комментарий: «Дьявол кроется в деталях». Формат электронной документации может, например, оказаться крайне неудобным для пользователей – при этом требование о доступности и возможности скачивания формально будет выполнено. Возможность онлайн-доступа «в любое время» может сильно зависеть от используемой ИТ-инфраструктуры и от местоположения пользователя … В стандарте отсутствуют чёткие критерии, позволяющие установить, выполнено ли в полной мере требование к обеспечению онлайн-доступа.
Резервный поставщик услуг цифровых паспортов продуктов также несет ответственность за хранение и обеспечение доступа к любой дополнительной электронной документации, включенной напрямую или посредством ссылки в цифровой паспорт продукта.
Мой комментарий: Ответственность поставщика за обеспечение работоспособности внешних ссылок – просто замечательная идея разработчиков стандарта…
4.5 Репликация между экономическими операторами и резервными поставщиками услуг цифровых паспортов продуктов
Создающий цифровой паспорт продукта экономический оператор несёт ответственность за обеспечение непрерывной репликации цифрового паспорта продукта и всех изменений в нём, как это предусмотрено в п.4.3, своему резервному поставщику услуг цифровых паспортов продуктов.
В случае внесения изменений частота репликации должна быть достаточной для защиты данных в случае ухода экономического оператора с рынка, - однако эта частота может быть дополнительно регламентирована специфическими требованиями, предъявляемыми к конкретному продукту.
Осуществление репликации между экономическим оператором и его резервным поставщиком услуг цифровых паспортов продуктов должно быть возможно посредством использования стандартизированного API-интерфейса жизненного цикла цифрового паспорта продукта; но также может осуществляться с использованием иных взаимно согласованных защищённых механизмов репликации.
Репликация между экономическим оператором и его резервным поставщиком услуг цифровых паспортов продуктов должна осуществляться по защищенному каналу, например, по зашифрованному соединению после успешной проверки обеспечения прозрачности сертификата (речь здесь идёт об одном из стандартов Интернета серии RFC, чьей публикацией занимается Инженерный совет Интернета (Internet Engineering Task Force, IETF) под эгидой Общества Интернета ISOC. Это стандарт IETF RFC 9162 «Обеспечение прозрачности сертификатов» версии 2.0 (Certificate Transparency Version 2.0), см. https://datatracker.ietf.org/doc/rfc9162/ . Стандарт специфицирует протокол для публичного протоколирования существования сертификатов сервера TLS (Transport Layer Security) по мере их выдачи или наблюдения таким образом, который даёт возможность любому пользователю проводить аудит деятельности удостоверяющего центра и выявлять случаи выдачи подозрительных сертификатов, а также проводить аудит самих журналов аудита выдачи сертификатов – Н.Х.).
Мой комментарий: Учитывая многообразие экономических операторов, их географического местоположения и юрисдикций, и, соответственно, риск потенциальной недоступности защищённых каналов по тем или иным причинам – мне трудно понять, почему нельзя, например, использовать передачу зашифрованных файлов по недоверенным каналам связи?
Мой комментарий: Стандарт оставляет впечатление «сырого» документа. Пока что он, как мне кажется, не решает ту задачу, ради которой был написан – выполнять функции чётко определённого технического регламента. Слишком много существенных технических вопрос не получили должного освещения.
Также складывается впечатление, что у разработчиков нет чёткого представления об экономической модели деятельности поставщиков услуг.
Далее, поставщики ведь также не вечны и могут прекратить свою работу (это может случиться даже с государственными органами и учреждениями) – и в стандарте нет ни слова о том, что будет происходить в таком случае …
Источники: сайт CEN / сайт DIN
https://standards.cencenelec.eu/ords/f?p=CEN:110:::::FSP_PROJECT,FSP_ORG_ID:80715,3342699&cs=16422F44E52DDD831093541EB8FA0D1D3
https://www.dinmedia.de/de/norm-entwurf/din-en-18221/393616128
https://www.doc88.com/p-20837826157788.html



