вторник, 6 января 2026 г.

Изнутри «чёрного ящика» формата PDF/A: Мастер-класс Питера Уайета о ясности в сфере электронной сохранности, часть 2

(Окончание, начало см. http://rusrim.blogspot.com/2026/01/pdfa-1.html )

«Обращайте внимание на глаголы»

Одной из самых полезных вещей, полученных от доклада, стали рекомендации Уайета по чтению стандарта с точки зрения инженера. «Обращайте внимание на глаголы», - сказал он. Требования с формулировкой «обязан присутствовать» (shall be present), описывают те элементы, что содержится в файле. Требования с формулировкой «должен игнорировать» (shall ignore) описывают то, что должно выполнять программное обеспечение. Это простая эвристика, объясняющая, почему корректный файл может отображаться некорректно. Проблема в таком не в файле, а в программе просмотра.

Это различие - между соответствием требованиям на уровне файла и на уровне поведения программы-обработчика – во многих случаях позволяет разобраться с путаницей, связанной с валидацией файлов формата PDF/A. Уайет ясно дал понять: программы просмотра не являются инструментами валидации, а валидация не является интерпретацией. «Не существует «единственно верного» представления в формате PDF/A», - отметил он. «Два разных файла могут оба успешно проходить валидацию, по-разному отображаться, и при этом оба быть корректными».

Лабиринт метаданных

Если что задавало ритм обучающему семинару, так это тема метаданных. Уайет рассказал нам о долгом пути эволюции от примитивного «Словаря информации» (Info Dictionary) в формате PDF (строки «ключ-значение», такие как «Автор» или «Название») и до стандарта XMP (международный стандарт ISO 16684-1), который лежит в основе современных структурированных метаданных.

Он отметил, что PDF/A-1 вынуждает пользователей встраивать схемы для каждого настраиваемого поля, что увеличивает размер и сложность файлов. В стандарте для PDF/A-4 это правило было смягчено: появилась формулировка «Вам желательно включить схему», а не «Вам следует включить схему». Это не бросающееся в глаза изменение имеет серьёзные последствия. Теперь учреждения могут управлять схемами метаданных во внешних системах, ссылаться на них посредством RELAX NG (один из языков описания структуры XML-документа – Н.Х.) или же объединять их в PDF-портфолио, которые функционируют как ZIP-архивы с описательными слоями.

По мнению Уайета, архивисты должны сосредоточить свои усилия именно на этом - на содержательности метаданных, а не на обеспечении минимального соответствия требованиям. «Искусственному интеллекту всё равно, что вы видите на экране», - сказал он. «Он ищет структуру - заголовки, списки, таблицы, связи». Именно здесь лежат основы следующего поколения интеллектуальных систем обеспечения долговременной сохранности.

Валидация: недостоверность декларируемых версий формата

Уайет также поделился некоторыми весьма показательными результатами проведенного им самим тестирования. В выборке из миллиона PDF-файлов 20% содержали некорректные индикаторы версий – например, файлы, заявленные как «PDF 1.4», но содержащие функции формата PDF 1.5. Тем не менее, почти все они открывались нормально. Почему? Потому что большинство программ игнорируют заявленную версию и обрабатывает то, что находит в файле.

Его точка зрения: указанные в файлах номера версий лгут. Рабочие процессы обеспечения электронной сохранности, которые на них полагаются, рискуют тем, что будут исходить их ложных предположений о том, что находится внутри файла. По мнению Уайета, единственная настоящая истина заключается в использованных в файле функциональных возможностях – и поддерживается независимыми валидаторами, которые могут их обнаружить.

Обеспечение долговременной сохранности как «живой стандарт»


В заключительной части своего доклада Уайет перешёл от технических подробностей к вопросу прагматизма политик. Он отметил, что каждая часть серии стандартов ISO 19005 навсегда останется актуальной. Ни одна из них не будет отменена, поскольку деятельность по обеспечению электронной сохранности требует сохранения самих стандартов различных версий файловых форматов. В то же время экосистема форматов продолжает эволюционировать.

Уайет намекнул на предстоящую публикацию поправки к стандарту формата PDF/A-4 (в 2025–2026 годах), которая уточнит наименования и уровни соответствия, а также на продолжающиеся усилия по согласованию форматов PDF/A, PDF/UA и PDF/X для обеспечения сосуществования доступных для лиц со специальными потребностями и готовых к печати файлов. Это элегантной видение: один файл, множество стандартов, долговременное доверие.

Что дал доклад слушателям

Доклад Питера Уайета на конференции iPRES была не просто глубоким погружением в файловый формат PDF. Это также был обращённый к архивистам призыв к действиям – и в первую очередь к обновлению своего образа мышления. Уайет убедительно обосновал, что в рамках усилий в области электронной сохранности вопрос грамотности столь же важен, как и вопрос долговечности: речь идёт о понимании структуры, эволюции и семантики технологий, на которые мы полагаемся.

«Не существует единственно верного формата PDF/A», - сказал он в заключение. «Важно то, чтобы Ваше программное обеспечение и Ваши политики обеспечивали создание файлов, которые проходят валидацию, визуализируются и остаются понятными».

Трудно представить себе более чёткую формулировку миссии электронной сохранности в 21-м веке, - и я очень рад, что наконец-то смог лично услышать об этом.

Эндрю Поттер (Andrew Potter)


Источник: сайт Substack
https://metaarchivist.substack.com/p/inside-the-black-box-of-pdfa 

Комментариев нет:

Отправить комментарий