понедельник, 29 сентября 2025 г.

Репортажи из Берлина: Второй акт в истории формата PDF/A, часть 1

Данный пост эксперта в области управления электронными документами, эксперта ИСО от США Энди Поттера (Andy Potter - на фото) был опубликован 15 сентября 2025 года в социальной сети Substack.

В Берлине было дождливое, штормовое сентябрьское утро, а участники конференции «Дни PDF в Европе» (PDF Days Europe) уже вошли в привычный ритм. Кофе был крепким, программа - насыщенной, и я снова поймал себя на том, что пишу комментарии по поводу докладов, отголоски которых разойдутся далеко за пределами сообщества разработчиков формата PDF и связанных с ним инструментов.

Сегодняшним утром [15 сентября 2025 года – Н.Х.] мне особенно запомнилось выступление Кевина де Ворси (Kevin De Vorsey – на фото слева на коллаже внизу – Н.Х.) — и если Вы уже какое-то время работаете в архивно-документационной области, то Вам должно быть знакомо его имя. Кевин поработал во многих местах: в Смитсоновском институте, в Американском музее естественной истории, в Национальной Библиотеке Новой Зеландии и, конечно же, в качестве аналитика по вопросам политик в Национальны Архивах США (NARA). Он участвует в разработке стандартов PDF с начала 2010-х годов, а сейчас возглавляет рабочую группу WG5 в техническом подкомитете ИСО TC171/SC2. 

В настоящее время Кевин де Ворси занимает пост генерального директора компании ThinkBox.DIGITAL ( https://thinkbox.digital/ ) – кооперативной консалтинговой компании, объединяющей экспертов в области управления электронными документами, обеспечения долговременной сохранности электронных материалов, метаданных, происхождения, исполнения законодательно-нормативных требований и цепочек поставок. Другими словами, это именно тот набор знаний и компетенций, который Вам нужен, когда вы переосмысливаете понятие «долговременная доступность».


Когда-то непопулярный PDF/A 

Кевин не скрывал: когда формат PDF/A появился в 2005 году, сообщество специалистов в области электронной сохранности не особо его поддержало. В то время господствовала идея «нормализовать и сохранить». Архивы хотели иметь дело лишь небольшим числом «заведомо хороших» форматов, часто в ущерб аутентичности документов. Документ в формате WordPerfect? Конвертировать. В формате Lotus 1-2-3? Конвертировать. Федеральные органы исполнительной власти просто отправляли кассеты и диски в хранилища и называли это «обеспечением долговременной сохранности».

Версия формата PDF/A-1 соответствовал потребностям того времени - точность отображения статичного контента, встроенные шрифты, аппаратно-независимая упаковка. Формат был надёжным, но ограничивающим - никакого динамического контента, никаких внешних зависимостей и, конечно же, никаких анимированных GIF-изображений. Для многих из нас это воспринималось как компромисс.

Мой комментарий: В России судьба PDF/A-1 сложилась несколько иначе и, наверное, ещё более странным образом. На него в начале 2010-х годов начали «креститься» в своих нормативных актах не только Росархив, но и многие регуляторы – при этом, однако, не давая подведомственным и подконтрольным организациям указаний и рекомендаций о том, с помощью каких инструментов создавать файлы такого формата; никогда не проверяя соответствие файлов спецификациям этого формата; и не наказывая за несоответствия … И сейчас PDF/A-1 продолжает упоминаться в новых нормативных документах, хотя для многих вариантов применения он заведомо не подходит.

От хранения на магнитных лентах к облачному хранению


Перенесёмся теперь в 2025 год, и ситуация кардинально меняется. Деятельность по обеспечению долговременной сохранности уже не сводится к пятилетнему циклу обновления картриджей с магнитной лентой. Облачное хранение, многоуровневая избыточность и географически распределенное хранение стали нормой. Теперь от хранилищ ожидается, что они будут принимать контент в том виде, в каком он есть - даже файлы в устаревших или необычных форматах, такие как Flash или WordStar, - а не одни лишь нормализованные суррогаты оригинальных документов.

Загвоздка здесь вот в чём: исчезают сами файлы. Документ в Google Doc - это не файл, который можно записать на дискету; это сервис, и аутентичный «формат» не существует вне облака. Кевин отметил, что, работая в Google Workspace, он не может скачать «настоящий документ» Google Doc [т.е. в том формате, в котором он на самом деле хранится в облачной среде – Н.Х.], а может лишь экспортировать его в Word или PDF, являющиеся несовершенными заменителями. Для сообщества специалистов по обеспечению электронной сохранности, это настоящий кошмар.

(Окончание следует, см. https://rusrim.blogspot.com/2025/09/pdfa-2.html )

Эндрю Поттер (Andrew Potter)

Источник: сайт Substack
https://metaarchivist.substack.com/p/dispatch-from-berlin-762 

Комментариев нет:

Отправить комментарий