понедельник, 22 сентября 2025 г.

Репортажи из Берлина: Начало конференции «Европейские дни PDF 2025 года» (PDF Days Europe 2025)

Данный пост эксперта в области управления электронными документами, эксперта ИСО от США Энди Поттера (Andy Potter - на фото) был опубликован 14 сентября 2025 года в социальной сети Substack.

Я пишу этот пост в Берлине накануне конференции «Европейские дни PDF 2025 года» (PDF Days Europe 2025). После долгой дороги, начавшейся от конференции ARA в Бристоле и пролегавшей через Шотландию, Голландию и Германию, я наконец вернулся к своему рабочему ноутбуку и готов завтра [15 сентября 2025 года – Н.Х.] утром принять участие в первой «волне» сессий.

Те, кто не смог сам приехать на эту конференцию, могут рассматривать данный пост как первый из серии отчётов с места событий. Это будут короткие репортажи из залов конференции, позволяющие Вам оставаться в курсе важных тем, не страдая от последствий смены часовых поясов после перелётов и не надевая баджи конференции.

Что нас  ожидает в первый день?


Утреннее заседание начнётся с пленарного доклада профессора д-ра Филиппа Хакера (Philipp Hacker) об искусственном интеллекте и электронных документах. В центре внимания его доклада будет европейское нормативно-правовое регулировании, в особенности Закон Евросоюза об искусственном интеллекте (EU AI Act) и его требования к маркировке, - однако ставки здесь являются глобальными. Хакер обещает привести примеры, – от автоматизированной классификации до выявления мошенничества и конвейеров приёма и обработки документов, - когда из-за потери семантики системы начинают работать некорректно. Для всех, кто работает в сфере стратегического управления информацией, подтекст здесь ясен: как нам сохранять доверие в условиях, когда документы создаются, читаются и оцениваются машинами в той же степени, что и людьми?

После этого параллельно пройдут три сессии:

1. Доклад Кевина де Ворси (Kevin De Vorsey) «PDF 2030: куда движется формат PDF?» (PDF 2030: where is the format heading?)

Мой комментарий: Кевин де Ворси долгое время работал ведущим специалистом Национальных Архивов США по форматам электронных документов

Эта сессия предназначена для тех, кого волнуют долгосрочные перспективы. Формат PDF существует уже более тридцати лет, и, хотя он доказал свою надёжность и долговечность, он также отражает устаревшие представления. 

Кевин поставит сложные вопросы о том, как может выглядеть следующая версия формата PDF. Нужно ли нам продолжать добавлять подмножества и профили формата, или же стоит или переосмыслить сами его основы? Этот вопрос важен для архивистов и специалистов по управлению документами, поскольку принятые сегодня решения в области проектирования будут завтра формировать подходы к обеспечению долговременной сохранности и интероперабельности. Представьте, что Вам придётся объяснять будущим исследователям, почему PDF-файл 2027 года невозможно надежно отобразить, - или, что еще хуже, почему важные свойства не были стандартизированы, когда была такая возможность.

2. Доклад Феликса Вермелингер (Felix Wermelinger, компания PDF Tools AG) «Современные «невидимые чернила»: Скрытая информация в PDF-файлах» (Modern Invisible Ink: hidden information in PDF)

Воспринимайте это доклад как предостережение. Понятие «невидимых чернил» в данном случае охватывает и скрытые слои, и неудалённый текст под закрывающими его чёрными блоками (при цензурировании документов – Н.Х.), и метаданные, раскрывающих куда больше, чем предполагалось, и спрятанная в файле вредоносная информация. 

Феликс разберёт примеры и свяжет их с хорошо известными нам рисками: провалами при раскрытии информации на основе требования законодательства о свободе доступа к государственной информации (FOIA); нарушение конфиденциальности; и обработка моделями ИИ контента, который должен был быть удалён. В плане стратегического управления информацией, это напоминание о том, что доверие в цифровой среде касается не только того, что Вы видите, но также и того, чего Вы не видите.

3. Доклад Бориса Дуброва (Boris Doubrov, компания Dual Lab) «PDF с тегами в дикой природе: Доступность и извлечение в больших масштабах» (Tagged PDF in the Wild: accessibility and extraction at scale)

Эта сессия целиком посвящена данным. Борис и его команда пропустили через свои системы восемь миллионов PDF-файлов, чтобы проверить, какая часть из них была помечена тегами для обеспечения доступности, и насколько корректными были эти структурные деревья. Исследователи также сравнили теги таблиц с результатами распознаванием таблиц на основе ИИ, определив, где технология тегирования полезна, а где нет. 

Для тех из нас, кто заботится о том, чтобы сделать информацию удобной для использования, будь то при использовании программы экранного просмотра, автоматизированные рабочие процессы или интеллектуальный анализ данных, - это базовая истина. Одно дело знать о необходимости тегирования, и совсем другое - увидеть, насколько часто оно действительно корректно реализуется на практике.

Каждая их этих сессий рассматривает различные аспекты одной и той же проблемы:

  • Будущая стратегия (сессия PDF 2030) показывает, в какую сторону движется развитие стандарта.

  • Менеджмент риска (сессия о «невидимых чернилах») показывает, что происходит, когда документы не так «чисты», как кажутся.

  • В плане обеспечения качества и доступность (доклад о PDF-файлах с тегами) ставится вопросом о том, соответствует ли реальная практика установленным политикам.

Почему эти вопросы важно для архивистов и специалистов по управлению документами

Некоторые могут подумать, что конференция «Европейские дни PDF» это что-то вроде технико-технологической выставки. На самом же деле, находящие своё отражение на конференции подводные течения весьма актуальны для нашей профессии, ведь от них зависит решение таких вопросов, как обеспечение аутентичности, прозрачности и долговременной доступности. Выбор архитектурных решений, способы обработки скрытой информации и влияние нормативно-правового регулирования ИИ - всё это определяет, насколько заслуживающими доверия будут наши электронные документы через десять или двадцать лет.

Что будет дальше

Завтра после обеда будут проведены стендовые доклады, которые часто являются самой оживлённой частью дня. Именно на них можно услышать откровенные разговоры о трудностях внедрения, и увидеть прототипы, которые никогда не попадают на слайды регулярных докладов. Я постараюсь рассказать читателям расскажу о тех темах, которые находят отклик у сообщества специалистов по стратегическому управлению информацией.

Итак, конференция начинается. Мой отчёт о её первом дне завершён. Следите за новостями - по ходу конференции я буду отправлять новые репортажи из Берлина.

Эндрю Поттер (Andrew Potter)

Источник: сайт Substack
https://metaarchivist.substack.com/p/dispatch-from-berlin 

1 комментарий:

  1. На анонсе доклада "Современные «невидимые чернила»: Скрытая информация в PDF-файлах" невольно подумал, что ведь реально вопрос наличия скрытых данных или (что, для PDF считается не такой большой проблемой, особенно если мы говорим о PDF-A) не совпадения содержимого с тем, как оно отображается - вещь очень давняя.

    Я помню, что, например, вопрос доверия к подписываемому (ЭЦП) контенту (можно рассматривать это как родственную проблему), мы обсуждали еще лет 15 назад (я, собственно и вспомнил-то про статью https://ecm-journal.ru/material/bomba-formata-doc), а ведь она куда старее.

    Пожалуй, проблема появилась в момент, когда возникли нетекстовые форматы документов со сложным форматированием (т.е. те, которые требуют специальных средств для отображения), а это, пожалуй, время появления и распространения форматов .ps или .dvi (они оба решают одну и ту же задачу просто по разному и разработаны разными людьми), а это - первая половина 1980-х

    ОтветитьУдалить