четверг, 9 октября 2025 г.

Репортажи из Берлина: Следующий триллион PDF-файлов на подходе

Данный пост эксперта в области управления электронными документами, эксперта ИСО от США Энди Поттера (Andy Potter - на фото) был опубликован 16 сентября 2025 года в социальной сети Substack.

Я пришёл на предобеденную сессию конференции «Дни PDF в Европе» (PDF Days Europe) как раз в тот момент, когда на трибуну вышел Мэтью Харди (Matthew Hardy – на фото в верхнем правом углу приведенного ниже коллажа – Н.Х.) из компании Adobe (именно эта компания является фактическим разработчиком стандартов PDF – Н.Х.). Харди проработал в мире PDF дольше, чем многие другие – это 26 лет работы над этим форматом, 20 из которых - в качестве сотрудника Adobe; плюс активное участие в разработке стандартов Международной организации по стандартизации (ИСО) и Ассоциации PDF (PDF Association). Обычно он отвечает за вопросы обеспечения доступности контента, возглавляя рабочие группы по формату PDF/UA и по вопросам повторного использования - но этот доклад затронул более общие темы. Мэтью Харди поднял вопрос о том, что происходит, когда искусственный интеллект сталкивается с форматом PDF, используемым в триллионах файлов по всему миру.


Харди начал с напоминания о том, с чего начинался формат PDF: это был формат для визуального представления контента с фиксированной версткой. Изначально основное внимание уделялось точности при выводе на печать. Однако начиная с конца 1990-х годов в формат стали добавляться логическая структура, размеченный тегами контент и метаданные. В теории PDF-файлы могли быть насыщенными и семантически-осведомлёнными, однако на практике подавляющее большинство из них создавалось быстрым и грубым способом - путём печати в PDF. При этом исчезала структура и оставались лишь изображения текста. По собственным оценкам компании Adobe, совпадающим с данными других исследователей, лишь около 20% PDF-файлов были размечены тегами, и лишь малая часть из них была хорошо размечена.

Это ставит нас перед огромной проблемой: мы имеем триллионы неструктурированных PDF-файлов, которые ограничивают использование содержащихся в них данных, поскольку недоступны для программ чтения с экрана, не поддаются переформатированию на мобильных устройствах, а их повторное использование сопряжено с трудностями. Десять лет назад Adobe и другие компании начали искать способы решения этой проблемы с помощью ИИ. Харди описал эксперименты с моделями обнаружения объектов, которые способны распознавать заголовки, таблицы и порядок чтения. Именно в этот период появилась знаменитая фраза «PDF-файлы - не кошки»: модели, обученные распознавать кошек и собак, испытывали трудности, когда «объектами» оказывались блоки текста, сноски и вложенные таблицы. Тем не менее, при наличии достаточного количества обучающих данных и финансовых средств, можно было создавать PDF-файлы с возможностью переформатирования, адаптирующиеся к экранам разных размеров. С точки зрения обеспечения доступности контента, это был гигантский скачок вперед, - хотя Харди признал, что этот процесс был хрупким, дорогостоящим и далеким от совершенства.

Затем произошёл большой сдвиг: появились большие языковые модели (large language models, LLM). Классическое машинное обучение было весьма ограничено в своих возможностях - оно требовало ручного выбора признаков, ручной разметки данных и дорогостоящего дообучения для каждого нового варианта использования. LLM-программы, напротив, приходили с предустановленной обширной (хотя и несовершенной) базой знаний. При добавлении к этой базе пользовательских документов возможности внезапно расширялись. PDF-файлы могли стать способными вести диалоги. Вместо прокручивания сотен страниц, появлялась возможность задавать вопросы к документу. Вместо того, чтобы пытаться описать изображение одним блоком альтернативного текста, ИИ мог интерпретировать как изображение, так и его контекст. Вместо того, чтобы искать данные по таблицах, можно было запрашивать создание диаграмм, сводок или сравнений на основе нескольких отчётов.

Варианты использования, которые выделил Харди

Большую часть своего выступления Харди посвятил описанию реальных вариантов использования, которые он видит для PDF-файлов с ИИ-поддержкой (AI-powered PDF):

  • Ведущие диалог PDF-файлы: Можно задавать вопросы по отчёту и получать ответы, со ссылками на источник. Больше не нужно гадать, откуда ИИ взял свою информацию - цитаты могут напрямую указывать на соответствующие места документа.

  • Само-объясняющие документы: Можно загрузить в систему несколько финансовых отчётов и запросить у неё анализ тенденций во времени. ИИ выполняет синтез, избавляя Вас от необходимости ручного сопоставления.

  • Персонализированная выдача результатов: Один и тот же PDF-файл может по-разному адаптироваться для инженера-программиста, врача или старшеклассника — каждый получит версию, адаптированную к его уровню знаний и потребностям.

  • Более умная навигация: При использовании механизма закладок невозможно предусмотреть все варианты использования, а вот ИИ может справиться с этой задачей. Навигация на основе тем и вопросов позволяет перемещаться по документам новыми способами.

  • Совместное чтение: Группы могут работать с одним и тем же PDF-файлом в режиме типа чата, сравнивая свои интерпретации и работая на основе одного и того же базового контента.

  • Переосмысление механизма альтернативного текста: Вместо одной строки на изображение, ИИ может проанализировать изображение и контекст, в котором оно появилось, - а затем предоставлять пользователям возможность задавать вопросы по изображению: кто на нём изображён, что происходит, что означает эта диаграмма.

  • Динамическая визуализация: По запросу, сложные таблицы можно преобразовать в диаграммы, графики или даже упрощённые визуальные сводки в соответствии с предпочтениями пользователя.

  • Синтез и создание: Харди описал использование ИИ для генерирования в ИСО проекта технической записки на основе стенограммы проведенного рабочей группой обсуждения. Пусть результат и несовершенен, но он является надёжной отправной точкой, и при этом экономятся часы работы.

  • Расширение возможностей для обеспечения доступности контента: ИИ может упрощать язык, переводить контент «на лету» и генерировать альтернативные форматы (например, аудио), - всё это с учётом того, что авторитетным документом остаётся PDF-файл.

Харди подчеркнул, что речь идёт не только об удобстве. С точки зрения обеспечения доступности контента, это трансформирующее явление. Для исследований и для обеспечения соответствия законодательно-нормативным требованиям, оно означает более быстрые способы синтеза информации, сохраняя при этом опору ответов на исходные документы. Для проектирования и повторного использования, оно означает возможность иного представления контента - превращения статических таблиц в визуализации или «перевода» технических материалов на простой и понятный язык для новой аудитории. И, что особенно важно, поскольку исходный PDF-файл остаётся «официальным документом», происхождение сохраняется даже при изменении представления контента.

Конечно, не всё так идеально, как хотелось бы -  и Харди признал существующие риски: затратность, хрупкость, галлюцинации. Он подчеркнул, что хорошо размеченные тегами PDF-файлы остаются «золотым стандартом» - формат PDF/UA-2 и функциональные возможности для повторного использования обеспечивают для ИИ наилучшие начальные условия. Но он также видит будущее, в котором ИИ сможет преодолеть пропасть, отделяющую его сейчас от большинства уже существующих PDF-файлов.

Мне запомнилась его заключительная фраза: «Следующий триллион PDF-файлов будет не просто сохранять знания, но также будет способствовать получению знаний».

Для тех из нас, кто работает в архивах и занимается управлением документами, такое развитие событий будет одновременно и вызовом, и возможностью. Если ИИ сделает унаследованные PDF-файлы более удобными для использования, будем ли мы рассматривать их как новые документы или как производные инструменты? Как мы будем балансировать вопрос происхождения с возможностями трансформации? И, как сообщество, занимающееся стандартизацией, - где мы проведём границу между тем, что ИИ должен и не должен делать с документами? Эти вопросы выходят далеко за рамки сессий Ассоциации PDF в Берлине. Но Харди прав: следующий триллион PDF-файлов уже на подходе!

Эндрю Поттер (Andrew Potter)

Источник: сайт Substack
https://metaarchivist.substack.com/p/dispatch-from-berlin-15d 

Комментариев нет:

Отправить комментарий