четверг, 4 апреля 2024 г.

Что искусственный интеллект должен делать с документами, часть 2

(Окончание, начало см. http://rusrim.blogspot.com/2024/04/1.html )

Как следует интегрировать ИИ для работы с документами?

На стороне создателей/авторов

Интеграция ИИ должна быть направлена на то, чтобы помочь создателям контента не только сделать черновой вариант и дальше совершенствовать свой контент, но также обеспечить его богатую структуризацию и контекстуализацию. Помимо распознавания таблиц и списков, и предложения их структурировать, приложения для создания контекста должны:

  • выделять цитаты и указывать источник (либо визуально, либо в виде метаданных);

  • при вставке контента, давать ссылку на источник (ибо визуально, либо в виде метаданных);

  • распознавать математические формулы и включать MathML, даже если редакторы формул не используются;

  • отображать степень доверия ИИ к сгенерированному им альтернативному тексту для изображений, и просить автора отредактировать его;

  • распознавать сокращения и аббревиатуры (означает ли сокращение Dr. «доктор» (doctor) или «проезд» (drive))?

  • предлагать улучшения структуры документа и обеспечивать соответствующую навигацию по документу;

  • обеспечивать, чтобы метаданные, ссылки и перекрестные ссылки оставались значимыми для контента при его редактировании;

  • распознавать намерения при форматировании текста (является ли, например, выделение слов жирным шрифтом способов привлечения внимания или указанием на термины, для которых имеются определения; и т. д.) и включать эту семантику в выходную информацию;

  • обеспечивать семантическую индикацию переносов и пробелов;

  • сохранять семантику типовых инструментов, таких как организационные диаграммы, блок-схемы и инструменты рисования (это ведь не просто линии и слова, они представляют определенную семантику!);

  • в слайдах и шаблонах документов убедитесь, что семантически выделены элементы пользовательского интерфейса («chrome»);

  • обеспечивать, чтобы созданные PDF-файлы включают всю эту информацию посредством использования Tagged PDF, встроенных и связанных файлов, ссылки на структурированные источники, метаданных документов и объектов, ролей ARIA и C2PA ( https://pdfa.org/member/coalition-for-content-provenance-and-authenticity-c2pa/ ), а также усиленных электронных подписей - для подтверждения происхождения и аутентификации.

Как минимум, изначально-электронные документы, созданные с помощью ИИ-помощников, независимо от их формата, должны включать в себя полный спектр специальных возможностей поддержки доступности, таких, например, как осмысленный альтернативный текст для изображений, логически упорядоченные заголовки и MathML для математических уравнений. Они также должны предоставлять открытые данные для поддержки всех графиков и диаграмм. Некоторые из этих функций мы уже видим сегодня в различных современных офисных пакетах, однако ИИ, действующий на стороне автора, (пока что) не обязательно помогает или побуждает авторов вносить все эти усовершенствования.

Как оказывается, те же самые функциональные возможности, что необходимы для поддержки доступности для пользователей с ограниченными возможностями, могут также значительно улучшить результаты в сценариях повторного использования и извлечения данных с помощью ИИ. Приложения для создания контента, которые обеспечивают ИИ-поддержку написания материалов, но впоследствии не генерируют PDF с тегами, реализуют только половину решения (и создают помехи всем тем ИИ-решениям, которые будут использовать эти документы в будущем)!

На стороне потребления

У ИИ-систем имеется огромный аппетит как к данным, так и к вычислительным ресурсам, и они могут потреблять колоссальные объёмы контента в самых разных форматах из систем многих типов. Учитывая оценку, согласно которой «на планете существует 3 триллиона PDF-документов» ( https://blog.adobe.com/en/publish/2023/06/15/celebrating-30-years-of-digital-transformation-with-adobe-acrobat ), PDF-файлы являются очень привлекательным источником данных. Несмотря на это, разработчикам ИИ часто не хватает «ситуационной осведомленности» в плане понимания того, когда данные, подаваемые в их ИИ, являются корректными и значимыми, - и соответствуют ли выбранные ими инструменты ввода данных поставленной задаче.

Выбор инструментов ввода влияет на качество результатов обработки контента. Понимает ли ваш парсер языка HTML роли ARIA? Обрабатывает ли ваш парсер PDF все богатые возможности PDF?

Простой пример: Известны работающие ИИ системы, которые «выучили» слово «моджибаке» (mojibake, см. https://en.wikipedia.org/wiki/Mojibake ) и «понимают» эту полную тарабарщину как славянский или азиатский язык! Основная причина таких проблем часто кроется в использовании неадекватных и устаревших технологий, которые не поддерживают правильное извлечение текста и контента из PDF-файлов.

Ещё один пример, который встречается слишком часто: Попытки всё «затупить» и поддерживать ввод чисто графических образов документов (в форматах TIFF, JPEG и т.д.). В этом случае насыщенные информацией документы (включая PDF-файлы, но не ограничиваясь ими) просто преобразуются в пиксели, а затем проводится их распознавание – с целью достижения определенной формы «согласованности» для последующего использования механизмом ИИ. Такой подход не только требует больших вычислительных затрат, но также при его использовании вся существующая богатая семантика и метаданные игнорируются и заменяются «предположениями», полученными в процессе распознавания текста.

Еще одна, очень серьёзная проблема, провоцирующая плохие заголовки в прессе в отношении систем ИИ, возникает вследствие потребления этими системами, в отсутствие надлежащих согласий и разрешений, персональных данных и контента, защищенного авторским правом. В данной статье не рассматриваются этические и правовые вопросы, за исключением указания на то, что PDF (и другие форматы) поддерживают различные средства идентификации и защиты контента, включая шифрование, усиленные электронные подписи и хорошо определённые метаданные, такие, например, как метаданные Dublin Core ( https://en.wikipedia.org/wiki/Dublin_Core ) и C2PA  ( https://pdfa.org/member/coalition-for-content-provenance-and-authenticity-c2pa/ ).

Заключение

Сегодня большинству ИИ-систем «скармливаются» низкокачественные и/или обеднённые данные, что способствует смещённости и предвзятости (bias) и ненадежным результатам – и всё это даже в отсутствие какого-либо злого умысла.

Чтобы стать по-настоящему надёжными, ИИ-системы нуждаются в схемах, обеспечивающих сохранение богатой семантики и данных, когда они с ними сталкиваются. Пусть ИИ, используемый создателем контента, поможет автору предоставить это богатство, а потребляющий этот контент ИИ пусть будет способен это богатство использовать, когда оно имеется.

Дафф Джонсон (Duff Johnson)

Источник: сайт PDF Association
https://pdfa.org/what-ai-should-be-doing-with-documents/

Комментариев нет:

Отправить комментарий