среда, 3 апреля 2024 г.

Что искусственный интеллект должен делать с документами, часть 1

Пришло время ИИ-интеграторам помочь авторам создавать семантически богатые документы… и активизировать свои усилия по обработке PDF-файлов.

Данная заметка генерального директора Ассоциации PDF и руководителя проекта ИСО Даффа Джонсона (Duff Johnson – на фото) была опубликована 28 февраля 2024 года на сайте ассоциации.

«Соответствующий наилучшей практике PDF-файл также является наилучшим PDF-файлом для ИИ»

В 1990-х годах большое внимание уделялось оптическому распознаванию текста (OCR), которое давало возможность поисковым системам работать с отсканированными документами, обеспечивая почти мгновенный доступ к соответствующему контенту без проведения трудоемкого ручного индексирования.

От середины до конца 1990-х годов я был владельцем бюро обработки графических образов. Помимо услуг сканирования, мы также выдавали результаты распознавания текста. При продаже этих услуг было очень важно иметь возможность помочь клиентам понять статистику точности распознавания, предоставляемую поставщиками.

Мощь технологии распознавания текстов была реальной, но эта технология не была панацеей. Ошибки распознавания приводили к пропускам или ложно-позитивным результатам. Эти проблемы в конечном итоге были частично решены с помощью дополнительного программного обеспечения, такого как средства идентификация языка и поиска по словарю, которые использовались для постобработки результаты распознавания текста с целью повышения точности результата.

Но одну фундаментальную проблему оказалось решить труднее (и вопрос остаётся) – самоуспокоенность. Как показали научные исследования по этому вопросу ( https://research.vu.nl/en/publications/impact-analysis-of-ocr-quality-on-research-tasks-in-digital-archi ), магия технологии распознавания текстов и поисковых систем вызывала гораздо большее доверие к этим системам, чем следовало, с учетом получаемых результатов, - что в некоторых случаях приводило к дорогостоящим ошибкам.

Не следует слепо доверять даже выдающимся технологиям, но ключевой урок информационной эпохи заключается в том, что чем проще использовать технологию, тем легче ей завоевать доверие, даже если это доверие не заслужено.

Перспективы ИИ огромны, но связанные с ИИ риски также велики

Хотя искусственный интеллект (ИИ) начинает кардинально трансформировать способы взаимодействия пользователей с документами и методы их обработки, недостатки по-прежнему сохраняются. Даже если качество обучающих данных строго контролируется, результаты ИИ не обязательно заслуживают доверия.

Хотя ИИ уже помогает в создании контента, извлечении данных и в управлении контентом, ИИ-инструменты могут быть лишь настолько хороши, насколько хороши их входные данные и обучение. Если входные данные предвзяты, ИИ-модели оказываются бессильными решить - или даже заметить - проблему, что является основным источником ИИ-галлюцинаций. Но, как уже осознали компания Air Canada ( https://www.canadianunderwriter.ca/brokers/air-canada-chatbot-error-shows-liability-implications-of-ai-1004243030/ ), Майкл Коэн (Michael Cohen, https://www.reuters.com/legal/ex-trump-fixer-michael-cohen-says-ai-created-fake-cases-court-filing-2023-12-29/ ), и многие другие ( https://hai.stanford.edu/news/hallucinating-law-legal-mistakes-large-language-models-are-pervasive ), если полагаться на ИИ при решении критически-важных задач, то потребуется проявить куда большей должной осмотрительности, чем можно было бы ожидать, исходя из простоты использования ИИ. ИИ - почти волшебный помощник, однако доверие должно быть заслужено, а не просто дано.

Компетентная обработка входных данных является непременным условием для компетентного и заслуживающего доверия ИИ. Однако до сих пор мы наблюдаем, как разработчики ИИ полагаются на объемы данных и (по-видимому) игнорируют их качество ( https://pdfa.org/we-asked-chatgpt-about-its-support-for-pdf/#chatgpt ).

Это вина не ИИ, а того, чем его «кормят»

Хотя подавляющее большинство доступного для обучения контента может быть неструктурированным или плохо семантически структурированным, это не означает, что содержащуюся в нём семантическую информацию следует игнорировать. Когда в документе присутствует правильная семантика (как, например, в случае использования WAI-ARIA или Tagged PDF), эта информация для ИИ становится гораздо более богатым источником достоверных знаний, в то время, как попытки ретроспективного гадания могут привести к знакомой проблеме «мусор на входе - мусор на выходе» (garbage-in-garbage-out, GIGO).

Если бы ИИ-помощники помогали авторам создавать «богато структурированные» документы (richly structured documents) и если бы потребляющие их ИИ были способны использовать такие расширенные входные данные, включая соответствующие машиночитаемые исходные данные и информацию о происхождении, результаты ИИ были бы более заслуживающими доверия.

Документы, однако, как правило, создаются с ориентацией на их визуальное потребление и содержат неструктурированный или ненадежно структурированный контент. Да, сегодняшние ИИ-помощники способны помочь с распознаванием заголовков и абзацев и могут применять эту простую семантику в интересах начинающих пользователей, - однако более богатая семантика цитат, ссылок, индексации, математических вычислений, иллюстраций и т.д. не получает такого же уровня внимания. Даже структурированная исходная информация в виде табличных данных (скажем, файл формата Excel) обычно публикуются неструктурированным образом, при этом соответствующие исходные данные вообще редко публикуются.

Эта проблема менее остра в языке разметки HTML, поскольку семантические структуры обычно интегрированы в контент, а все сложности определения внешнего представления перекладываются на браузер. Формат PDF – по необходимости более сложный формат, чем HTML, поскольку он самодостаточен. Именно поэтому PDF-файлы хорошего качества и полноценный синтаксический анализатор-парсер PDF (PDF parser) совершенно необходимы для извлечения из PDF чего-либо полезного.

Выбор парсера имеет значение… очень большое! Существуют буквально тысячи PDF-парсеров, охватывающие широкий спектр приложений и вариантов использования, но лишь сравнительно немногие из них действительно компетентны в восприятии и захвате PDF-контента во всем его многообразии. Если ваш парсер не поддерживает все версии PDF, использует старый Unicode или устаревшие CMap, не понимает PDF с тегами (Tagged PDF), игнорирует аннотации, не обрабатывает языковые маркеры, не имеет представления о языках с письмом справа налево или с вертикальной версткой, тогда входные данные для ИИ будут соответственно смещёнными.

(Окончание следует, см. http://rusrim.blogspot.com/2024/04/2.html )

Дафф Джонсон (Duff Johnson)

Источник: сайт PDF Association
https://pdfa.org/what-ai-should-be-doing-with-documents/

Комментариев нет:

Отправить комментарий