среда, 24 января 2024 г.

Задачи обработки естественного языка и варианты применения ИИ в архивном деле и управлении документами

В последнее время архивисты и специалисты по управлению документами активно изучают вопрос о возможности применения искусственного интеллекта (ИИ) в своих сферах деятельности, а также выявляют специфические аспекты документирования работы ИИ-систем и управления созданным с помощью ИИ-технологий контентом – включая, в том числе, такие темы, как документирование сведений о происхождении данных, используемых для машинного обучения.

Поскольку сейчас во всем мире архивная наука и документоведение переживают упадок, эти усилия, к сожалению, чаще всего сводятся к составлению списков литературы и проведению опросов среди архивистов и специалистов по управлению документами (большинство из которых пока что имеет об ИИ и его возможностях весьма отдаленное представление) – в результате чего на свет появляются очень странные аналитические отчёты.

Оказывается, здесь нам могут помочь представители других профессий.

Применение ИИ в архивах и в сфере управления документами – это в значительной степени использование технологий обработки естественного языка (natural language processing, NLP), которая в международном стандарте ISO/IEC 22989:2022 «Информационные технологии - Искусственный интеллект – Понятия и терминология в области искусственного интеллекта» (Information technology - Artificial intelligence - Artificial intelligence concepts and terminology, о нём см. http://rusrim.blogspot.com/2022/08/isoiec-229892022.html ) определяется следующим образом:

3.6.7. Естественный язык (natural language): язык, который активно используется или ранее активно использовался сообществом людей, правила которого обусловлены практикой его применения.

Примечания:

1 Естественным языком является любой человеческий язык, который может быть выражен в виде текста, речи, языка жестов и т.д.

2 Естественным языком является любой язык общения между людьми, такой как русский, английский, испанский, арабский, китайский или японский языки. Естественные языки следует отличать от языков программирования и формальных языков, таких как Java, Fortran, C++ или логика (исчисление предикатов) первого порядка.

3.6.9. Обработка естественного языка (natural language processing, NLP): <система> обработка информации на основе понимания естественного языка и/или генерация естественного языка.

3.6.10. Обработка естественного языка (natural language processing, NLP): <дисциплина> дисциплина, изучающая то, как системы воспринимают, обрабатывают и интерпретируют естественный язык.

Недавно мне в руки попал план-проспект технического отчёта ISO/IEC TR 23281 «Искусственный интеллект – Обзор задач и функциональных возможностей ИИ, связанных с обработкой естественного языка» (Artificial Intelligence - Overview of AI tasks and functionalities related to natural language processing) объёмом 46 страниц, который, как предполагается, будет в ускоренном порядке разработан подкомитетом SC42 «Искусственный интеллект» (Artificial intelligence) Объединенного технического комитета ИСО/МЭК JTC1 на основе проекта, подготовленного европейским органом по стандартизации  CEN.

Голосование в ИСО и МЭК об открытии этого проекта завершается 17 января 2024 года,  а официально опубликовать готовый технический отчёт предполагается в конце октября 2024 года.

Во вводной части технического отчёта, в частности, отмечается:

«В настоящем документе обсуждается концепция задачи в случае применения ИИ для обработки естественного языка, и описывается ландшафт ИИ-задач, связанных с анализом или генерацией естественного языка, а также других связанных с естественным языком функциональных возможностей, которые ассоциируются с такими ИИ-системами.

В данном документе отражены существующие конкурирующие терминологии, сосуществующие варианты одних и тех же задач и функциональных возможностей, а также показано, как языковое многообразие (в т.ч. любые языки, диалекты и варианты, официальные или неофициальные) может повлиять на конкретные задачи в плане их роли или существующих проблем.

Обсуждаются и иллюстрируются взаимосвязи между задачами и функциональными возможностями, а также их взаимодействие внутри конвейеров.

Кроме того, в документе приводятся ссылки на существующие стандарты и опубликованные руководства, относящиеся к таким задачам и функциональным возможностям, при этом в случае конкурирующих стандартов обращается особое внимание на различия между ними.»

Содержание технического отчёта следующее:

Европейское предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Сокращения
5. Задачи и функциональные возможности
6. Языковое многообразие
7. Иерархия задач и функциональных возможностей
8. Комбинации задач
Приложение А (справочное): Выявление существующих стандартов для конкретных задач.
Библиография

Для нас в первую очередь представляет интерес содержание седьмого раздела технического отчёта, в котором приведена следующая классификация задач обработки естественного языка, многие из которых потенциально могут найти применение в архивном деле и управлении документами (как самостоятельно, так и в комбинации с другими функциональными возможностями):

Задачи, связанные с поверхностным анализом содержания естественного языка.

  • Идентификация языка
  • Обнаружение границ предложения
  • Токенизация (выделение в тексте базовых смысловых единиц)
  • Лемматизация (lemmatization – приведение слова к канонической форме по итогам морфологического и словарного анализа – Н.Х.)
  • Маркировка частей речи (морфологическая маркировка)
  • Синтаксический анализ
  • Морфологический анализ
  • Устранение неоднозначности смысла слов
  • Выявление и группировка ссылок на одни и те же объекты в различных материалах (coreference resolution – «разрешение кореферентности»; кореферентность (кореферентная связь) определяется как «связь между двумя упоминаниями, которые относятся к одному и тому же элементу действительности» - Н.Х.)
  • Разрешение анафор (о том, что такое «анафора», см.. например, Википедию: https://ru.wikipedia.org/wiki/Анафора_(лингвистика) - Н.Х.)
  • Дискурсивный анализ (дискурс-анализ - discourse parsing; здесь - выявление взаимосвязей между фрагментами текста в документе – например, того, что данный фрагмент расширяет, разъясняет иной фрагмент, противоречит ему или содержит оговорки – Н.Х.)
  • Сегментация документов
  • Сопоставление параллельных наборов контента (parallel corpora alignment) – обычно речь идёт об одних и тех же текстах на различных языках – Н.Х.
  • Обнаружение речевой активности
  • Установление границ устного высказывания
  • Установление границ фразы
  • Выявление смены говорящего
  • Диаризация говорящих (процесс разделения входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему, см. https://ru.wikipedia.org/wiki/Диаризация - Википедия)

Задачи, связанные с установлением авторства и профилированием автора

  • Установление авторства
  • Распознавание говорящего
  • Идентификация почерка
  • Анализ стиля
  • Определение роли говорящего
  • Половая идентификация говорящего
  • Выявление случаев выдачи себя за иное лицо (имперсонации)

Задачи, связанные с анализом и интеллектуальным анализом контента

  • Анализ темы
  • Распознавание поименованных объектов
  • Связывание объектов
  • Извлечение отношений
  • Идентификация атрибутов объекта
  • Извлечение утверждений, проверка фактов
  • Анализ настроений
  • Распознавание эмоций
  • Определение намерений пользователя
  • Определение намерений автора
  • Обнаружение оскорбительной речи

Задачи, связанные с анализом и интеллектуальным анализом на уровне массива материалов

  • Рекомендация контента
  • Поиск материалов по содержанию
  • Семантическая кластеризация
  • Тематическая кластеризация

Задачи, связанные с семантикой и смысловым значением

  • Автоматическое извлечение терминологии
  • Индуктивное определение смысла слов
  • Расширение набора терминов
  • Извлечение семантических отношений
  • Обучение представлениям (representation learning)
  • Языковое моделирование

Задачи, связанные с взаимодействием с пользователем

  • Ответы на вопросы
  • Генерация мультимедийного контента на основе подсказок

Задачи, связанные с генерацией лингвистического контента

  • Автоматическое обобщение / резюмирование
  • Машинный перевод
  • Снижение шума в контенте
  • Исправление языковых ошибок
  • Нормализация текста
  • Обработка персональных данных
  • Анонимизация голоса
  • Генерация описания
  • Генерация текста с заданными ограничениями
  • Генерация необусловленного текста (без опоры на источники)
  • Создание субтитров (captioning)
  • Генерация исходного кода
  • Документация исходного кода
  • Генерация пересказа (paraphrase generation)
  • Генерация вопросов
  • Генерация неверных вариантов (distractor generation) при формировании вопросов с несколькими вариантами ответа

Задачи, связанные с преобразованием модальностей

  • Автоматическое распознавание речи
  • Синтез речи на основе текста
  • Оптическое распознавание символов
  • Чтение по губам

Ну а если к эти задачам добавить задачи обработки изображений и звуков, а также экспертизу контента с целью установления сроков хранения и проведения уничтожения / передачи на архивное хранение, конфиденциальности, наличия защищаемых персональных данных, интеллектуальной собственности и т.д. – вполне можно будет сформировать достаточно полную картину возможно применения ИИ в нашей отрасли.

Комментариев нет:

Отправить комментарий