Поскольку сейчас во всем мире архивная наука и документоведение переживают упадок, эти усилия, к сожалению, чаще всего сводятся к составлению списков литературы и проведению опросов среди архивистов и специалистов по управлению документами (большинство из которых пока что имеет об ИИ и его возможностях весьма отдаленное представление) – в результате чего на свет появляются очень странные аналитические отчёты.
Оказывается, здесь нам могут помочь представители других профессий.
Применение ИИ в архивах и в сфере управления документами – это в значительной степени использование технологий обработки естественного языка (natural language processing, NLP), которая в международном стандарте ISO/IEC 22989:2022 «Информационные технологии - Искусственный интеллект – Понятия и терминология в области искусственного интеллекта» (Information technology - Artificial intelligence - Artificial intelligence concepts and terminology, о нём см. http://rusrim.blogspot.com/2022/08/isoiec-229892022.html ) определяется следующим образом:
3.6.7. Естественный язык (natural language): язык, который активно используется или ранее активно использовался сообществом людей, правила которого обусловлены практикой его применения.
Примечания:
1 Естественным языком является любой человеческий язык, который может быть выражен в виде текста, речи, языка жестов и т.д.
2 Естественным языком является любой язык общения между людьми, такой как русский, английский, испанский, арабский, китайский или японский языки. Естественные языки следует отличать от языков программирования и формальных языков, таких как Java, Fortran, C++ или логика (исчисление предикатов) первого порядка.
3.6.9. Обработка естественного языка (natural language processing, NLP): <система> обработка информации на основе понимания естественного языка и/или генерация естественного языка.
3.6.10. Обработка естественного языка (natural language processing, NLP): <дисциплина> дисциплина, изучающая то, как системы воспринимают, обрабатывают и интерпретируют естественный язык.
Недавно мне в руки попал план-проспект технического отчёта ISO/IEC TR 23281 «Искусственный интеллект – Обзор задач и функциональных возможностей ИИ, связанных с обработкой естественного языка» (Artificial Intelligence - Overview of AI tasks and functionalities related to natural language processing) объёмом 46 страниц, который, как предполагается, будет в ускоренном порядке разработан подкомитетом SC42 «Искусственный интеллект» (Artificial intelligence) Объединенного технического комитета ИСО/МЭК JTC1 на основе проекта, подготовленного европейским органом по стандартизации CEN.
Голосование в ИСО и МЭК об открытии этого проекта завершается 17 января 2024 года, а официально опубликовать готовый технический отчёт предполагается в конце октября 2024 года.
«В настоящем документе обсуждается концепция задачи в случае применения ИИ для обработки естественного языка, и описывается ландшафт ИИ-задач, связанных с анализом или генерацией естественного языка, а также других связанных с естественным языком функциональных возможностей, которые ассоциируются с такими ИИ-системами.
В данном документе отражены существующие конкурирующие терминологии, сосуществующие варианты одних и тех же задач и функциональных возможностей, а также показано, как языковое многообразие (в т.ч. любые языки, диалекты и варианты, официальные или неофициальные) может повлиять на конкретные задачи в плане их роли или существующих проблем.
Обсуждаются и иллюстрируются взаимосвязи между задачами и функциональными возможностями, а также их взаимодействие внутри конвейеров.
Кроме того, в документе приводятся ссылки на существующие стандарты и опубликованные руководства, относящиеся к таким задачам и функциональным возможностям, при этом в случае конкурирующих стандартов обращается особое внимание на различия между ними.»
Содержание технического отчёта следующее:
Европейское предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Сокращения
5. Задачи и функциональные возможности
6. Языковое многообразие
7. Иерархия задач и функциональных возможностей
8. Комбинации задач
Приложение А (справочное): Выявление существующих стандартов для конкретных задач.
Библиография
Для нас в первую очередь представляет интерес содержание седьмого раздела технического отчёта, в котором приведена следующая классификация задач обработки естественного языка, многие из которых потенциально могут найти применение в архивном деле и управлении документами (как самостоятельно, так и в комбинации с другими функциональными возможностями):
Задачи, связанные с поверхностным анализом содержания естественного языка.
- Идентификация языка
- Обнаружение границ предложения
- Токенизация (выделение в тексте базовых смысловых единиц)
- Лемматизация (lemmatization – приведение слова к канонической форме по итогам морфологического и словарного анализа – Н.Х.)
- Маркировка частей речи (морфологическая маркировка)
- Синтаксический анализ
- Морфологический анализ
- Устранение неоднозначности смысла слов
- Выявление и группировка ссылок на одни и те же объекты в различных материалах (coreference resolution – «разрешение кореферентности»; кореферентность (кореферентная связь) определяется как «связь между двумя упоминаниями, которые относятся к одному и тому же элементу действительности» - Н.Х.)
- Разрешение анафор (о том, что такое «анафора», см.. например, Википедию: https://ru.wikipedia.org/wiki/Анафора_(лингвистика) - Н.Х.)
- Дискурсивный анализ (дискурс-анализ - discourse parsing; здесь - выявление взаимосвязей между фрагментами текста в документе – например, того, что данный фрагмент расширяет, разъясняет иной фрагмент, противоречит ему или содержит оговорки – Н.Х.)
- Сегментация документов
- Сопоставление параллельных наборов контента (parallel corpora alignment) – обычно речь идёт об одних и тех же текстах на различных языках – Н.Х.
- Обнаружение речевой активности
- Установление границ устного высказывания
- Установление границ фразы
- Выявление смены говорящего
- Диаризация говорящих (процесс разделения входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему, см. https://ru.wikipedia.org/wiki/Диаризация - Википедия)
Задачи, связанные с установлением авторства и профилированием автора
- Установление авторства
- Распознавание говорящего
- Идентификация почерка
- Анализ стиля
- Определение роли говорящего
- Половая идентификация говорящего
- Выявление случаев выдачи себя за иное лицо (имперсонации)
Задачи, связанные с анализом и интеллектуальным анализом контента
- Анализ темы
- Распознавание поименованных объектов
- Связывание объектов
- Извлечение отношений
- Идентификация атрибутов объекта
- Извлечение утверждений, проверка фактов
- Анализ настроений
- Распознавание эмоций
- Определение намерений пользователя
- Определение намерений автора
- Обнаружение оскорбительной речи
Задачи, связанные с анализом и интеллектуальным анализом на уровне массива материалов
- Рекомендация контента
- Поиск материалов по содержанию
- Семантическая кластеризация
- Тематическая кластеризация
Задачи, связанные с семантикой и смысловым значением
- Автоматическое извлечение терминологии
- Индуктивное определение смысла слов
- Расширение набора терминов
- Извлечение семантических отношений
- Обучение представлениям (representation learning)
- Языковое моделирование
Задачи, связанные с взаимодействием с пользователем
- Ответы на вопросы
- Генерация мультимедийного контента на основе подсказок
Задачи, связанные с генерацией лингвистического контента
- Автоматическое обобщение / резюмирование
- Машинный перевод
- Снижение шума в контенте
- Исправление языковых ошибок
- Нормализация текста
- Обработка персональных данных
- Анонимизация голоса
- Генерация описания
- Генерация текста с заданными ограничениями
- Генерация необусловленного текста (без опоры на источники)
- Создание субтитров (captioning)
- Генерация исходного кода
- Документация исходного кода
- Генерация пересказа (paraphrase generation)
- Генерация вопросов
- Генерация неверных вариантов (distractor generation) при формировании вопросов с несколькими вариантами ответа
Задачи, связанные с преобразованием модальностей
- Автоматическое распознавание речи
- Синтез речи на основе текста
- Оптическое распознавание символов
- Чтение по губам
Ну а если к эти задачам добавить задачи обработки изображений и звуков, а также экспертизу контента с целью установления сроков хранения и проведения уничтожения / передачи на архивное хранение, конфиденциальности, наличия защищаемых персональных данных, интеллектуальной собственности и т.д. – вполне можно будет сформировать достаточно полную картину возможно применения ИИ в нашей отрасли.
Комментариев нет:
Отправить комментарий