пятница, 17 марта 2023 г.

Искусственный интеллект (ИИ) и управление документами: интервью со Стивом Джейкобом и Сеймой Суисси, часть 2

(Продолжение, начало см. https://rusrim.blogspot.com/2023/03/1_01657283605.html )

Джонатан Дэвид: Можете ли Вы привести примеры использования, которые могут быть полезны для нашей практической работы (в плане инструментов и функциональных возможностей)?

Стив Джейкоб и Сейма Суисси: Приложения и варианты использования ИИ в области управления документами множатся. Эти технологии можно использовать на всех этапах процесса управления документами, от создания до предоставления доступа к документам. Они позволяют как развивать традиционные виды деятельности, так и экспериментировать с новыми способами составления описей, упорядочения и предоставления доступа к информации.

Что касается извлечения данных и индексации документов, то ИИ позволяет выйти за рамки традиционных принципов организации архивных документов и доступа к ним (на основе происхождения, названия дела, даты создания, типа контента и автора). Этот подход может быть дополнен индексацией контента документов, заключающейся в добавлении взаимосвязанных с документами аннотаций и метаданных. Цель состоит в том, чтобы выявить упоминаемые в текстах на естественном языке элементы, с тем, чтобы придать смысл всё более объемным архивным документам. Результатом такого аннотирования может быть информация (распознавание именованных объектов) или ссылка на источник информации (устранение неоднозначности именованных объектов).

Автоматизированное извлечение информации из текстовых ресурсов, известное как «интеллектуальный анализ текста» (text mining), облегчает индексирование документов и разработку таксономий. Оно основан на методах и инструментах из области автоматической обработки естественного языка (natural language processing, NLP) и позволяет сопоставлять строки символов анализируемых документов с терминами и понятиями, определенными в таксономии. Возможны два метода извлечения информации: выделение терминов и выделение смысловых взаимоотношений между этими терминами. Извлечение семантических взаимоотношений направлено на структурирование таксономии и заключается - в случае тезауруса - в выявлении семантических отношений и степени близости терминов. Для пользователей и разработчиков доступно бесплатное программное обеспечение для интеллектуального анализа текста (с открытым исходным кодом).

Кроме того, решения для управления контентом следующего поколения, называемые «платформами контент-сервисов» (content services platforms), такие как Nuxeo Insight, предлагают гибкие и расширяемые модели метаданных, которые позволяют точно настраивать индексацию и добавлять по мере необходимости новые поля метаданных. Такая функциональная возможность считается шагом вперёд по сравнению с предыдущими системами, в которых после того, как метаданные были определены и сохранены, было сложно вносить какие-либо изменения без обновления всего контента, связанного с этими метаданными. Документы теперь можно отыскивать с использованием большего количества метаданных, применяя способы, повышающие ценность этих документов, и с учетом контекста и знаний об экосистеме управления информацией.

Платформы контент-сервисов с ИИ-поддержкой также предлагают возможность совместной обработки контента, хранящегося в различных системах управления информацией. Таким образом они позволяют отыскивать материалы, хранящиеся в унаследованных решениях, и предлагают централизованное представление информации через единый интерфейс.

Кроме того, ИИ-технологии, а точнее, обработка естественного языка и машинное обучение, предлагают организациям различные решения для экспертизы конфиденциальности документов, то есть для обнаружения в документах персональных данных. Применяемая затем автоматическая классификация позволит отделить те материалы, которое организация может раскрыть, от тех, что должны оставаться конфиденциальными.

Джонатан Дэвид: Выявило ли Ваше исследование какие-либо негативные последствия или даже риски, связанные с использованием ИИ? Например, есть ли риск того, что автоматическая индексации будет плохо работать с многообразным по своему составу массивом материалов, и особенно с неструктурированными документами? Следует ли нам проверять всё, что будет на выходе процессов обработки, в рамках которых решения будет принимать ИИ? И если полезность ИИ неоспорима с точки зрения обрабатываемых объёмов, то каково потенциальное влияние ИИ на качество архивных документов?

Стив Джейкоб и Сейма Суисси:
Внедрение ИИ в управление документами не обходится без проблем для организаций. Среди этих проблем мы в основном наблюдаем вопросы надежности и эффективности алгоритмов, а также вопросы защиты персональных данных.

Действительно, разработка моделей глубокого обучения для оценки и ранжирования материалов, для достижения удовлетворительного уровня эффективности требует большого объема данных в формате, адаптированном к этим технологиям. Эксперты считают, что для обучения алгоритма глубокого обучения для каждой категории потребуется около 5000 классифицированных примеров. Точность модели увеличивается с увеличением объема обучающих данных. Она может соответствовать или превосходить возможности человека, если алгоритм обучается на наборе данных, содержащем не менее 10 миллионов классифицированных примеров. Этот процесс становится ещё более длительным и требовательным ввиду того, что прежде чем передаваться в промышленную эксплуатацию, эти модели после их обучения должны быть протестированы на различных данных,

Ещё проблема, связанная с использованием ИИ и, в частности, с моделями глубокого обучения, заключается в непрозрачности алгоритмов. Увеличение количества слоев и узлов систем глубокого обучения, их взаимозависимость и сложные параметры приводят к появлению систем, представляющих собой «черное ящики», работу которых трудно понять. Ни пользователь, ни программист не могут получить доступ к рассуждениям, приводящим к выработанным этими алгоритмами решению или рекомендации. Ввиду этого некоторые авторы отмечают на проблематичность применения этой технологии при принятии автоматизированных решений, затрагивающих сложные личные дела отдельных лиц. В определённых случаях решение о сохранении или уничтожении документа может иметь серьезные последствия для физических лиц. По этой причине участие человека остается необходимым, поскольку важное значение имеют знакомство с содержанием дел и понимание контекста. Кроме того, организациям не следует упускать из виду связанные с этими технологиями риски предвзятости и этические последствия, которые они могут повлечь за собой.

Кроме того, организации, использующие, например, для сбора и создания новых цифровых ресурсов системы, связанные с интернетом вещей, должны обеспечить соответствие способа сбора и организации информации законам, нормативным актам и ожиданиям, касающимся защиты персональных данных.

В литературе также обращается внимание на риски, связанные с использованием сервисов облачных вычислений для хранения документов, в частности, касающиеся конфиденциальности персональных данных, а также прав собственности на обрабатываемые данные (Rolan и др., 2019). Использование этих технологий должно сопровождаться строгим управлением доступом и поиском баланса между простотой доступа, которая может вызвать проблемы с безопасностью, и рефлексом чрезмерной защиты, вследствие которого данные помещаются «под замок» и замедляется их распространение и использование.

Таким образом, автоматизация процесса управления документами всегда требует поддержки и контроля со стороны специалистов-людей, с тем, чтобы обеспечить качество работы и доверие пользователей. Даже если бы большую часть операций можно было доверить алгоритмам и разработавшим их ученым-компьютерщикам, специалисты по управлению документами всё равно остались бы со-гарантами качества данных и надлежащего использования ИИ в соответствии с требованиями законодательства и этическими принципами.

Более того, в условиях, когда изобилие информации сосуществует с нехваткой качественной информации, управление информацией стало серьезным социальным вопросом. Специалисты по управлению документами должны позаботиться о том, чтобы обеспечить целостность, надежность и аутентичность информации, несмотря на условия, которые весьма способствуют распространению неверной информации и манипулированию информацией.

(Продолжение следует, см. http://rusrim.blogspot.com/2023/03/3.html )

Интервью брал Джонатан Дэвид (Jonathan David)

Источник: блог Convergence Ассоциации архивистов провинции Квебек (Канада)
https://archivistesqc.wordpress.com/2023/01/23/intelligence-artificielle/

Комментариев нет:

Отправить комментарий