вторник, 5 сентября 2023 г.

Анализ эволюции архивов электронной почты: От полнотекстового поиска к ответам на вопросы с использованием технологии порождающего искусственного интеллекта

Данная заметка веб-архивиста библиотеки Стэндфордского университета Питера Чена (Peter Chan – на фото) была опубликована 29 июня 2023 года на блоге британской Коалиции по электронной сохранности (Digital Preservation Coalition, DPC). Питер Чэн в период 2012-2019 гг. руководил проектом ePADD.

Введение

Архивы электронной почты являются ценным ресурсом как для отдельных лиц, так и для организаций. Они содержат огромное количество информации и идей, которые можно использовать для различных целей. Однако ориентироваться в обширных архивах электронной почты может быть непросто. В данной заметке мы рассмотрим три эффективных способа раскрыть потенциал архивов электронной почты: поиск, просмотр и ответы на вопросы.


Средства навигации в архивах электронной почты

Мой комментарий: На рис. показаны средства работы с архивами электронной почты. Горизонтальная ось соответствует степени развитости решений, вертикальная – степени структурированности данных. Начиная с верхнего левого угла и далее по часовой стрелке, виды решений включают: поиск по метаданным в почтовом клиенте; выделение сущностей, корреспондентов и словарей (проект ePADD); ответы на вопросы; и полнотекстовой поиск в  почтовом клиенте.

Поиск

Функциональная возможность поиска является основным и широко используемым методом навигации по архивам электронной почты. Большинство почтовых клиентов предлагают стандартные функции поиска, включающие полнотекстовый поиск и поиск по структурированным (мета)данным. Полнотекстовый поиск позволяет пользователям находить определенные ключевые слова или фразы в контенте электронной почты, а поиск по структурированным данным позволяет осуществлять поиск на основе таких атрибутов, как отправитель, получатель, дата и тема.

Специализированное программное обеспечение, такое как ePADD, выходит за границы  возможностей традиционного поиска, предлагая расширенные функциональные возможности. ePADD позволяет пользователям определять словари, представляющие собой группы ключевых слов, спроектированные для упрощения поиска материалов по определённым темам, вопросам или сюжетам в архивах электронной почты. Этот подход с использованием параллельно исполняемых поисковых запросов не только повышает эффективность использования ключевых слов, введённых в строку поиска, но также значительно повышает эффективность изучения архивов электронной почты.

Просмотр

Просмотр является весьма эффективным методом навигации по архивам электронной почты, особенно когда пользователи не знают, что искать, или хотят получить более широкую картину. Такие инструменты, как ePADD, используют методы извлечения сущностей для выделения таких сущностей, как имена, организации, места, университеты, награды и т.д. в архивах электронной почты. Используя эти извлеченные детализированные сущности, ePADD позволяет пользователям просматривать архивы, облегчая обнаружение взаимосвязанной информации и выявление скрытых закономерностей и взаимосвязей.

Ответы на вопросы

Благодаря недавним достижениям в области больших языковых моделей (large language models, LLM), таких как GPT-4, PaLM 2 и Falcon 40B, ведущие компании отрасли, такие как OpenAI, Google и Hugging Face, представили такие инструменты, как chatGPT, Google Bard и HuggingChat. Эти инструменты дают пользователям возможность участвовать в сеансах вопросов и ответов с целью интерактивного обсуждения или анализа определённых данных, включая архивы электронной почты. Подобные инструменты способны понимать вопросы пользователей и выдавать ценные знания и информацию.

Использование таких инструментов порождает две основные проблемы: «искусственные галлюцинации» (artificial hallucination), а также обеспечение безопасности данных и защиты персональных данных. Под «искусственными галлюцинациями» понимаются проблемы, присущей chatGPT и аналогичным ИИ-продуктам, когда сгенерированные ответы могут выглядеть весьма убедительно, но не иметь достаточной основы в обучающих данных. Недавно один адвокат оказался в затруднительном положении, будучи вынужденным признаться в том, что он воспользовался помощью ChatGPT при составлении судебных документов, в которых упоминались шесть несуществующих судебных дел, придуманных ИИ-инструментом. Одно из возможных решений предусматривает установление ограничений для ИИ-инструментов, позволяющих тем выводить ответы исключительно на основе предоставленных данных, обеспечивая тем самым большую надёжность и обоснованность ответов.

Вопросы безопасности данных и защиты персональных данных также возникают при использовании облачных интерактивных сервисов, выдающих ответы на задаваемые вопросы. Примечательно, что из-за этих опасений компания Samsung Electronics запретила своим сотрудникам использование чат-ботов на базе ИИ, включая ChatGPT. Для решения проблем такого рода появились альтернативные решения, такие как privateGPT, GPT4ALL и h2oGPT. Пользователи могут установить эти инструменты у себя и проводить интерактивные сессии ответов на вопросы на своих локальных компьютерах, обеспечивая тем самым, что данные не выходят за периметр организации и не передаются внешним серверам через интернет.

Используя такие продукты, как privateGPT, GPT4ALL or h2oGPT, пользователи могут проводить интерактивные сеансы ответов на вопросы непосредственно по материалам назначенных архивов электронной почты, обеспечивая безопасность данных, защиту персональных данных и снижая риск искусственных галлюцинаций. Такие инструменты предоставляют организациям возможность использовать преимущества больших языковых моделей, сохраняя при этом контроль над своими ценными данными электронной почты. Это даёт организациям возможность получить отдачу от ИИ-моделей, не подвергая риску чувствительную информацию и не сталкиваясь с необоснованными ответами.

Заключение

Умелое использование архивов электронной почты имеет критически-важное значение для эффективного поиска информации и выявления знаний. Используя стратегии поиска, просмотра и ответов на вопросы, отдельные лица и организации могут раскрыть весь потенциал своих архивов электронной почты. В то время, как традиционные методы поиска и просмотра позволяют получать ценные знания, появление основанных на больших языковых моделях инструментов, таких как privateGPT, GPT4ALL и h2oGPT, открывает новые возможности для изучения и извлечения знаний из архивов электронной почты. Данные подходы обеспечивают сохранение архивами электронной почты своей ценности в качестве незаменимых ресурсов для получения исторических сведений, проведения исследований и принятия обоснованных решений в рамках защищённой инфраструктуры данных организации.

Ссылки:

Источник: блог Коалиции по электронной сохранности
https://www.dpconline.org/blog/blog-peter-chan-email

Комментариев нет:

Отправить комментарий