четверг, 13 апреля 2023 г.

Сотрудники «скармливают» конфиденциальные деловые данные чат-боту ChatGPT, что вызывает опасения относительно безопасности, часть 1

Данная заметка Роберта Лемоса (Robert Lemos – на фото) была опубликована 7 марта 2023 года на сайте издания Dark Reading.

Согласно данным опроса, свыше 4% сотрудников передаёт конфиденциальные корпоративные данные в большую модель обработки естественного языка (интеллектуальный чат-бот) ChatGPT, в связи с чем возникают опасения в отношении того, что её популярность может привести к массовым утечкам конфиденциальной информации.


Источник: Komsan Saiipan via Alamy Stock Photo

Сотрудники передают в большие языковые модели (large language models, LLM), такие как ChatGPT, конфиденциальные деловые данные и информацию, защищаемую в соответствии с законодательством о персональных данных, - что приводит к опасениям относительно того, что сервисы на основе искусственного интеллекта (ИИ) могут включать эти данные в свои модели, и впоследствии эта информация может быть оттуда извлечена, если в сервисе не обеспечена надлежащая защита данных.

Согласно данным в недавно выпущенном отчете, сервис безопасности данных Cyberhaven обнаружил и заблокировал запросы на ввод данных в чат-бот ChatGPT от 4,2% из 1,6 млн. сотрудников своих компаний-клиентов в связи с риском утечки в LLM-модели конфиденциальной информации, данных о клиентах, исходного кода и/или информации, обработка которой регламентируется законодательством.

В одном случае руководитель откопировал в ChatGPT стратегию компании на 2023 год и попросил чат-бот сформировать презентацию о ней в PowerPoint. В другом случае врач ввел имя своего пациента и сведения о его состоянии здоровья, и попросил ChatGPT составить письмо в страховую компанию пациента.

По словам генерального директора компании Cyberhaven Ховарда Тинга (Howard Ting), по мере того, как всё больше сотрудников использует ChatGPT и другие ИИ-сервисы в качестве инструментов повышения производительности своего труда, риски будут расти.

«Уже произошла большая миграция данных из локальной корпоративной среды в облако, и следующим большим сдвигом станет миграция данных в эти «порождающие» (generative) приложения»,  - отмечает Ховард Тинг. «Нам ещё предстоит увидеть, к чему это приведёт - я думаю, мы сейчас находимся на стадии предматчевой разминки, и даже первый тайм игры ещё не начался».

В связи с быстро растущей популярностью чат-бота ChatGPT от компании OpenAI и лежащей в его основе ИИ-модели – «Авторегрессионной генерирующей языковой модели на архитектуре Трансформер 3-го поколения» (Generative Pre-trained Transformer, или GPT-3, см. https://en.wikipedia.org/wiki/GPT-3 - Н.Х.), а также других LLM-моделей, - компании и специалисты по безопасности начали беспокоиться о том, что в качестве обучающих данных на вход таких моделей поступают чувствительные конфиденциальные данные (см. https://www.cyberhaven.com/blog/4-2-of-workers-have-pasted-company-data-into-chatgpt/ ), и что эти данные могут всплыть в случае использования подходящих запросов. Кое-кто уже принимает меры: например, J.P.Morgan ограничил использование ChatGPT своими сотрудниками (см. https://www.cnn.com/2023/02/22/tech/jpmorgan-chatgpt-employees/index.html ), а компании Amazon, Microsoft, и Wal-Mart предупредили сотрудников (см. https://www.businessinsider.com/walmart-warns-workers-dont-share-sensitive-information-chatgpt-generative-ai-2023-2 ) о необходимости соблюдать осторожность при использовании сервисов на основе порождающих ИИ-приложений.


Диаграмма, показывающая число событий как ввода (ingress), так и раскрытия (egress) данных с использованием ChatGPT. Источник: компания Cyberhaven

Карла Гроссенбахер (Karla Grossenbacher), партнёр в юридической фирмы Seyfarth Shaw, предупреждает в своей колонке в издании Bloomberg Law ( https://news.bloomberglaw.com/us-law-week/employers-should-consider-these-risks-when-employees-use-chatgpt ), что по мере того, как всё больше компаний-разработчиков программного обеспечения начинают поддерживать взаимодействие своих приложений с ChatGPT, LLM-модели смогут собирать гораздо больше информации, чем это кажется пользователи или их компаниям-работодателям, подвергая их юридическим рискам.

«Разумно осмотрительные работодатели станут включать - в соглашения и политики конфиденциальности для сотрудников - запреты сотрудникам ссылаться на конфиденциальную, проприетарную или содержащую коммерческую тайну информацию и вводить такую информацию в чат-боты или языковые ИИ-модели, такие как ChatGPT», - пишет она. «С другой стороны, поскольку ChatGPT был обучен на основе широкого спектра онлайн-информации, сотрудники могут добывать с помощью подобных инструментов и использовать информацию, представляющую коммерческую тайну, защищённую авторским правом и/или являющуюся интеллектуальной собственностью другого лица или организации, - что создает юридические риски для работодателей».

Эти риски совсем не теоретические. В статье, опубликованной в июне 2021 года, дюжина исследователей, представляющие компании и университеты из списка «Кто есть кто» (Who's Who), включая Apple, Google, Гарвардский и Стэнфордский университеты, сообщила о том, что так называемые «атаки извлечения обучающих данных» (training data extraction attacks) позволяют успешно восстанавливать из LLM-модели, известной как GPT-2, дословные последовательности текста, персональные данные (personally identifiable information, PII) и иную информацию, присутствовавшую в обучающих материалах. В статье исследователи утверждают, что, фактически, LLM-модели для дословного запоминания данных достаточно было всего лишь одного документа (см. https://arxiv.org/abs/2012.07805 ).

(Окончание следует, см. http://rusrim.blogspot.com/2023/04/chatgpt-2.html )

Роберт Лемос (Robert Lemos)

Источник: сайт Dark Reading
https://www.darkreading.com/risk/employees-feeding-sensitive-business-data-chatgpt-raising-security-fears

Комментариев нет:

Отправить комментарий