В начале 2024 года американский Национальный институт стандартов и технологий (National Institute of Standards and Technology, NIST) опубликовал документ «Состязательное (вредоносное) машинное обучение: Таксономия и терминология атак и мер по их смягчению» (Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations), в которой представлен обзор видов атак, которым могут подвергнуться продукты на основе искусственного интеллекта (ИИ), а также соответствующих подходов к снижению ущерба.
Мой комментарий: Документ NIST AI 100-2 E2023 «Состязательное (вредоносное) машинное обучение: Таксономия и терминология атак и мер по их смягчению» (Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations) объёмом 107 страниц был опубликован в январе 2024 года, и доступен на сайте NIST по адресу https://csrc.nist.gov/pubs/ai/100/2/e2023/final (прямая ссылка на PDF-файл: https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2023.pdf ).
В этом отчете из серии публикаций NIST о доверенном и ответственном ИИ (NIST Trustworthy and Responsible AI) используются представления о безопасности, жизнеспособности и робастности систем машинного обучения из ранее опубликованной NIST «Концепции менеджмента рисков, связанных с искусственным интеллектом» (AI Risk Management Framework, AI RMF). Таксономия состязательного (вредоносного) машинного обучения (adversarial machine learning, AML) определяется с учётом следующих 5 аспектов оценки риска соответствующих атак:
- Тип ИИ-системы - прогнозная либо порождающая (генеративная),
- Метод обучения и стадия процесса жизненного цикла машинного обучения на момент атаки,
- Цели и задачи атакующего,
- Возможности злоумышленника, и
- Знания злоумышленника как о процессе обучения, так и за его пределами.
Поскольку используемые для обучения ИИ наборы данных слишком велики, чтобы люди могли успешно осуществлять их мониторинг и фильтрацию, не существует какого-то универсального решения для защиты ИИ от состязательного (вредоносного) машинного обучения (AML). В данном отчёте NIST обсуждаются четыре наиболее широко изученных и эффективных вида атак в рамках состязательного (вредоносного) машинного обучения:
- Уклонение (evasion): попытка изменить входные данные с целью изменить реакцию ИИ-системы после её развертывания;
- Отравление (poisoning): добавление искажённых данных на этапе обучения ИИ-системы;
- Утечки конфиденциальной информации и персональных данных: попытки извлечь конфиденциальную информацию об ИИ-системе или о данных, на которых та обучалась во время развертывания, с целью последующего злонамеренного использования этой чувствительной информации;
- Злоупотребление (abuse): попытка предоставить ИИ неверные элементы информации из легитимного, однако скомпрометированного источника (например, веб-страницы или онлайн-документа) с целью изменения целевого использования ИИ-системы.
Характер и мощь этих атак различны, и они могут эксплуатировать не только уязвимости моделей машинного обучения, но и слабые места инфраструктуры, в рамках которой развернуты ИИ-системы.
Виктория Бэкман (Victoria Beckman)
Источники: сайт LinkedIn / сайт NIST
https://www.linkedin.com/posts/victoriabeckman_victoria-beckman-nist-adversarial-machine-ugcPost-7153517551354855424-xM4P/
Комментариев нет:
Отправить комментарий