четверг, 2 мая 2024 г.

Китай: Для публичного обсуждения выложен проект национального стандарта GB/T «Требования по безопасности для данных, используемых для предварительного обучения и оптимизации генеративного ИИ»

Данная заметка сингапурского юриста Даррена Грейсона Чана (Darren Grayson Chng), занимающегося правовыми вопросами защиты персональных данных и технологий, была опубликована 8 апреля 2024 года в социальной сети LinkedIn.

3 апреля 2024 года китайский технический комитет по стандартизации SAC/TC260 «Кибербезопасность» опубликовал для публичного обсуждения проект национального стандарта GB/T «Технологии кибербезопасности – Требования по безопасности для данных, используемых для предварительного обучения и точной настройки генеративного искусственного интеллекта» (《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》, самоназвание на английском языке: Cybersecurity technology - Security specification for generative artificial intelligence pre-training and fine-tuning data) объёмом 17 страниц, см. https://www.tc260.org.cn/file/2024-04-01/94e7e6de-2688-472c-af8b-a6cfe7fc7d29.pdf (автоперевод на английском языке присоединен к посту в LinkedIn, см. https://www.linkedin.com/posts/darrengraysonchng_activity-7183133824770273283-I4Wv ).
 
Если Вы предоставляете услуги порождающего (генеративного) искусственного интеллекта (ИИ) в Китае, то Вам стоит посмотреть, что Вас ждёт. Как обычно, эти требования не являются обязательными и носят рекомендательный характер, однако они могут «послужить основой для проведения оценок регуляторами».

Мой комментарий:
Во вводной части документа отмечается:

«В настоящем документе сформулированы требования безопасности в отношении данных, используемых для предварительного обучения и для оптимизации порождающего (генеративного) искусственного интеллекта, а также действий по их обработке. В нём также описываются соответствующие методы оценки.

Данный документ должен помочь поставщикам услуг генеративного ИИ в проведении подготовки данных для предварительного обучения и для оптимизации генеративного ИИ, а также в проведении самооценки по безопасности в отношении таких данных. Он также может послужить основой для проведения оценок регуляторами.»

Содержание стандарта следующее:

Предисловие
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Общий обзор
5. Общие требования безопасности
6. Требования безопасности в отношении обработки данных для предварительного обучения генеративного ИИ
7. Требования безопасности в отношении обработки данных для оптимизации генеративного ИИ
8. Методы оценки
Приложение A (справочное): Основные риски безопасности, связанные с обработкой данных для предварительного обучения и для оптимизации генеративного ИИ
Приложение B (нормативное): Требования к ключевым тезаурусам и таксономическим моделям
Библиография

Ключевые / интересные моменты следующие:

1. В «Требованиях» перечислены требования безопасности в отношении данных для предварительного обучения и оптимизации (pre-training and optimisation training data, POTD) генеративного ИИ. Рассматриваются вопросы общей безопасности данных и безопасности действий по обработке данных.

2. Общая безопасность данных: Поставщики услуг должны:

  • классифицировать и оценить POTD-данные,

  • реализовать технические меры для мониторинга безопасности POTD-данных, оперативно давая предупреждения и принимая меры по устранению при выявлении недостатков в безопасности данных, уязвимостей и иных рисков [звучит так, как будто необходимо будет удалить данные - возможно, весь набор данных? –Подозреваю, что в китайском оригинале на самом деле речь идёт об устранении недостатков данных, а не об удалении данных – Н.Х.],

  • реализовать технические меры, такие как идентификация и аутентификация, контроль доступа, шифрование,

  • создать механизм экстренного реагирования на инциденты безопасности,

  • документировать операции по обработке данных.

3. Требования безопасности в отношении обработки данных для предварительного обучения генеративного ИИ – существуют требования в отношении:

  • сбора данных – например, нужно документировать происхождение данных;

  • предварительной обработки – например, нужно к выборкам данных добавлять метаданные;

  • использованию – например, нужно получить согласие на обработку персональных данных и отдельное согласие на использование специальных персональных данных, нельзя использовать данные, нарушающие права интеллектуальной собственности, следует принять меры по снижению вероятности того, что порождающий (генеративный) ИИ будет использован для генерирования контента, представляющего угрозу безопасности.

4. Требования безопасности в отношении обработки данных для оптимизации генеративного ИИ – существуют требования в отношении те же категорий данных, что и упомянутые выше. Во-первых, если вы собираете данные, сгенерированные порождающим ИИ, то должны задокументировать версию используемой модели/сервиса порождающего ИИ и время сбора, а также тщательно изучить эти данные на предмет наличия контента, представляющего угрозу безопасности.

5. В «Требованиях» сказано, что именно следует проверять при оценке общей безопасности и безопасности действий, упомянутых выше в пп. 3 и 4. Имеются весьма детальные требования – например, требование случайным образом отобрать не менее 100 образцов после предварительной обработки и проверить, не содержат ли они контент, представляющий угрозу безопасности или серьезные риски нарушения прав интеллектуальной собственности.

6. В Приложении А рассказывается о том, что такое «угроза безопасности». В их число включаются:

  • контент, не соответствующий основным социалистическим ценностям - например. контент, оправдывающий терроризм, пропагандирующий насилие и порнографию, распространяющий ложную информацию, а также ставящий под угрозу национальную безопасность и интересы, подрывающий национальное единство и социальную стабильность;

  • дискриминационный контент – например, в отношении возраста, религии, этнической принадлежности;

  • незаконная коммерческая деятельность – например, нарушение прав интеллектуальной собственности, разглашение коммерческой тайны;

  • нарушение законных прав и интересов других лиц – например, контент, наносящий ущерб репутация, разглашающий персональные данные, сведения физическом и психическом здоровье.

Даррен Грейсон Чан (Darren Grayson Chng)

Источник: сайт LinkedIn
https://www.linkedin.com/posts/darrengraysonchng_activity-7183133824770273283-I4Wv


Комментариев нет:

Отправить комментарий