суббота, 4 апреля 2026 г.

ИСО и МЭК: Продолжается работа над техническим отчётом ISO/IEC CD TR 42103 «Обзор синтетических данных в контексте систем ИИ»

В середине февраля 2026 года сайт Международной организации по стандартизации (ИСО) сообщил о начале голосования по проекту технического отчёта ISO/IEC CD TR 42103 «Информационные технологии – Искусственный интеллект – Обзор синтетических данных в контексте систем ИИ» (Information technology — Artificial intelligence - Overview of synthetic data in the context of AI systems) объёмом 13 страницы, см. https://www.iso.org/standard/86899.html . Голосование завершится в середине апреля 2026 года, и, в случае успешного исхода, документ может быть быстро доработан и направлен на публикацию.

Над документом работает подкомитет SC42 «Искусственный интеллект» (Artificial intelligence), входящий в состав Объединенного технического комитета JTC1 «Информационные технологии» Международной организации по стандартизации (ИСО) и Международной электротехнической комиссии (МЭК).

С моей точки зрения, данный проект вызывает дополнительный интерес ещё и потому, что сейчас в России некоммерческая организация «Ассоциация больших данных» (АБД) готовит отечественный предстандарт ПНСТ «Синтез данных» на ту же тему, который состоит из трёх частей:

Ключевой (и, как показывают ответственные и международные дискуссии, достаточно спорный) термин определён следующим образом:

3.9. Синтетические данные (synthetic data) - данные, созданные искусственным путем, а не собранные на основе наблюдений в реальном мире.

Примечание: Синтетические данные используются в качестве замены данных реального мира (реальных данных) в ситуациях, когда имеется дефицит данных реального мира; когда использование реальных данных может привести к раскрытию чувствительной информации, такой как персональные данные; или же когда имеющиеся данные реального мира не в состоянии адекватно отразить все крайние случаи. 

Цель синтетических данных - воспроизвести математические, статистические и/или семантические характеристики реальных данных, обеспечивая тем самым их полезность для различных приложений, включая обучение моделей машинного обучения. Их использование может смягчить риски для безопасности и персональных данных, связанные с использованием данных реального мира.

Для сравнения, в проекте российского ПНСТ тот же термин определён следующим образом (в части 1):

3.1.3. Синтетические данные (synthetic data): Данные, искусственно созданные для имитации формата и свойств реальных данных, но которые не соответствуют напрямую каким-либо реальным объектам и не являются модификацией исходных данных.

Примечание: Синтетические данные могут быть использованы для различных целей, включая обучение моделей машинного обучения, тестирование систем, а также обеспечение повышенной конфиденциальности данных.

Во вводной части документа отмечается:

«Синтетические данные - это данные, сгенерированные искусственным образом, а не собранные на основе наблюдений в реальном мире, которые используются вместо реальных данных в тех случаях, когда 

  • реальных наблюдений немного; 

  • при использовании данных, полученных от реальных людей, могут быть раскрыты персональные данные; 

  • существующие данные недостаточно разнообразны; или

  • существующие данные не могут быть использованы ввиду ограничений, установленных законодательно-нормативными и иными обязательными требованиями. 

Хотя синтетические данные стали популярным инструментом для решения этих распространенных проблемных вопросов, их использование создаёт свои собственные проблемы.

Синтетические данные широко используются в различных секторах, включая сектора беспилотных автомобилей, телекоммуникаций, промышленного производство, здравоохранения, финансовых услуг, а также технологий. Ими пользуются как устоявшиеся предприятия и организации, так и развивающиеся стартапы.

Степень использования синтетических данных зависит от конкретных вариантов использования. Можно, например, сгенерировать целые наборы данных «с нуля2, используя ограниченное количество начальных данных (seed data); также есть возможность просто заменить конфиденциальные значения в существующем наборе данных правдоподобными альтернативами. Существуют различные методы генерации синтетических данных, и их применение зависит от конечной цели.

Хотя использование синтетических данных может быть направлено на снижение рисков в ходе проекта, некоторые риски всё же остаются, и даже могут появиться новые. К таким рискам относятся: утечка данных реального мира, таких как персональные данные или данные, являющиеся интеллектуальной собственностью; усиление предвзятости; галлюцинации; а также повторная идентификация физических лиц.

… Настоящий документ содержит обзор понятий, методов, способов использования синтетических данных и касающихся их соображений в контексте систем искусственного интеллекта. В нём описываются варианты использования синтетических данных и связанные с их использованием уникальные проблемы. Рассматривается использование синтетических данных в рамках жизненного цикла данных, включая связанные с синтетическими данными риски и показатели качества данных; использование синтетических данных в различных отраслях и вопросы экологической рациональности, возникающие в процессе работы с синтетическими данными.»

Содержание документа следующее:

Предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Сокращения и аббревиатуры
5. Типы синтетических данных
6. Синтетические данные в жизненном цикле данных
7. Соображения о качестве данных для синтетических данных
8. Риски, связанные с синтетическими данными
9. Использование синтетических данных
Приложение A: Пример процесса синтеза данных
Библиография

Источник: сайт ИСО
https://www.iso.org/standard/86899.html 


Комментариев нет:

Отправить комментарий