Над документом работает подкомитет SC42 «Искусственный интеллект» (Artificial intelligence), входящий в состав Объединенного технического комитета JTC1 «Информационные технологии» Международной организации по стандартизации (ИСО) и Международной электротехнической комиссии (МЭК).
С моей точки зрения, данный проект вызывает дополнительный интерес ещё и потому, что сейчас в России некоммерческая организация «Ассоциация больших данных» (АБД) готовит отечественный предстандарт ПНСТ «Синтез данных» на ту же тему, который состоит из трёх частей:
- Часть 1. Термины и определения. Основные положения, см. https://docs.cntd.ru/document/1312112096
- Часть 2 «Архитектура процесса синтеза данных. Методы синтеза», см. https://docs.cntd.ru/document/1312112098
- Часть 3. Описание результатов процесса синтеза. Методика оценки качества, см. https://docs.cntd.ru/document/1312112097
Ключевой (и, как показывают ответственные и международные дискуссии, достаточно спорный) термин определён следующим образом:
3.9. Синтетические данные (synthetic data) - данные, созданные искусственным путем, а не собранные на основе наблюдений в реальном мире.
Примечание: Синтетические данные используются в качестве замены данных реального мира (реальных данных) в ситуациях, когда имеется дефицит данных реального мира; когда использование реальных данных может привести к раскрытию чувствительной информации, такой как персональные данные; или же когда имеющиеся данные реального мира не в состоянии адекватно отразить все крайние случаи.
Цель синтетических данных - воспроизвести математические, статистические и/или семантические характеристики реальных данных, обеспечивая тем самым их полезность для различных приложений, включая обучение моделей машинного обучения. Их использование может смягчить риски для безопасности и персональных данных, связанные с использованием данных реального мира.
Для сравнения, в проекте российского ПНСТ тот же термин определён следующим образом (в части 1):
3.1.3. Синтетические данные (synthetic data): Данные, искусственно созданные для имитации формата и свойств реальных данных, но которые не соответствуют напрямую каким-либо реальным объектам и не являются модификацией исходных данных.
Примечание: Синтетические данные могут быть использованы для различных целей, включая обучение моделей машинного обучения, тестирование систем, а также обеспечение повышенной конфиденциальности данных.
Во вводной части документа отмечается:
«Синтетические данные - это данные, сгенерированные искусственным образом, а не собранные на основе наблюдений в реальном мире, которые используются вместо реальных данных в тех случаях, когда
- реальных наблюдений немного;
- при использовании данных, полученных от реальных людей, могут быть раскрыты персональные данные;
- существующие данные недостаточно разнообразны; или
- существующие данные не могут быть использованы ввиду ограничений, установленных законодательно-нормативными и иными обязательными требованиями.
Хотя синтетические данные стали популярным инструментом для решения этих распространенных проблемных вопросов, их использование создаёт свои собственные проблемы.
Синтетические данные широко используются в различных секторах, включая сектора беспилотных автомобилей, телекоммуникаций, промышленного производство, здравоохранения, финансовых услуг, а также технологий. Ими пользуются как устоявшиеся предприятия и организации, так и развивающиеся стартапы.
Степень использования синтетических данных зависит от конкретных вариантов использования. Можно, например, сгенерировать целые наборы данных «с нуля2, используя ограниченное количество начальных данных (seed data); также есть возможность просто заменить конфиденциальные значения в существующем наборе данных правдоподобными альтернативами. Существуют различные методы генерации синтетических данных, и их применение зависит от конечной цели.
Хотя использование синтетических данных может быть направлено на снижение рисков в ходе проекта, некоторые риски всё же остаются, и даже могут появиться новые. К таким рискам относятся: утечка данных реального мира, таких как персональные данные или данные, являющиеся интеллектуальной собственностью; усиление предвзятости; галлюцинации; а также повторная идентификация физических лиц.
… Настоящий документ содержит обзор понятий, методов, способов использования синтетических данных и касающихся их соображений в контексте систем искусственного интеллекта. В нём описываются варианты использования синтетических данных и связанные с их использованием уникальные проблемы. Рассматривается использование синтетических данных в рамках жизненного цикла данных, включая связанные с синтетическими данными риски и показатели качества данных; использование синтетических данных в различных отраслях и вопросы экологической рациональности, возникающие в процессе работы с синтетическими данными.»
Содержание документа следующее:
Предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Сокращения и аббревиатуры
5. Типы синтетических данных
6. Синтетические данные в жизненном цикле данных
7. Соображения о качестве данных для синтетических данных
8. Риски, связанные с синтетическими данными
9. Использование синтетических данных
Приложение A: Пример процесса синтеза данных
Библиография
Источник: сайт ИСО
https://www.iso.org/standard/86899.html












