Стандарт разработан Научно-образовательным центром компетенций в области цифровой экономики Московского государственного университета имени М.В. Ломоносова» и ООО «Институт развития информационного общества» (ИРИО) на основе собственного перевода на русский язык англоязычной версии международного стандарта ISO/IEC 5259-4:2024 «Искусственный интеллект - Качество данных для аналитики и машинного обучения – Часть 4: Рамочная концепция процесса обеспечения качества данных» (Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 4: Data quality process framework, см. https://www.iso.org/standard/81093.html и https://www.iso.org/obp/ui/en/#!iso:std:81093:en , а также мой пост http://rusrim.blogspot.com/2024/07/isoiec-5259-12024-4.html - Н.Х.).
Во вводной части стандарта отмечается:
«Количество продуктов, систем или решений, связанных с искусственным интеллектом, в последние годы быстро растет. Одна из общих характеристик систем искусственного интеллекта, особенно для систем, использующих машинное обучение с учителем, заключается в том, может ли система искусственного интеллекта обучаться на наборе данных перед развертыванием или ее можно обучать динамически в процессе использования системы.
Общепризнанно, что данные играют существенную роль в системах искусственного интеллекта на основе машинного обучения. Для всех подходов к машинному обучению с учителем, без учителя, с частичным привлечением учителя, с подкреплением качество данных может быть главной проблемой при создании и использовании данных для обучения и оценки систем машинного обучения. Как правило, при использовании более точных и богатых данных результаты аналитики и машинного обучения могут быть более полезными и надежными. Кроме того, для разработки систем искусственного интеллекта на основе обучения с учителем необходимы большие объемы размеченных данных для конкретных задач. Это делает аккуратно размеченные данные одним из самых важных ресурсов в сфере искусственного интеллекта. В настоящее время существует проверенный рынок промышленных сервисов и инструментов для разметки обучающих данных. Сегодня этот рынок достигает уровня зрелости, который оправдывает разработку международных стандартов в интересах поставщиков и пользователей этих услуг и инструментов для обеспечения высокого качества размеченных данных.
В настоящем стандарте описывается внедрение единой стандартизированной процедуры обработки данных в отношении качества данных для аналитики и машинного обучения.
Настоящий стандарт устанавливает общие организационные подходы, используемые независимо от типа, размера или характера организации, для обеспечения качества данных для обучения и оценки в области аналитики и машинного обучения. Стандарт включает в себя руководство по процессу управления качеством данных для:
- машинного обучения с учителем;
- машинного обучения без учителя;
- машинного обучения с частичным привлечением учителя;
- аналитики.
Настоящий стандарт применим к обучающим и тестовым данным, которые поступают из различных источников, включая сбор и комплектование данных, подготовку данных, разметку данных, оценку и использование данных. Настоящий стандарт не определяет конкретные сервисы, платформы или инструменты.»
Содержание стандарта следующее:
Предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Сокращения
5. Принципы процесса управления качеством данных
6. Структура процесса управления качеством данных
7. Процесс управления качеством данных для машинного обучения
8. Методы и процесс разметки данных
9. Роли участников
10. Процесс управления качеством данных для машинного обучения с частичным привлечением учителя
11. Процесс управления качеством данных для обучения с подкреплением
12. Процесс управления качеством данных для аналитики
Библиография
Источник: сайт Росстандарта
https://protect.gost.ru/document1.aspx?control=31&baseC=6&id=264238
Комментариев нет:
Отправить комментарий