вторник, 31 декабря 2024 г.

Росстандарт: Опубликован стандарт ГОСТ Р 71484.4-2024 «Качество данных для аналитики и машинного обучения. Часть 4. Структура процесса управления качеством данных»

На сайте Федерального агентства по техническому регулированию и метрологии ( http://www.gost.ru/ ) в декабрьском 2024 года разделе ( https://protect.gost.ru/default.aspx?control=6&month=12&year=2024 ) выложен стандарт ГОСТ Р 71484.4-2024 (ИСО/МЭК 5259-4:2024) «Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 4. Структура процесса управления качеством данных» объёмом 36 страниц, вступающий в силу 01.01.2025 года, см. https://protect.gost.ru/document1.aspx?control=31&baseC=6&id=264238 .

Стандарт разработан Научно-образовательным центром компетенций в области цифровой экономики Московского государственного университета имени М.В. Ломоносова» и ООО «Институт развития информационного общества» (ИРИО) на основе собственного перевода на русский язык англоязычной версии международного стандарта ISO/IEC 5259-4:2024 «Искусственный интеллект - Качество данных для аналитики и машинного обучения – Часть 4: Рамочная концепция процесса обеспечения качества данных» (Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 4: Data quality process framework, см. https://www.iso.org/standard/81093.html и https://www.iso.org/obp/ui/en/#!iso:std:81093:en , а также мой пост http://rusrim.blogspot.com/2024/07/isoiec-5259-12024-4.html - Н.Х.).

Во вводной части стандарта отмечается:

«Количество продуктов, систем или решений, связанных с искусственным интеллектом, в последние годы быстро растет. Одна из общих характеристик систем искусственного интеллекта, особенно для систем, использующих машинное обучение с учителем, заключается в том, может ли система искусственного интеллекта обучаться на наборе данных перед развертыванием или ее можно обучать динамически в процессе использования системы.

Общепризнанно, что данные играют существенную роль в системах искусственного интеллекта на основе машинного обучения. Для всех подходов к машинному обучению с учителем, без учителя, с частичным привлечением учителя, с подкреплением качество данных может быть главной проблемой при создании и использовании данных для обучения и оценки систем машинного обучения. Как правило, при использовании более точных и богатых данных результаты аналитики и машинного обучения могут быть более полезными и надежными. Кроме того, для разработки систем искусственного интеллекта на основе обучения с учителем необходимы большие объемы размеченных данных для конкретных задач. Это делает аккуратно размеченные данные одним из самых важных ресурсов в сфере искусственного интеллекта. В настоящее время существует проверенный рынок промышленных сервисов и инструментов для разметки обучающих данных. Сегодня этот рынок достигает уровня зрелости, который оправдывает разработку международных стандартов в интересах поставщиков и пользователей этих услуг и инструментов для обеспечения высокого качества размеченных данных.

В настоящем стандарте описывается внедрение единой стандартизированной процедуры обработки данных в отношении качества данных для аналитики и машинного обучения.

Настоящий стандарт устанавливает общие организационные подходы, используемые независимо от типа, размера или характера организации, для обеспечения качества данных для обучения и оценки в области аналитики и машинного обучения. Стандарт включает в себя руководство по процессу управления качеством данных для:

  • машинного обучения с учителем;

  • машинного обучения без учителя;

  • машинного обучения с частичным привлечением учителя;

  • аналитики.

Настоящий стандарт применим к обучающим и тестовым данным, которые поступают из различных источников, включая сбор и комплектование данных, подготовку данных, разметку данных, оценку и использование данных. Настоящий стандарт не определяет конкретные сервисы, платформы или инструменты.»

Содержание стандарта следующее:

Предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Сокращения
5. Принципы процесса управления качеством данных
6. Структура процесса управления качеством данных
7. Процесс управления качеством данных для машинного обучения
8. Методы и процесс разметки данных
9. Роли участников
10. Процесс управления качеством данных для машинного обучения с частичным привлечением учителя
11. Процесс управления качеством данных для обучения с подкреплением
12.  Процесс управления качеством данных для аналитики
Библиография

Источник: сайт Росстандарта
https://protect.gost.ru/document1.aspx?control=31&baseC=6&id=264238

Комментариев нет:

Отправить комментарий