четверг, 1 августа 2019 г.

Успех проектов на основе искусственного интеллекта и машинного обучения часто определяется качеством данных


Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 12 июля 2019 года на блоге компании Formtek.

Как говорится, «мусор на входе – мусор на выходе» (garbage in - garbage out). Алгоритмы машинного обучения и искусственного интеллекта (ИИ) часто работают, отыскивая в огромных объемах данных повторяющиеся особенности и взаимосвязи (patterns), поэтому грязные или бедные наборы данных могут пустить ИИ-проекты под откос.

Генеральный директор компании Элиджен (Alegion) Натаниэль Гейтс (Nathaniel Gates, см. https://finance.yahoo.com/news/survey-96-enterprises-encounter-training-120000953.html ; его большое интервью по теме ИИ можно найти здесь: https://aithority.com/interviews/interview-with-nathaniel-gates-ceo-co-founder-at-alegion/ ), говоря о подготовленном компанией Dimensional Research ( https://dimensionalresearch.com/ ) по заказу Элиджен исследовательском отчёте, отметил, что «из числа отдельных препятствий на пути внедрения моделей машинного обучения на практике, самым серьёзным является объем и качество обучающих данных. анное исследование подкрепляет наш собственный опыт, показывая, что группы специалистов по работе с данными, плохо знакомые с созданием систем, движущей силой которых является получение отдачи на вложенные инвестиции, пытаются собственными силами решить вопрос подготовки обучающих данных, и эта задача оказывается выше их сил.»

Мой комментарий: речь идёт об опубликованном в конце мая 2019 года документе под названием «Проекты в области искусственного интеллекта и машинного обучения тормозятся из-за проблем с данными – Глобальный опрос специалистов по обработке данных, экспертов в области искусственного интеллекта  и заинтересованных сторон» (Artificial Intelligence and Machine Learning Projects Obstructed by Data Issues - Global Survey of Data Scientists, AI Experts and Stakeholders) объёмом 31 страница, см. https://telecomreseller.com/wp-content/uploads/2019/05/EMBARGOED-UNTIL-800-AM-ET-0523-Dimensional-Research-Machine-Learning-PPT-Report-FINAL.pdf

Это же настроение нашло отражение и в самом отчёте по итогам исследования, в рамках которого изучались существующие проекты ИИ и машинного обучения. Выяснилось, что 80% из них на каком-то этапе сильно притормаживали. Одновременно 96% опрошенных сообщили, что вызовы и проблемы, с которыми они сталкиваются, как правило, связаны со способностью получить и разметить качественные данные.

В другом отчёте, подготовленном фирмой «Когнилитика» (Cognilytica, о нём см. https://www.forbes.com/sites/cognitiveworld/2019/03/07/the-achilles-heel-of-ai/#7b15694e7be7 – это платный документ под названием «Инженения, подготовка и разметка данных для ИИ» (Data Engineering, Preparation, and Labeling for AI 2019), одностраничная сводка основных итогов которого имеется здесь: https://www.cognilytica.com/wp-content/uploads/2019/04/DATA-PREP-AND-LABELING-FOR-AI.pdf - Н.Х.) отмечается, что 80 процентов времени ИИ-проекта тратится на подготовку данные. В отчете подчёркивается, что, на удивление, процесс подготовки данных требует большого вмешательства человека.

По мере того как растёт значение искусственного интеллекта, возрастает и необходимость создания инструментов, позволяющих эффективно «чистить» обрабатываемые данные. Согласно оценке фирмы Markets and Markets (см. https://www.marketsandmarkets.com/PressReleases/data-prep.asp ), что рынок подготовки данных вырастет с 1,5 миллиарда. долларов в 2016 году до 4 млрд. долларов в 2021 году, а  ежегодный рост составит 25%.

Дик Вейсингер (Dick Weisinger)

Мой комментарий: Приведенные в заметке сведения ещё раз подтверждают, в общем-то, хорошо известную учёным и инженерам истину, которую в последние годы пытались затуманить евангелисты «больших данных», а именно – что количество данных, как правило, не может компенсировать их низкое качество; и всегда, когда есть такая возможность, лучше опираться на высококачественные «маленькие данные», чем надеяться извлечь что-либо путное при переработке гор информационного мусора. Технологии «больших данных» выходят на первый план тогда, когда качественные маленькие данные по тем или иным причинам не могут быть собраны.

Источник: блог компании Formtek
https://formtek.com/blog/ai-and-ml-project-success-often-defined-by-data-quality/

Комментариев нет:

Отправить комментарий