Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 26 июля 2023 года на блоге компании Formtek.
В проектах искусственного интеллекта (ИИ) создаются модели, которым затем «скармливаются» данные. Согласно общему эмпирическому правилу, чем больше данных подаётся на вход модели, тем лучше результаты.
Было, однако, замечено, что по мере добавления всё большего количества данных полезная отдача от этого часто уменьшается ( https://medium.com/aquarium-learning/you-should-try-active-learning-37a86aab1afb ). Отчасти это связано с тем, что основное внимание часто уделяется количеству, а не качеству данных. Такие исследователи, как Эндрю Нг (Andrew Ng, https://www.youtube.com/watch?v=06-AZXmwHjo&t=69s ), теперь продвигают идею использования меньших по объёму высококачественных наборов данных - они называют этот подход «ИИ, ориентированный на данные» (Data-Centric AI), в отличие от «модельно-ориентированному ИИ» (Model-Centric AI), где основное внимание уделяется архитектуре ИИ-решений.
Генеральный директор компании Aquarium Learning Питер Гао (Peter Gao, https://www.linkedin.com/in/pgaooo/ ) пишет в посте на сайте Medium, что «мораль этой истории такова: если у вас есть петабайты данных, сотни графических процессоров для масштабирования процесса обучения модели, да ещё миллионы долларов, которые можно потратить на исследования, то Вы можете преодолеть проблему убывающей отдачи с помощью «грубой силы», привлекая к решению задачи всё больше данных и вычислительных ресурсов» ( https://medium.com/aquarium-learning/you-should-try-active-learning-37a86aab1afb ).
Вице-президент фирмы IBM Даниэль де ла Фуэнте (Daniel de la Fuente, https://www.linkedin.com/in/danieldelafuente/?originalSubdomain=es ) отмечает, что «независимо от того, насколько продвинут ваш ИИ, он будет лишь настолько хорош, насколько хороши данные, которые подаются в систему. Создание надежного фундамента в виде данных всегда является разумным шагом, направленным на то, чтобы заставить ИИ работать» ( https://www.ft.com/partnercontent/ibm/smart-thinking-why-data-is-key-to-successful-ai-projects.html ).
Использующие ИИ компании уже поняли это. Согласно опросу, проведенному издаваемого Массачусетским технологическим институтом (Massachusetts Institute of Technology, MIT) журналом «MIT Technology Review» (Обзор технологий), 72% компаний сейчас считают, что проблемы с управлением данными и качеством данных могут поставить под угрозу достижение целей ИИ (см. https://www.prnewswire.com/news-releases/cios-say-data-management-is-critical-for-successful-ai-adoption-in-new-global-research-report-by-mit-technology-review-insights-301627279.html ).
Директор по пользовательскому контенту журнала MIT Technology Review г–жа Лорел Рума (Laurel Ruma, https://www.linkedin.com/in/laurelruma/ ) считает, что «если компании не смогут достичь своих целей, связанных с применением ИИ, то причиной этого, скорее всего, будут проблемы с данными. Повышение скорости обработки, улучшение стратегического управления данными и качества данных, а также обеспечение достаточности их объёмов для моделей - основные императивы для обеспечения возможности масштабирования ИИ» ( https://www.prnewswire.com/news-releases/cios-say-data-management-is-critical-for-successful-ai-adoption-in-new-global-research-report-by-mit-technology-review-insights-301627279.html ).
Дик Вейсингер (Dick Weisinger)
Источник: блог компании Formtek
https://formtek.com/blog/artificial-intelligence-quality-of-training-data-key-to-success/
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий