Кто не идёт вперед, тот идёт назад: Искусственный интеллект: Качество данных может стать решающим фактором успеха или провала ИИ-проекта

воскресенье, 18 июня 2023 г.

Искусственный интеллект: Качество данных может стать решающим фактором успеха или провала ИИ-проекта

Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 11 мая 2023 года на блоге компании Formtek.

Для проектов в сфере искусственного интеллекта и аналитики данных наличие «правильных» данных может оказаться самым важным фактором успеха или провала проекта. Без точных, актуальных и разнообразных наборов данных невозможно построить модели, способные давать надёжные прогнозы.

Подготовка данных – трудоёмкая и однообразная работа, являющаяся одним из наиболее часто пренебрегаемых этапов ИИ-проектов. Как оказалось, даже часто используемые общедоступные обучающие наборы данных имеют значительное количество проблем, связанных с качеством данных, - и если даже они не могут обеспечить качество, то Вам тем более следует с подозрением относиться к не столь высокопрофильным проектам.

Исследование, проведенное в 2021 году Массачусетским технологическим институтом (MIT), показало, что общедоступная база данных ImageNet ( https://venturebeat.com/2021/03/28/mit-study-finds-systematic-labeling-errors-in-popular-ai-benchmark-datasets/ ) имеет «системные проблемы с аннотациями», поскольку до 20% процентов коллекции содержит дубликаты. В ходе изучения одного из созданных Google наборов данных ( https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled ) выяснилось, что до 30% записей неправильно отмаркированы. Совместный проект IBM и Центра исследований рака имени Андерсена (MD Anderson Cancer Center) при Университете Техаса (см. https://www.wsj.com/articles/hospital-stumbles-in-bid-to-teach-a-computer-to-treat-cancer-1488969011?mod=article_inline ) был отменен ввиду того, что из-за использования устаревших данных были получены плохие результаты.

Профессора Стэнфордского университета Эндрю Нг (Andrew Ng, https://www.andrewng.org/ ) отмечает, что «у искусственного интеллекта есть разрыв на пути от проверки концепции до промышленной эксплуатации. Полный цикл проекта машинного обучения - это не просто моделирование. Он включает поиск нужных данных, их развертывание, мониторинг, передача данных обратно [в модель], демонстрация безопасности - выполнение всего то, что необходимо сделать при развертывании модели. [Это выходит] за рамки получения хороших результатов на тестовом наборе, в чем мы в машинном обучении - к счастью или к сожалению - преуспели» ( https://spectrum.ieee.org/andrew-ng-xrays-the-ai-hype ).

В статье Кэтлин Уолч (Kathleen Walch, https://www.linkedin.com/in/kathleen-walch-50185112/ ) в журнале Forbes утверждается, что аналитикам и специалистам по искусственному интеллекту следует вернуться к основам и уделять больше внимания подготовке данных. В середине 1990-х годов был разработан набор передовых практик для проектов интеллектуального анализа данных, названный «Кросс-отраслевой стандартный процесс интеллектуального анализа данных» (CRoss Industry Standard Process for Data Mining, CRISP-DM, https://www.datascience-pm.com/crisp-dm-2/ ), Вторым и третьим этапами этого процесса являются «Понимание данных» и «Подготовка данных», и оба они имеют критически-важное значение для создания проекта, у которого высокое качеством данных.

Википедия: Шесть этапов CRISP-DM, https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining

Генеральный директор фирмы IBM Арвинд Кришна (Arvind Krishna, https://www.ibm.com/about/arvind ) отмечает, что подготовка данных сложна; и основной причиной, по которой отменяются ИИ-проекты, является это сложность подготовки качественных данных ( https://www.wsj.com/articles/data-challenges-are-halting-ai-projects-ibm-executive-says-11559035800?mod=djemCIO ). Кришна сказал, что у многих компаний «по ходу процесса заканчивается терпение, потому что они тратят свой первый год только на сбор и очистку данных. И они говорят: «Эй, подождите, а где же искусственный интеллект? Мы не получаем отдачи». И они как бы отказываются от этого».

Дик Вейсингер (Dick Weisinger)

Источник: блог компании Formtek
https://formtek.com/blog/artificial-intelligence-data-quality-can-make-or-break-an-ai-project/

2 комментария:

Михаил Романов18 июня 2023 г. в 12:41
Здравствуйте, Наталья Александровна!

Прошу простить, что пишу не по теме вашей публикации, но не написать не могу...

Я совершенно случайно зашел на вашу страницу здесь спустя, наверное лет 10 (с тех пор как я ушел из Directum, я практически перестал обращаться к теме ECM) и был невероятно (и очень приятно!) удивлен тем, что ваш блог не только не прекратил своего существования (а эта участь постигла подавляющее большинство известных мне ресурсов в области документооборота и управления информацией), но продолжает оставаться самым крупным агрегатором новостей в области управления документами во всем русскоязычном интернете.

И пусть лично мы с вами не знакомы (а пересекались лишь на страницах ecm-journal.ru), я был очень рад узнать что вы всё так же полны творческих сил и (еще раз выскажу свое восхищение!!!) продолжаете этот уникальный проект.
Удачи вам во всем!
ОтветитьУдалить
Ответы

Добавить комментарий

Кто не идёт вперед, тот идёт назад

воскресенье, 18 июня 2023 г.

Искусственный интеллект: Качество данных может стать решающим фактором успеха или провала ИИ-проекта

2 комментария:

Dr Natasha Khramtsovsky

Обо мне: Наташа Храмцовская / Dr Natasha Khramtsovsky

Поиск по блогу / Search this blog

Искать по блогу / Search this blog 2

Архив блога / Blog Archives

Используйте теги / Click the tags!

География моих читателей (RU)

Постоянные читатели

Кто не идёт вперед, тот идёт назад

воскресенье, 18 июня 2023 г.

Искусственный интеллект: Качество данных может стать решающим фактором успеха или провала ИИ-проекта

2 комментария:

Dr Natasha Khramtsovsky

Обо мне: Наташа Храмцовская / Dr Natasha Khramtsovsky

Поиск по блогу / Search this blog

Искать по блогу / Search this blog 2

Архив блога / Blog Archives

Используйте теги / Click the tags!

География моих читателей (RU)

Постоянные читатели

воскресенье, 18 июня 2023 г.