Для проектов в сфере искусственного интеллекта и аналитики данных наличие «правильных» данных может оказаться самым важным фактором успеха или провала проекта. Без точных, актуальных и разнообразных наборов данных невозможно построить модели, способные давать надёжные прогнозы.
Подготовка данных – трудоёмкая и однообразная работа, являющаяся одним из наиболее часто пренебрегаемых этапов ИИ-проектов. Как оказалось, даже часто используемые общедоступные обучающие наборы данных имеют значительное количество проблем, связанных с качеством данных, - и если даже они не могут обеспечить качество, то Вам тем более следует с подозрением относиться к не столь высокопрофильным проектам.
Исследование, проведенное в 2021 году Массачусетским технологическим институтом (MIT), показало, что общедоступная база данных ImageNet ( https://venturebeat.com/2021/03/28/mit-study-finds-systematic-labeling-errors-in-popular-ai-benchmark-datasets/ ) имеет «системные проблемы с аннотациями», поскольку до 20% процентов коллекции содержит дубликаты. В ходе изучения одного из созданных Google наборов данных ( https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled ) выяснилось, что до 30% записей неправильно отмаркированы. Совместный проект IBM и Центра исследований рака имени Андерсена (MD Anderson Cancer Center) при Университете Техаса (см. https://www.wsj.com/articles/hospital-stumbles-in-bid-to-teach-a-computer-to-treat-cancer-1488969011?mod=article_inline ) был отменен ввиду того, что из-за использования устаревших данных были получены плохие результаты.
Профессора Стэнфордского университета Эндрю Нг (Andrew Ng, https://www.andrewng.org/ ) отмечает, что «у искусственного интеллекта есть разрыв на пути от проверки концепции до промышленной эксплуатации. Полный цикл проекта машинного обучения - это не просто моделирование. Он включает поиск нужных данных, их развертывание, мониторинг, передача данных обратно [в модель], демонстрация безопасности - выполнение всего то, что необходимо сделать при развертывании модели. [Это выходит] за рамки получения хороших результатов на тестовом наборе, в чем мы в машинном обучении - к счастью или к сожалению - преуспели» ( https://spectrum.ieee.org/andrew-ng-xrays-the-ai-hype ).
В статье Кэтлин Уолч (Kathleen Walch, https://www.linkedin.com/in/kathleen-walch-50185112/ ) в журнале Forbes утверждается, что аналитикам и специалистам по искусственному интеллекту следует вернуться к основам и уделять больше внимания подготовке данных. В середине 1990-х годов был разработан набор передовых практик для проектов интеллектуального анализа данных, названный «Кросс-отраслевой стандартный процесс интеллектуального анализа данных» (CRoss Industry Standard Process for Data Mining, CRISP-DM, https://www.datascience-pm.com/crisp-dm-2/ ), Вторым и третьим этапами этого процесса являются «Понимание данных» и «Подготовка данных», и оба они имеют критически-важное значение для создания проекта, у которого высокое качеством данных.
Википедия: Шесть этапов CRISP-DM, https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
Генеральный директор фирмы IBM Арвинд Кришна (Arvind Krishna, https://www.ibm.com/about/arvind ) отмечает, что подготовка данных сложна; и основной причиной, по которой отменяются ИИ-проекты, является это сложность подготовки качественных данных ( https://www.wsj.com/articles/data-challenges-are-halting-ai-projects-ibm-executive-says-11559035800?mod=djemCIO ). Кришна сказал, что у многих компаний «по ходу процесса заканчивается терпение, потому что они тратят свой первый год только на сбор и очистку данных. И они говорят: «Эй, подождите, а где же искусственный интеллект? Мы не получаем отдачи». И они как бы отказываются от этого».
Дик Вейсингер (Dick Weisinger)
Источник: блог компании Formtek
https://formtek.com/blog/artificial-intelligence-data-quality-can-make-or-break-an-ai-project/
Здравствуйте, Наталья Александровна!
ОтветитьУдалитьПрошу простить, что пишу не по теме вашей публикации, но не написать не могу...
Я совершенно случайно зашел на вашу страницу здесь спустя, наверное лет 10 (с тех пор как я ушел из Directum, я практически перестал обращаться к теме ECM) и был невероятно (и очень приятно!) удивлен тем, что ваш блог не только не прекратил своего существования (а эта участь постигла подавляющее большинство известных мне ресурсов в области документооборота и управления информацией), но продолжает оставаться самым крупным агрегатором новостей в области управления документами во всем русскоязычном интернете.
И пусть лично мы с вами не знакомы (а пересекались лишь на страницах ecm-journal.ru), я был очень рад узнать что вы всё так же полны творческих сил и (еще раз выскажу свое восхищение!!!) продолжаете этот уникальный проект.
Удачи вам во всем!
Михаил, добрый день,
УдалитьК сожалению Ваш комментарий автомат пометил как спам и он не был оперативно размещен , а я только сегодня это заметила.
Спасибо большое за теплые слова о блоге Мне очень приятно это читать. Да, мой блог развивается, он сейчас крупнейший в мире по тематике управления информацией и документами.