Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 19 августа 2022 года на блоге компании Formtek.
Качество данных является одним из наиболее важных условий, необходимых для получения полезных ответов на основе использования алгоритмов больших данных, аналитики данных, бизнес-аналитики и искусственного интеллекта, - но его часто считают «оперативным» параметром, и ему не уделяется того внимания, которого оно по праву заслуживает.
Согласно оценке, приведенной в исследовании, проведённом фирмой PwC (см. https://www.wsj.com/articles/ai-efforts-at-large-companies-may-be-hindered-by-poor-quality-data-11551741634 ), высококачественные «чистые» данные могут сэкономить коммерческим компаниям 33% средств в их проектах, связанных с интенсивным использованием данные, и могут помочь этим компаниям увеличить на одну треть денежные поступления.
Президент компании Data Quality Solutions Том Редман (Tom Redman, http://dataqualitysolutions.com/meet-the-data-doc ) говорит: «Качество данных - это всё. Во-первых, если Вы используете существующие данные для обучения модели и не выполните действительно хорошую работу по их очистке, то получите плохую модель. Даже если [созданная Вами] модель хороша, если Вы подадите на её вход неверные данные, то просто получите плохой результат. Если всё это начинает складываться, то возникает что-то вроде каскада, и проблема быстро выходит из-под контроля» (см. https://www.automationworld.com/process/iiot/article/21142129/much-ado-about-data-quality ).
Качество данных важнее их количества. Исследователи из Массачусетского технологического института и компании Amazon обнаружили, что «традиционно специалисты по машинному обучению выбирают, какую модель развертывать, основываясь на точности тестов - и на основе наших результатов мы рекомендуем здесь проявлять осторожность… Небольшой рост доли первоначально неверно отмаркированных тестовых данных может дестабилизировать рейтинги машинного обучения, указывая на то, что модели малой ёмкости могут показать себя лучше моделей высокой ёмкости в зашумленных реальных приложениях… Этот разрыв увеличивается по мере увеличения количества изначально неверно отмаркированных тестовых данных». (см. https://arxiv.org/pdf/2103.14749.pdf?mc_cid=14ae732089&mc_eid=7da3941d81 ).
Преподаватель бизнес-школы Коркского университета (Cork University) Тадг Нэгл (Tadhg Nagle, https://www.cubsucc.com/faculty-directory/dr-tadhg-nagle/ ) , написал в «гарвардском деловом обозрении» (Harvard Business Review, см. https://hbr.org/2017/09/only-3-of-companies-data-meets-basic-quality-standards ), что «даже если данные как таковые Вас не очень беспокоят, Вы всё равно должны выполнять свою работу эффективно и результативно. Плохие данные - это показатель плохой работы, и [наше исследование показывает], что большинство данных - плохие. Если только у Вас нет веских доказательств обратного, руководители обязаны сделать вывод о том, что плохие данные отрицательно сказываются на их работе». По оценкам Нэгла, только 3% изученных ими наборов данных соответствуют «базовым стандартам качества».
Дик Вейсингер (Dick Weisinger)
Источник: блог компании Formtek
https://formtek.com/blog/artificial-intelligence-accurate-modeling-isnt-possible-without-data-quality/
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий