среда, 6 мая 2020 г.

Качество данных: Плохое качество данных негативно сказывается на проектах в области искусственного интеллекта и аналитики


Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 16 апреля 2020 года на блоге компании Formtek.

Предварительная подготовка данных играет важнейшую роль для обеспечения эффективного использования таких опирающихся на данные инструментов, как аналитика данных, большие данные, машинное обучение и искусственный интеллект, как обсуждалось в моём предыдущем посте (см.  http://formtek.com/blog/data-prep-the-80-drudge-factor-holding-back-analytics/ ). Недавнее исследование фирмы О'Рейли (O’Reilly, https://www.oreilly.com/radar/the-state-of-data-quality-in-2020/ - исследование называется «Положение дел с качеством данных в 2020 году» (The state of data quality in 2020) – Н.Х.) подтверждает важность качества данных.

В подготовленном фирмой О'Рейли отчёте сделан вывод о том, что немногие из организаций, стремящихся к тому, чтобы их деятельность в большей степени направлялась данными, к этому готовы. Согласно результатам проведенного О'Рейли опроса, лишь перед очень немногими группами, действующими в рамках коммерческих структур, ставится задача обеспечивать качество данных. Авторы отчёта считают, что этот факт следует рассматривать как предупреждение о возможных в ближайшем будущем проблемах, поскольку в то время, как важность связанных с данными проектов возрастает, качество данных не успевает идти с ними в ногу.

По мере добавления всё большего количества источников данных во входящий поток подлежащих анализу данных, проблемы с несогласованностью и противоречивостью данных становятся всё более распространенными. Ожидается, что проблемы с данными усугубятся. В области стратегического управления данными (data governance), в которой многие или даже большинство компаний слабы, слабо поставлены создание и управление метаданными, документирование происхождение данных и их «родословной».

Организации, которые начали разрабатывать связанные с обеспечением качества данных процессы, обнаружили, что некоторые из тех же технологических инструментов, которые полагаются на исходные данные, таких, как искусственный интеллект и машинное обучение, сами могут быть использованы для предварительного выявления проблем с качеством данных. Почти половина из тех коммерческих организаций, что опробовали инструменты определения качества данных на основе искусственного интеллекта, сочла их полезными.

Старший директор по маркетингу компании Trifacta Уилл Дэвис (Will Davis, https://www.linkedin.com/in/willcmdavis/ ) считает, что «усилия в области искусственного интеллекта пока что остаются в основном «пробой пера» и часто предпринимаются в рамках очень небольших пилотных проектов, которыми легче управлять. Мы предполагаем, что по мере того, как организации начнут использовать ИИ для более крупных инициатив, и всё большее число связанные с искусственным интеллектом и машинным обучением проектов будет переноситься в облако, всё большее число организаций почувствует последствия низкого качества данных» (см. https://www.datanami.com/2020/01/23/room-for-improvement-in-data-quality-report-says/ ).

Дик Вейсингер (Dick Weisinger)

Источник: блог компании Formtek
http://formtek.com/blog/data-quality-poor-quality-impacts-ai-and-analytics-projects/

Комментариев нет:

Отправка комментария