Доверяете ли Вы своим данным? Обрабатывать данные средствами аналитики данных, машинного обучения и других инструментов искусственного интеллекта становится всё проще, - но если сами данные ошибочны, устарели или неполны, то такое упражнение может стать классическим примером ситуации «мусор на входе, мусор на выходе».
Опрос, проведенный фирмой Corinuim Intelligence (см. https://www.precisely.com/blog/data-integrity/data-integrity-major-concern-for-organizations ) в июне 2021 года показал, что 80% руководителей высшего звена обеспокоены качеством используемых в их проектах данных, и что они столкнулись с тем, что сложно часто обновлять и очищать данные с целью поддержания точности, согласованности и контекста.
Старший директор-аналитик фирмы Gartner Мелоди Чиен (Melody Chien, https://www.gartner.com/analyst/62722/Melody-Chien ) отмечает, что «качество данных напрямую связано с качеством принимаемых решений. Данные хорошего качества обеспечивают лучшие «подсказки», лучшее понимание клиентов и лучшие взаимоотношения с клиентами. Качество данных - это конкурентное преимущество, которое руководители служб данных и аналитики (data and analytics, D&A) должны постоянно усиливать» ( https://www.gartner.com/smarterwithgartner/how-to-improve-your-data-quality ).
Генеральный директор компании Superconductive Абэ Гун (Abe Gong, https://www.linkedin.com/in/abe-gong-8a77034/ ) говорит, что «низкое качество данных и недостатки конвейера обработки данных (pipeline debt – речь идёт в основном о недокументированности, непротестированности и нестабильности – Н.Х.) создают организационные трения между заинтересованными сторонами с такими последствиями, как снижение доверия. Качество данных имеет критически-важное значение для того, чтобы с уверенностью принимать решения в рамках всей организации, обеспечивая единое понимание того, что означают эти данные и для чего они используются». ( https://insidebigdata.com/2022/06/18/great-expectations-study-reveals-77-of-organizations-have-data-quality-issues/ ).
Какие проблемы с качеством данных являются наиболее типичными? (см. https://www.collibra.com/us/en/blog/the-7-most-common-data-quality-issues ):
- Дублирующиеся данные. Перекрывающиеся и повторяющиеся данные, собранные из нескольких баз данных и приложений, способны исказить результаты аналитики.
- Неточности. Ошибки ввода данных и постепенное снижение точности данных с течением времени могут привести к потере целостности данных.
- Неоднозначности. Орфографические ошибки и некорректное слияние данных из нескольких источников являются примерами проблем, способных привести к дефектным данным.
- Скрытые данные. Данные могут быть собраны, но при этом оказаться недоступными для аналитики.
Дик Вейсингер (Dick Weisinger)
Источник: блог компании Formtek
https://formtek.com/blog/data-quality-the-critical-factor-for-analytics-success/
Комментариев нет:
Отправить комментарий