понедельник, 4 мая 2020 г.

Предварительная подготовка данных: Неблагодарные, но необходимые 80% всей работы, без которых тормозится аналитическая часть работы


Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 15 апреля 2020 года на блоге компании Formtek.

Принцип «мусор на входе – мусор на выходе» (GIGO, Garbage In, Garbage Out, см. https://en.wikipedia.org/wiki/Garbage_in,_garbage_out ) - попросту говоря, означает, что анализ и принятие решений на основе плохих, не прошедших предварительную обработку данных или информации обязательно приведут к ошибочным результатам.

Потребность в точных данных (см. https://www.talend.com/resources/what-is-data-preparation/ ) становится все более насущной по мере того, как коммерческие организации внедряют инструменты, основанные на искусственном интеллекте, бизнес-аналитике и больших данных. Предварительная подготовка данных представляет собой процесс очистки данных перед передачей их на обработку и анализ. Подготовка данных включает преобразование и переформатирование данных, внесение в них исправлений и объединение данных с целью обогащения исходных данных.

Директор по исследованиям службы программного обеспечения для интеграции и обеспечения целостности данных (Data Integration and Integrity Software) в фирме IDC Стюарт Бонд (Stewart Bond, https://www.idc.com/getdoc.jsp?containerId=PRF004450 ) полагает, что «Дело здесь в сложности сред данных в наше время. Существует множество различных типов данных: транзакционные данные, мастер-данные, данные социальных сетей, структурированные данные, неструктурированные данные, данные журналов аудита, графические данные. Существуют различные типы данных, и различные типы технологических решений, в которых эти данные хранятся» (см. https://www.cio.com/article/3449897/data-preparation-tools-your-analytics-strategys-secret-weapon.html?upd=1582133550164 ).

Снабжение наборов данных метаданными может сделать данные более полезными и способствовать «интеллектуальному анализу данных» (data intelligence). По словам Бонда, «знать, где находятся данные, что они означают, кто их использует, кто может получить к ним доступ, почему у нас имеются эти данные, как долго нам следует их хранить и как люди используют эти данные – это важные информация и знания (intelligence)».

В опубликованном в 2016 году отчёте CrowdFlower / Figure-Eight (см. https://visit.figure-eight.com/data-science-report.html - прямая ссылка http://www2.cs.uh.edu/~ceick/UDM/CFDS16.pdf - Н.Х.) было показано, что на подготовку данных приходится около 80% времени, затрачиваемого аналитиками. С тех пор эта статистика стала канонической и часто цитируется - и, несмотря на появление новых инструментов подготовки данных, трудозатраты на предварительную подготовку данных по-прежнему остаются препятствием, которое необходимо пройти, прежде чем можно будет приступить к реальному анализу данных.

Дик Вейсингер (Dick Weisinger)

Источник: блог компании Formtek
http://formtek.com/blog/data-prep-the-80-drudge-factor-holding-back-analytics/

Комментариев нет:

Отправка комментария