понедельник, 4 апреля 2022 г.

Предварительная обработка и очистка плохо упорядоченных и сложных данных

Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 15 февраля 2022 года на блоге компании Formtek.

Мой комментарий: Используемый автором термин data wrangling у нас трактуется как «подготовка данных для дальнейшей обработки и анализа данных, – очистка исходных данных и преобразование данных, хранящихся в произвольных форматах, в формат, требуемый для аналитических приложений» (см. https://www.multitran.com/m.exe?l1=1&l2=2&s=data%20wrangling )

Аналитика данных, машинное обучение, большие данные - все эти востребованные технологии основаны на интенсивном использовании данных. «Чистые» и точные данные во всех этих случаях являются ключом к получению хороших результатов, однако процессу очистки данных часто не уделяется должного внимания.

Термин «предварительная обработка и очистка данных» (data wrangling) часто используется для описания процесса очистки данных, преобразования первичных данных в формат, необходимый для последующей обработки, и удаления повторяющихся, устаревших, неполных и неактуальных данных.

Находящийся сейчас на пенсии бывший специалист по архивам в Национальных Архивах США (NARA) Марк Конрад (Mark Conrad) говорит, что «резкому росту наших возможностей по сбору данных пока ещё не соответствуют наши способности поддерживать, анализировать и управлять ими. Мы генерируем больше данных, чем можем прочитать или понять, и нам нужен способ обобщать и анализировать «правильные» данные, с тем, чтобы использовать эту информацию эффективно и действенно» ( https://gcn.com/articles/2018/11/14/data-wrangling.aspx ).

Статистическое управление Европейской комиссии – Евростат (Eurostat) - полагает, что «все источники данных потенциально содержат ошибки и пропущенные значения – и очистка данных устраняет эти аномалии. Непроведение очистки данных может привести к ряду проблем, включая ошибки связей, некорректную спецификацию модели, ошибки при оценке параметров и неправильные результаты анализа, в результате чего пользователи делают ложные выводы» (см. https://ec.europa.eu/eurostat/cros/system/files/s-dwh-m_4.1_methodology_data_cleaning_v2.pdf ).

Это процесс также не из тех, что можно провести один раз и закрыть вопрос. Почти все наборы данных подвержены деградации (data decay) и/или постепенной потере актуальности по мере того, как данные стареют и становятся всё менее репрезентативными в отношении к реальному миру. Деградация данных означает, что предварительная обработка и очистка данных должны повторно выполняться на регулярной основе.

Предварительная обработка и очистка данных играют ключевую роль для основанных на данных технологий. Один из первых евангелистов искусственного интеллекта Эндрю Нг (Andrew Ng, https://www.linkedin.com/in/andrewyng/ ) резюмировал это в своей статье для «Гарвардского делового обозрения» (Harvard Business Review, https://hbr.org/2021/07/ai-doesnt-have-to-be-too-complicated-or-expensive-for-your-business ), отметив, что «данные - это пища для ИИ, и современным системам ИИ нужны не только калории, но и высококачественное питание».

Дик Вейсингер (Dick Weisinger)

Источник: блог компании Formtek
https://formtek.com/blog/data-wrangling-refining-messy-and-complex-data/

Комментариев нет:

Отправить комментарий