суббота, 29 июля 2023 г.

Очистка данных: То, как Вы очищаете свои данные, может изменить Ваши результаты

Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 21 июня 2023 года на блоге компании Formtek.

Изощрённое, комплексное использование данных позволяет компаниям получать знания и представления, делать прогнозы и анализировать поведение клиентов. В ходе опросов компании часто оценивают данные как высоко ценимые предприятиями и организациями активы. 81% опрошенных говорят, что данные способны помочь их компании быть успешной, а 75% считает, что данные имеют решающее значение для осуществления инноваций (см. https://www.splunk.com/en_us/campaigns/data-age.html ).

Однако использование необработанных первичных данных для аналитики может привести к неверным прогнозам – как говорится, «мусор на входе, мусор на выходе». Все методы, которые в сильной степени полагаются на обработку данных, такие как аналитика данных, бизнес-аналитика и машинное обучение, подчёркивают, что наилучшие результаты достигаются в том случае, когда проводится очистка данных и их «вычищение» с целью обеспечения точности.

Статистическое управление Европейской комиссии (Евростат) отмечает, что «не проведение очистки данных может привести к ряду проблем, включая ошибки связывания, неправильные спецификации моделей, ошибки в оценке параметров и некорректный анализ, вследствие которого пользователи будут делать ложные выводы» (см. https://ec.europa.eu/eurostat/cros/system/files/s-dwh-m_4.1_methodology_data_cleaning_v2.pdf ).

С другой стороны, понятие «чистых» данных в определённой степени субъективно, и выбранный способ очистки данных может радикально изменить результаты анализа и машинного обучения, проведенных на основе этих данных. В статистике взаимосвязь предпринятых для очистки данных шагов с конечными результатами называется «степенями свободы исследователя».

Джозеф Симмонс (Joseph Simmons) с соавторами исследовал идею «степеней свободы» при очистке данных (см. https://journals.sagepub.com/doi/full/10.1177/0956797611417632 ). «В ходе сбора и анализа данных исследователям приходится принимать множество решений: Нужно ли собрать больше данных? Следует ли исключить некоторые наблюдения? Какие условия следует совмещать, а какие сравнивать? Какие управляющие параметры следует учитывать? Должны ли конкретные меры комбинироваться и/или трансформироваться? Исследователи редко принимают все эти решения заранее, а иногда принятие решений заранее оказывается непрактичным. Скорее, для исследователей является обычным делом (и общепринятой практикой) изучение различных альтернативных способов анализа в поисках комбинации, которая обеспечит «статистическую значимость», - и затем сообщать только о том, что «сработало». Проблема, конечно же, заключается в том, что вероятность того,  хотя бы один (из многих) видов анализа будет выдавать ложноположительное результаты с вероятностью 5%, обязательно превышает 5%».

Дик Вейсингер (Dick Weisinger)

Источник: блог компании Formtek
https://formtek.com/blog/data-cleansing-degrees-of-freedom-in-cleaning-data-can-manipulate-results/

Комментариев нет:

Отправить комментарий