Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 8 февраля 2022 года на блоге компании Formtek.
Сколько данных Вам нужно для получения хороших результатов машинного обучения?
Ответ заключается в том, что всё зависит от обстоятельств. Многое зависит от сложности Вашей проблемы и от алгоритма машинного обучения, который Вы используете для её решения. Например, если Ваш алгоритм является линейным, то Вам потребуется гораздо меньше точек данных, чем если бы Вы пытались решить проблему с помощью нелинейного алгоритма.
При попытке определить нужный Вам размер выборки данных, наилучший подход заключается в том, чтобы оказаться на равном удалении от противоположных опасностей чрезмерного и недостаточного обучения.
Основатель сообщества «Мастерство машинного обучения» (Machine Learning Mastery) Джейсон Браунли (Jason Brownlee, https://www.linkedin.com/in/jasonbrownlee/?originalSubdomain=au ) объясняет, что «как правило, все знают, что недостаточное количество обучающих данных приводит к плохой аппроксимации. Модель с чрезмерными ограничениями окажется недообученной при использовании небольшого набора обучающих данных, тогда как в случае модели с малым числом ограничений, скорее всего, объём обучающих данных окажется избыточным, - и то, и другое приведёт к низким показателям эффективности. Слишком малый объём тестовых данных приведёт к оптимистичной, с высокой дисперсией, оценке эффективности модели» ( https://machinelearningmastery.com/impact-of-dataset-size-on-deep-learning-model-skill-and-performance-estimates/ ).
Машинное обучение алгоритмов для обработки изображений известно огромными наборами тестовых графических данных, которые необходимы для проведения обучения при решении таких задач, как распознавание образов на фотографиях. Однако некоторые проекты машинного обучения сообщают, что для других типов задач требуются гораздо меньшие наборы данных.
Группа исследователей из Университета Альберты (University of Alberta, https://techxplore.com/news/2021-07-machine-applications-assumed.html ) сообщила, что их алгоритм машинного обучения для предсказания молекулярной структуры требует гораздо меньше данных для достижения хороших результатов, чем они изначально ожидали. Многие из использованных исследователями моделей показали хорошие результаты в предсказании молекулярных типов после использования небольшого количества обучающих данных.
Фактором, о котором часто не упоминается в отчётах о результатах машинного обучения, является качество используемых данных. Данные более высокого качества могут позволить получить хорошие результаты при меньшем количестве точек данных.
Директор по технологиям компании Curai Ксавье Аматриайн (Xavier Amatriain, https://www.linkedin.com/in/xamatriain/ ) говорит, что «важно отметить, что чем качественнее данные, тем лучше. Против этого не поспоришь. Как следствие, любые усилия, которые Вы можете направить на «совершенствование» Ваших данных, всегда являются хорошими инвестициями. Дело в том, что более высокое качество данных не означает большие объёмы данных. На самом деле, иногда эти объёмы могут оказаться меньше!» ( https://www.kdnuggets.com/2015/06/machine-learning-more-data-better-algorithms.html ).
Дик Вейсингер (Dick Weisinger)
Источник: блог компании Formtek
https://formtek.com/blog/machine-learning-better-data-is-always-better/
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий