Дрейф данных
Со временем точность модели может снижаться, поскольку данные в одном или нескольких признаках меняются с точки зрения распределения, величины и других свойств. Поскольку исходная модель обучалась с использованием признаков, которые содержат определенные закономерности и распределения, будущие изменения этих распределений будут влиять на точность и качество прогнозов.
Дрейф данных можно оценить количественно и рассчитать несколькими способами. В Qlik AutoML дрейф данных рассчитывается с помощью формулы индекса устойчивости популяции. См. Мониторинг дрейфа данных в развернутых моделях.
Рекомендуется отслеживать модель на наличие дрейфа данных путем сравнения исходного набора данных для обучения с самым последним набором данных для применения, на основе которого генерируются прогнозы. Когда дрейф данных достигает определенного порога, переобучите модель или настройте новую модель, если первоначальная задача машинного обучения существенно изменилась.
Для получения дополнительной информации об оценке эффективности модели с течением времени см. в разделе Оценка эффективности модели с течением времени.
Пример
Предположим, у компании есть набор продуктов, которые, судя по данным, пользуются популярностью, главным образом, у потребителей в возрасте 45 лет и старше. Распределение значений для признака Возраст может выглядеть следующим образом.
Недавно компания представила новый продукт, который позиционируется как товар, который также будет интересен и более молодым потребителям. Когда продукт продается, как и ожидалось, мы видим значительный дрейф данных для признака Возраст.
Мониторинг дрейфа данных в AutoML
В AutoML есть встроенные инструменты, которые помогают обнаружить дрейф данных на основе признака в развернутых моделях. Для получения дополнительной информации см. раздел Мониторинг дрейфа данных в развернутых моделях.