Перейти к основному содержимому Перейти к дополнительному содержимому

Дрейф данных

Со временем точность модели может снижаться, поскольку данные в одном или нескольких признаках меняются с точки зрения распределения, величины и других свойств. Поскольку исходная модель обучалась с использованием признаков, которые содержат определенные закономерности и распределения, будущие изменения этих распределений будут влиять на точность и качество прогнозов.

Дрейф данных можно оценить количественно и рассчитать несколькими способами. В Qlik AutoML дрейф данных рассчитывается с помощью формулы индекса устойчивости популяции. См. Мониторинг дрейфа данных в развернутых моделях.

Рекомендуется отслеживать модель на наличие дрейфа данных путем сравнения исходного набора данных для обучения с самым последним набором данных для применения, на основе которого генерируются прогнозы. Когда дрейф данных достигает определенного порога, переобучите модель или настройте новую модель, если первоначальная задача машинного обучения существенно изменилась.

Для получения дополнительной информации об оценке эффективности модели с течением времени см. в разделе Оценка эффективности модели с течением времени.

Пример

Предположим, у компании есть набор продуктов, которые, судя по данным, пользуются популярностью, главным образом, у потребителей в возрасте 45 лет и старше. Распределение значений для признака Возраст может выглядеть следующим образом.

Линейчатая диаграмма, на которой отображены продажи продуктов компании, больше интересующие покупателей старше 45 лет.

Линейчатая диаграмма, на которой изображено распределение покупок товаров по возрасту до того, как компания представила новый продукт.

Недавно компания представила новый продукт, который позиционируется как товар, который также будет интересен и более молодым потребителям. Когда продукт продается, как и ожидалось, мы видим значительный дрейф данных для признака Возраст.

Линейчатая диаграмма, на которой показаны продажи компании, распределенные более равномерно, поскольку привлекают потребителей всех возрастов.

Линейчатая диаграмма, на которой изображено распределение покупок товаров по возрасту после того, как компания представила новый продукт.

Мониторинг дрейфа данных в AutoML

В AutoML есть встроенные инструменты, которые помогают обнаружить дрейф данных на основе признака в развернутых моделях. Для получения дополнительной информации см. раздел Мониторинг дрейфа данных в развернутых моделях.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!