Дрейф данных

Со временем точность вашей модели может снизиться, поскольку данные в одной или нескольких характеристиках меняются по распределению, величине и другим свойствам. Поскольку исходная модель обучалась на характеристиках, содержащих определенные шаблоны и распределения, будущие изменения этих распределений повлияют на прецизионность и качество прогнозов.

Дрейф данных можно количественно оценить и рассчитать несколькими способами. В Qlik Predict дрейф данных рассчитывается по формуле индекса стабильности популяции. См. Мониторинг дрейфа данных в развернутых моделях.

Рекомендуется отслеживать дрейф данных в модели, сравнивая исходный набор данных для обучения с самым актуальным набором данных для применения, на котором вы генерируете прогнозы. Когда дрейф данных достигает определенного порога, переобучите модель или настройте новую модель, если ваша исходная задача машинного обучения существенно изменилась.

Для получения дополнительной информации об оценке производительности модели с течением времени см. Оценка эффективности модели с течением времени.

Пример

Предположим, у компании есть набор продуктов, которые, как было установлено, популярны в основном среди потребителей в возрасте 45 лет и старше. Распределение значений для характеристики Age может выглядеть следующим образом.

Столбчатая диаграмма, показывающая распределение покупок продуктов по возрасту до того, как компания представила новый продукт. В этом случае распределение возрастных частот показывает, что продажи привлекательны в основном для взрослых 45 лет и старше. — Столбчатая диаграмма, показывающая, что продажи компании более привлекательны для потребителей старше 45 лет.

Недавно компания представила новый продукт, который продается с целью привлечения и более молодых потребителей. Когда продукт продается так, как ожидалось, мы видим значительный дрейф характеристики для характеристики Age.

Столбчатая диаграмма, показывающая распределение покупок продуктов по возрасту после того, как компания представила новый продукт. В этом случае распределение возрастных частот сместилось от продаж, привлекательных в основном для взрослых 45 лет и старше, к более равномерно распределенной популярности среди всех возрастных групп. — Столбчатая диаграмма, показывающая более равномерное распределение продаж компании, при котором продажи компании в равной степени привлекательны для потребителей всех возрастов.

Мониторинг дрейфа данных в Qlik Predict

Qlik Predict имеет встроенные инструменты, которые помогут вам обнаружить дрейф данных на уровне каждой характеристики в ваших развернутых моделях. Для получения дополнительной информации см. Мониторинг дрейфа данных в развернутых моделях.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь