数据漂移
随着时间的推移,模型的准确度可能会下降,因为一个或多个特性中的数据在分布、量级和其他属性上发生了变化。由于原始模型是使用包含特定模式和分布的特性进行训练的,因此这些分布的未来变化将影响预测的精确度和质量。
数据漂移可以被量化,并且可以通过多种方式进行计算。在 Qlik Predict 中,数据漂移是使用群体稳定性指数公式计算的。请参阅 监控已部署模型中的数据漂移。
最佳实践是通过将原始 训练数据集 与生成预测所基于的最新 应用数据集 进行比较,来监控模型的数据漂移。当数据漂移达到特定阈值时,重新训练模型,或者如果原始机器学习问题发生了实质性变化,则配置新模型。
有关随着时间的推移评估模型性能的更多信息,请参阅 评估模型随时间变化的性能。
示例
假设一家公司有一系列产品,这些产品主要受 45 岁及以上消费者的欢迎。特性 年龄 的值分布可能如下所示。
条形图表显示公司销售额对 45 岁以上的消费者更具吸引力。

最近,该公司推出了一款新产品,其营销旨在吸引年轻消费者。当产品按预期销售时,我们看到特性 年龄 出现了显著的特性漂移。
条形图表显示公司销售额分布更加均匀,公司销售额对所有年龄段的消费者具有同等吸引力。

Qlik Predict 中的数据漂移监控
Qlik Predict 具有内置工具,可帮助您在已部署的模型中按特性检测数据漂移。有关更多信息,请参阅 监控已部署模型中的数据漂移。