数据漂移 | Qlik Cloud帮助
跳到主要内容 跳到补充内容

数据漂移

随着时间的推移,模型的准确度可能会下降,因为一个或多个特性中的数据在分布、量级和其他属性上发生了变化。由于原始模型是使用包含特定模式和分布的特性进行训练的,因此这些分布的未来变化将影响预测的精确度和质量。

数据漂移可以被量化,并且可以通过多种方式进行计算。在 Qlik Predict 中,数据漂移是使用群体稳定性指数公式计算的。请参阅 监控已部署模型中的数据漂移

最佳实践是通过将原始 训练数据集 与生成预测所基于的最新 应用数据集 进行比较,来监控模型的数据漂移。当数据漂移达到特定阈值时,重新训练模型,或者如果原始机器学习问题发生了实质性变化,则配置新模型。

有关随着时间的推移评估模型性能的更多信息,请参阅 评估模型随时间变化的性能

示例

假设一家公司有一系列产品,这些产品主要受 45 岁及以上消费者的欢迎。特性 年龄 的值分布可能如下所示。

条形图表显示公司销售额对 45 岁以上的消费者更具吸引力。

在公司推出新产品之前按年龄显示产品购买分布的条形图表。在这种情况下,年龄频率的分布显示销售主要吸引 45 岁及以上的成年人。

最近,该公司推出了一款新产品,其营销旨在吸引年轻消费者。当产品按预期销售时,我们看到特性 年龄 出现了显著的特性漂移。

条形图表显示公司销售额分布更加均匀,公司销售额对所有年龄段的消费者具有同等吸引力。

在公司推出新产品之后按年龄显示产品购买分布的条形图表。在这种情况下,年龄频率的分布已经从主要吸引 45 岁及以上成年人的销售,转变为在所有年龄段中分布更加均匀的受欢迎程度。

Qlik Predict 中的数据漂移监控

Qlik Predict 具有内置工具,可帮助您在已部署的模型中按特性检测数据漂移。有关更多信息,请参阅 监控已部署模型中的数据漂移

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!