跳到主要内容 跳到补充内容

数据漂移

随着时间的推移,模型的准确性可能会下降,因为一个或多个特性中的数据在分布、大小和其他属性上会发生变化。因为原始模型是用包含特定模式和分布的特性训练的,所以这些分布的未来变化将影响预测的精度和质量。

可以量化数据漂移,并且可以通过多种方式计算数据漂移。在 Qlik AutoML 中,数据漂移用群体稳定性指数公式计算。请参阅监控已部署模型中的数据漂移

最佳实践是通过将原始训练数据集与生成预测的最新应用数据集进行比较来监控模型的数据漂移。当数据漂移达到特定阈值时,重新训练模型,或者如果原始机器学习问题发生了实质性变化,则配置新模型。

有关评估模型性能随时间变化的更多信息,请参阅评估模型随时间变化的性能

示例

假设一家公司有一套主要受 45 岁及以上消费者欢迎的产品。特性 Age 的值分布可能如下。

条形图,显示公司销售的产品对 45 岁以上的消费者更具吸引力。

条形图,显示了公司推出新产品之前按年龄划分的产品购买分布。

最近,该公司推出了一款新产品,该产品也吸引了更年轻的消费者。当产品按预期销售时,我们看到特性 Age 发生了显著的特性漂移。

条形图,显示了公司销售分布比较均匀,公司销售对所有年龄段的消费者更具吸引力。

条形图,显示了公司推出新产品之后按年龄划分的产品购买分布。

AutoML 中的数据漂移监控

AutoML 具有内置工具,可帮助您在部署的模型中按每个特性检测数据漂移。有关更多信息,请参阅监控已部署模型中的数据漂移

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!