监控已部署模型中的数据漂移
在 ML 部署的数据漂移监控窗格中,可以分析源部署模型的数据漂移。通过数据漂移监控,您可以识别用于训练模型的一个或多个特性的分布的变化。
当计算出的特性漂移超过 0.25 时,建议您使用最新数据重新训练模型,或者如果原始机器学习问题发生了显著变化,则配置新模型。
AutoML 中的数据漂移计算
在 Qlik AutoML 中,数据漂移计算为群体稳定性指数 (PSI)。
您可以通过查看特性的 PSI 值来识别其显著的数据漂移。如果 PSI 值大于或等于 0.25,请考虑重新训练模型或创建新的实验。
PSI 值 | 描述 |
---|---|
低于 0.1 | 低漂移 |
大于 0.1 但小于 0.25 | 轻微漂移 |
大于或等于 0.25 | 显著漂移 |
启动数据漂移分析
执行以下操作:
-
打开 ML 部署。
-
从左侧面板中,选择数据漂移监控。
-
即会生成嵌入式分析。留在 Feature Drift 工作表上进行数据漂移分析。
分析的可用性
打开分析时,不会立即生成新的数据漂移计算。数据漂移计算每天在 UTC 下午 4:30 生成一次。
导航嵌入式分析
使用交互式界面以使用嵌入式分析来分析已部署模型。
在工作表之间切换
工作表面板允许您在分析中的工作表之间切换。每张工作表都有一个特定的焦点。面板可以根据需要展开和折叠。
Feature Drift 工作表包含有关数据漂移的所有信息。切换到 Operations 工作表后,您可以监控 ML 部署的使用情况。有关更多信息,请参阅监控已部署模型的运行情况。
选择选择项
使用 选择来优化数据。您可以选择特性及其特定值或范围,并筛选特定日期和重要性范围。在某些情况下,您可能需要做出一个或多个选择才能显示可视化效果。单击可视化中的数据值进行选择。
您可以通过以下方式处理选择:
-
通过单击内容、定义范围和绘图来选择值。
-
在图表中搜索以选择值。
-
单击嵌入式分析顶部工具栏中的选定字段。这允许您在现有选择项中搜索、锁定或解锁它们,并进一步修改它们。
-
在嵌入式分析顶部的工具栏中,单击 以删除选择。单击 图标清除所有选择。
-
通过单击 和 ,在选择中前进和后退。
分析特性漂移与重要性
结合 Feature drift vs importance 图表分析特性漂移和排列重要性。您可以识别漂移的变化何时与重要性模式的变化同时发生。将这两个指标放在一起查看,您可以发现新出现的模式,并更深入地了解影响数据的趋势。
要了解漂移分数对模型性能的影响,请参阅AutoML 中的数据漂移计算。
监控随时间推移的特性漂移
在 Feature drift over time 图表中,查看每个漂移计算的时间线,并在生成新预测时分析随时间发生的变化。
在 PSI 值 0.25 处添加了一条参考线,以指示特性何时出现显著漂移。要进一步了解漂移分数对模型性能的影响,请参阅AutoML 中的数据漂移计算。
查看特性分布
Value distribution 图表有助于比较训练数据集和用于通过模型生成的最新预测的数据集之间的特性的值分布。您可以确定特性中受漂移影响最大和最小的范围。
蓝色条表示最新应用数据集中落在每个范围内的值的百分比。紫色圆形标记显示了训练数据集中落在每个范围内的值的百分比。如果您注意到条形图的高度和标记的位置之间存在很大差异,则范围很可能受到漂移的影响。