评估模型随时间变化的性能
在您训练了许多机器学习模型并部署了最佳模型后,您将开始对生产数据创建预测。持续评估模型的性能非常重要,以确保它仍然生成可靠的预测,并且训练它所用的数据仍然具有相关性。
需要监控的重要因素
运行需求
您的预测性使用可能会随着时间的推移而改变。变化可以是微小的,也可以是明显的。您需要评估您的模型是否仍然以其当前配置提供价值。如果你的机器学习问题自你第一次训练模型以来发生了很大变化,建议你重新开始定义问题和数据集的过程。
输入数据和预测精度
输入数据的分布和趋势随时间变化很常见。曾经定义训练数据质量的内容可能不再相关,或者在影响上可能更加明显。您可能会发现,有一些影响预测结果的新变量需要作为新特性引入到您的模型中。同样,某些特性可能不再对模型中包含的结果做出足够大的贡献。
监控你的数据,了解你的初始训练数据和最新可用数据之间的漂移量,这一点很重要。如果某些特性的漂移开始达到不再可接受的阈值,那么是时候收集新数据并重新训练模型了,或者开始重新定义机器学习问题。有关数据漂移的额外详细信息,请参阅数据漂移。
此外,如果您注意到模型不再像最初那样准确地预测,则需要重新评估需要改变什么才能使其恢复到可接受的性能。例如,您可能会发现模型准确性受到数据收集过程中发生的错误的影响。
重新训练模型
随着更多历史数据可用,无论您的性能是否下降,您都不可避免地需要重新训练模型以反映最新信息。
监控数据漂移
AutoML 具有内置功能,可帮助您检测已部署模型的特性漂移。有关更多信息,请参阅监控已部署模型中的数据漂移。
后续步骤
根据您的用例和输入数据的实质性变化,您可能需要考虑以下一个或多个因素:
-
使用新数据在同一实验中重新训练模型。如果您的机器学习问题没有实质性改变,这个选项具有几个好处。特别的优势在于,您可以在同一个实验中详细比较所有实验版本的模型。有关更多信息,请参阅更改和刷新数据集。
-
如果您最初定义的原始机器学习问题不再相关,那么完全创建一个新的实验可能是有意义的。这主要取决于您的使用情况。