异常检测和处理
使用智能模型优化时,提供异常检测和处理。有了这些功能,Qlik AutoML可以通过特定的处理自动处理训练数据中的异常值。在训练过程中,训练数据中的异常数据不会被完全删除,而是使用基于算法的加权系统进行处理。
在几乎所有可以处理的数据中,都会观察到异常值或异常。异常是发生在您可能期望的常规预期范围之外的数据值。在训练机器学习模型时,可以容忍一定比例的异常,甚至可以是真实世界偏差的反映。然而,在极端情况下,异常和异常值会将偏差引入模型,降低其可靠性和有用性。
示例
并非所有异常都应得到同等对待,也不应总是被视为从数据中删除的内容。例如,如果数据异常是在收集数据时可以观察到的应当会存在但不常见的情况,那么您希望在训练的模型中使用它可能是合理的。一个很好的例子是金融交易中的欺诈行为。在数以百万计的交易中,只有少数可能与欺诈有关。根据您想用模型分析和解决的问题,在生成预测时,您可能希望考虑日常交易中的欺诈概率。
您可能希望删除的异常的一个例子是在收集数据时意外发生的故障。例如,假设您正在构建一个用于预测天气模式的模型您的模型正在根据监测天气指标的传感器的数据进行训练,而无关的停电会导致从传感器收集到错误的数据。这种错误数据可能被视为异常数据,您希望在完成模型训练之前将其删除。
Qlik AutoML 如何处理异常?
当您使用智能模型优化训练模型时,会执行异常检测和处理,在新实验中默认打开智能模型优化。
异常的处理通常可以认为发生在两个单独的过程中:检测和实际模型训练。
异常检测
当您运行训练版本时,AutoML 会在模型训练开始前完成几个步骤。这包括数据分类、零插补和许多其他过程。异常检测在此阶段完成,并且只有在打开智能模型优化时才能完成。
从技术上讲,Qlik AutoML 使用基于决策树的算法,即隔离林算法,来检测训练数据中的异常和异常值。在智能模型优化的数据处理阶段,数据集中的每个数据点(通常称为记录)都会被分配一个异常分数,并根据其异常的确定程度进行加权。
模型训练中的异常处理
在对数据进行必要的处理和转换后,AutoML 开始训练模型。在此过程中,使用之前生成的加权异常分数来调整每行对模型的影响。例如,被认为极有可能包含异常的行对模型训练的影响较小。
这种加权评分系统使 AutoML 可以避免丢弃数据,而只是减少异常数据对模型的影响。
注意事项
尽管 Qlik AutoML具有异常检测功能,但这并不意味着任何数据都可以用于训练高质量的模型。如果您的数据包含异常大比例的错误或损坏信息,异常检测无法解决所有这些问题。
在这些情况下,建议您返回数据收集过程,以确保您拥有最高质量和最真实的数据。这将帮助您优化机器学习模型的可靠性和成功率。