选择您的最佳模型
在分析实验结果时,重要的是要寻找具有特定特征的模型,这些特征对您的用例很重要。例如,除了始终如一的准确预测外,您可能还需要能够快速提供预测的模型。在实验的模型选项卡中,根据多个分析角度向您推荐模型。
分析实验的最优模型
根据您的筛选器,推荐的模型可以帮助您考虑几个不同的质量观点。单个模型可能在多个方面被视为最优模型。最优模型类型包括:
在用户界面中查看最优型号
有关查找和探索实验最优模型的信息,请参阅分析模型指标表。
最佳模型
根据您的筛选器,会自动选择最佳模型进行分析。最佳模型用 图标突出显示。
在 Qlik Predict 中,最佳模型是通过平衡计算确定的,该计算考虑了准确度指标和预测速度。
为了确定最佳模型,会自动执行以下过程:
-
选择通过模型类型确定的预测性能指标得分最高的模型。使用的指标为:
-
二元分类:F1
-
多类分类:F1 宏。
-
回归:R2
-
时间序列:MASE(若 MASE 不可用,则为 MAE)
-
-
使用步骤 1 中的性能得分,选择与得分最高模型的得分差距在 5% 以内的全部模型。
-
在所有选定的模型中,选择预测速度最快的模型(参见预测速度)。这个模型是最优的模型。
最准确
重要的是,您的模型能够持续生成准确度较高的预测结果。尽管 F1、F1 宏和 R2 提供了全面反映模型准确度的平衡评分,但您可能也对模型的原始准确度和精确度指标感兴趣。
最准确的模型用 图标突出显示。为了确定最准确的模型,会自动执行以下过程:
-
选择通过模型类型确定的预测性能指标得分最高的模型。使用的指标为:
-
使用步骤 1 中的性能得分,选择与得分最高模型的得分差距在 10% 以内的所有模型。
-
根据模型类型,使用以下两种途径之一:
最快的模型
在选择模型时,您可能比较重视模型提供预测的速度。最快模型用 图标突出显示。
预测速度决定了哪个模型最快。然而,模型的预测准确度仍需考虑。这是因为模型也许能够快速生成预测,但它也必须能够以合理的精度进行预测。
为了确定速度最快的模型,会自动执行以下过程:
-
选择通过模型类型确定的预测性能指标得分最高的模型。使用的指标为:
-
根据模型类型,使用以下途径之一:
-
在所有选定的模型中,选择预测速度最快的模型(参见预测速度)。这个模型是速度最快的模型。
预测速度
预测速度是一种适用于所有模型类型的模型度量:二元分类、多类分类、回归和时间序列。预测速度衡量机器学习模型生成预测的速度。
在 Qlik Predict 中,使用组合特征计算时间和测试数据集预测时间来计算预测速度。它以每秒行数为单位显示。
运行实验版本后,可在模型指标表中分析预测速度。在使用嵌入式分析来分析模型时,您还可以查看预测速度数据。有关更多信息,请参阅:
注意事项
测量的预测速度基于训练数据集的大小,而不是基于进行预测所用的数据。部署模型后,如果训练数据和预测数据的大小相差很大,或者在一个或少数几个数据行上创建实时预测时,您可能会注意到创建预测速度之间的差异。
过度拟合
当模型的预测行为与训练数据集的映射过于紧密时,就会发生过度拟合。当一个模型被过度拟合时,它可能只记住了训练数据集中的模式,无法准确预测未来的值。
过度拟合可能有几个原因,包括与训练算法相关的问题以及训练数据集太短或过于复杂。
在 Qlik Predict 中,通过分析顶级模型选择过程中使用的所有指标(预测速度除外)的测试训练结果,自动识别过度拟合:
如果在比较测试和训练结果时,这些指标之间的差异超过 10%,则模型疑似被过度拟合。
如果一个模型被怀疑过度拟合,即使它得分很高,也永远不会被作为推荐模型。该模型在模型指标表中标记有警告 。
如果怀疑筛选器中显示的所有模型都过度拟合,则不提供模型建议。