跳到主要内容 跳到补充内容

选择您的最佳模型

在分析实验结果时,重要的是要寻找具有特定特征的模型,这些特征对您的用例很重要。例如,除了始终如一的准确预测外,您可能还需要能够快速提供预测的模型。在实验的模型选项卡中,根据多个分析角度向您推荐模型。

分析实验的最优模型

ML 实验中的“模型指标”表,其中最佳模型作为建议呈现

根据您的筛选器,推荐的模型可以帮助您考虑几个不同的质量观点。单个模型可能在多个方面被视为最优模型。最优模型类型包括:

在用户界面中查看最优型号

有关查找和探索实验最优模型的信息,请参阅分析模型指标表

最佳模型

根据您的筛选器,会自动选择最佳模型进行分析。最佳模型用 奖杯 图标突出显示。

Qlik Predict 中,最佳模型是通过平衡计算确定的,该计算考虑了准确度指标和预测速度。

为了确定最佳模型,会自动执行以下过程:

  1. 选择通过模型类型确定的预测性能指标得分最高的模型。使用的指标为:

    • 二元分类:F1

    • 多类分类:F1 宏。

    • 回归:R2

    • 时间序列:MASE(若 MASE 不可用,则为 MAE)

  2. 使用步骤 1 中的性能得分,选择与得分最高模型的得分差距在 5% 以内的全部模型。

  3. 在所有选定的模型中,选择预测速度最快的模型(参见预测速度)。这个模型是最优的模型。

最准确

重要的是,您的模型能够持续生成准确度较高的预测结果。尽管 F1、F1 宏和 R2 提供了全面反映模型准确度的平衡评分,但您可能也对模型的原始准确度和精确度指标感兴趣。

最准确的模型用 目标 图标突出显示。为了确定最准确的模型,会自动执行以下过程:

  1. 选择通过模型类型确定的预测性能指标得分最高的模型。使用的指标为:

    • 二元分类: F1

    • 多类分类: F1 宏

    • 回归:R2

    • 时间序列:MASE(若 MASE 不可用,则选择 MAE 最低的模型)

  2. 使用步骤 1 中的性能得分,选择与得分最高模型的得分差距在 10% 以内的所有模型。

  3. 根据模型类型,使用以下两种途径之一:

    1. 二元分类:

      • 如果训练数据集是平衡的,请选择准确度得分最高的模型。这是最准确的模型。有关使用的特定指标的信息,请参阅准确性

      • 如果训练数据集不平衡,请选择精确度得分最高的模型。有关使用的特定指标的信息,请参阅精度

    2. 多类分类或回归:

      • 选择准确度得分最高的模型。使用了以下准确度指标:

    3. 时间序列:选择 MAE 分数最优(最低)的模型。

最快的模型

在选择模型时,您可能比较重视模型提供预测的速度。最快模型用 闪电 图标突出显示。

预测速度决定了哪个模型最快。然而,模型的预测准确度仍需考虑。这是因为模型也许能够快速生成预测,但它也必须能够以合理的精度进行预测。

为了确定速度最快的模型,会自动执行以下过程:

  1. 选择通过模型类型确定的预测性能指标得分最高的模型。使用的指标为:

    • 二元分类: F1

    • 多类分类: F1 宏

    • 回归:R2

    • 时间序列:MASE(若 MASE 不可用,则选择 MAE 最低的模型)

  2. 根据模型类型,使用以下途径之一:

    1. 二元分类:

      • 如果训练数据集是平衡的,则选择所有准确度得分在步骤 1 中所选模型准确度得分 10% 以内的模型。 有关使用的特定度量的信息,请参阅准确性

      • 如果训练数据集不平衡,请选择在步骤 1 中得分最高的模型得分 10% 以内的所有模型。 使用步骤 1 中的指标。

    2. 多类分类或回归:

      • 选择精度得分在步骤 1 中模型准确度得分 10% 以内的所有模型。 使用以下准确度指标:

    3. 时间序列:选择全部与步骤 1 中的模型的 MAE 分数相差在百分之十以内的模型。

  3. 在所有选定的模型中,选择预测速度最快的模型(参见预测速度)。这个模型是速度最快的模型。

预测速度

预测速度是一种适用于所有模型类型的模型度量:二元分类多类分类回归时间序列。预测速度衡量机器学习模型生成预测的速度。

Qlik Predict 中,使用组合特征计算时间和测试数据集预测时间来计算预测速度。它以每秒行数为单位显示。

运行实验版本后,可在模型指标表中分析预测速度。在使用嵌入式分析来分析模型时,您还可以查看预测速度数据。有关更多信息,请参阅:

注意事项

测量的预测速度基于训练数据集的大小,而不是基于进行预测所用的数据。部署模型后,如果训练数据和预测数据的大小相差很大,或者在一个或少数几个数据行上创建实时预测时,您可能会注意到创建预测速度之间的差异。

过度拟合

当模型的预测行为与训练数据集的映射过于紧密时,就会发生过度拟合。当一个模型被过度拟合时,它可能只记住了训练数据集中的模式,无法准确预测未来的值。

过度拟合可能有几个原因,包括与训练算法相关的问题以及训练数据集太短或过于复杂。

Qlik Predict 中,通过分析顶级模型选择过程中使用的所有指标(预测速度除外)的测试训练结果,自动识别过度拟合:

如果在比较测试和训练结果时,这些指标之间的差异超过 10%,则模型疑似被过度拟合。

如果一个模型被怀疑过度拟合,即使它得分很高,也永远不会被作为推荐模型。该模型在模型指标表中标记有警告 警告

如果怀疑筛选器中显示的所有模型都过度拟合,则不提供模型建议。

解决过度拟合问题

您可以通过以下方法解决过度拟合问题:

  • 不部署有过度拟合嫌疑的模型。

  • 如果您怀疑训练数据集存在问题,请参阅准备好数据集进行训练以了解如何准备训练数据以避免过度拟合。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!