优化模型
一旦您创建了一些初始模型,就必须对其进行优化,以提高其有效性和潜在准确性。模型分数表示该性能的不同度量。虽然改进模型的目的是提高这些分数,但分数越高并不总是表示模型越好。
可以通过排除或包含特性、更改训练数据和修改其他配置参数来优化模型。在这样做的过程中,您可以比较不同的版本,看看您的更改有什么影响。
通过解释分数,您将学习如何改进模型。不同度量的值可以让您深入了解要采取哪些行动来改善结果。
要求和权限
要了解有关使用 ML 实验的用户需求的更多信息,请参阅使用实验。
配置新版本
运行实验版本后,如果需要,可以通过创建新版本来完善模型。
执行以下操作:
-
从数据、模型或分析选项卡中,选择要用作下一版本基础的模型。
-
单击视图配置。
实验配置面板打开。
-
单击新版本。
创建新版本后,可以对其配置进行更改,例如:
-
排除现有特性
-
包括之前排除的特性
-
更改或刷新数据集
-
选择或取消选择算法
以下各部分提供了有关这些选项的更多信息。
起草新版本时,请单击实验配置面板中特性下的筛选器 图标。在进行筛选时,您可以更容易地可视化自更改训练数据集以来引入的特性。您还可以看到哪些功能是自动工程设计的和非工程设计的。
改进数据集
如果您的模型得分不好,您可能需要检查数据集以解决任何问题。阅读有关如何改进 准备好数据集进行训练 中数据集的详细信息。
排除特性
更多的特性不一定会产生更好的模型。要优化模型,需要排除不可靠和不相关的特性,例如:
-
相关性过高的特性。从两个相关特性中,排除特性重要性较小的特性。
-
特性重要性太低的特性。这些特性不会对您试图了解的内容产生任何影响。
-
特性重要性过高的特性。这可能是由于数据泄露。
测试以从训练数据中删除该特性,然后再次运行训练并检查这是否改进了模型。它对模型得分有很大影响吗?
执行以下操作:
-
从目录中打开一个实验。
-
从数据、模型或分析选项卡中,选择要用作下一版本基础的模型。
-
单击视图配置。
实验配置面板打开。
-
单击新建版本以配置新的实验版本。
-
在特性下,清除不想在训练中使用的任何特性的复选框。
添加特性
如果您的模型仍然得分不好,可能是因为与目标相关的特性尚未在数据集中捕获。您可以重新处理和调整数据集的用途,以优化数据质量,并添加新的特性和信息。准备好后,可以将新的数据集添加到未来的实验版本中。请参阅更改和刷新数据集。
阅读有关如何在 创建新要素列 中捕获或设计新特性的更多信息。
选择算法
根据目标列的数据类型,将自动选择合适的算法进行训练。您可能希望排除性能不佳或较慢的算法。这样您就不必在他们身上浪费时间训练了。
有关如何选择算法的更多信息,请参阅理解模型算法。
执行以下操作:
-
从目录中打开一个实验。
-
从数据、模型或分析选项卡中,选择要用作下一版本基础的模型。
-
单击视图配置。
实验配置面板打开。
-
单击新建版本以配置新的实验版本。
-
在算法下,清除不想在训练中使用的任何算法的复选框。
更改和刷新数据集
如果您的训练数据自上一个实验版本以来发生了更改,则可以更改或刷新数据集以备将来的实验版本使用。
如果您想在同一实验中比较不同数据集的模型度量和性能,这可能会有所帮助。例如,这在以下情况下很有帮助:
-
一组新的数据记录可用,或者对原始数据记录集进行了更新。例如,最近一个月的交易可能已经可用并适合用于训练,或者数据收集问题可能已经确定并得到解决。
-
原始训练数据集已被重新处理或重新使用,可能是为了改进模型训练。例如,您可能已经改进了定义特性列值的逻辑,甚至添加了新的特性列。
更改或刷新数据集不会改变已经从以前的实验版本中训练的现有模型。在实验版本中,模型仅根据该特定版本中定义的训练数据进行训练。
要求
当您为新的实验版本更改或刷新数据集时,新的数据集必须满足以下要求:
-
目标列的名称和特性类型需要与原始训练数据集中的目标相同。
- 目标列中不同值的数量必须在给定实验类型所需的相同范围内。例如,对于多类分类实验,新数据集中的目标列必须仍然具有三到十个唯一值。有关具体范围,请参阅确定创建的模型类型。
其他特性列可以是全新的,具有不同的名称,并包含不同的数据。
更改数据集
执行以下操作:
-
从数据、模型或分析选项卡中,选择要用作下一版本基础的模型。
-
单击视图配置。
实验配置面板打开。
-
单击新建版本以配置新的实验版本。
-
在训练数据下,单击更改数据集。
-
选择或上传新数据集。
刷新数据集
执行以下操作:
-
从数据、模型或分析选项卡中,选择要用作下一版本基础的模型。
-
单击视图配置。
实验配置面板打开。
-
单击新建版本以配置新的实验版本。
-
在训练数据下,单击刷新数据集。
如果数据集刷新可用,系统会通知您。当创建具有相同名称的新文件覆盖现有数据文件时,数据集通常会刷新。
运行优化版本
配置完版本后,您可以运行它。
执行以下操作:
-
单击屏幕右下角的 Run v2。
(按钮上的文本取决于运行的版本数。)
比较实验版本
新版本完成训练后,将新版本与旧版本进行比较,以查看更改的效果。您有许多选项可用来比较不同实验版本的模型。
快速分析
使用实验中的模型和数据选项卡将版本与旧版本进行比较。在模型选项卡中,您可以:
-
查看模型指标表中的结果。
-
在模型之间切换,查看模型训练摘要和其他自动生成的图表中的差异。
有关快速模型分析的更多信息,请参阅执行快速模型分析。
深入分析
通过切换到实验中的比较和分析选项卡,您可以更深入地进行模型分析。这些选项卡提供了一种嵌入式分析体验,您可以在更精细的级别上交互式地评估模型。
比较选项卡提供所有模型的模型分数和超参数的比较。分析选项卡允许您专注于特定模型,以评估预测准确度、特性重要性和其他详细信息。
有关更多信息,请参阅比较模型和执行 详细的模型分析。
更改模型优化设置
您可以在运行激活智能优化的版本后关闭智能优化。这让您可以使用智能优化提供的见解,同时也为您提供所需的控制,以进行微小、精细的调整。或者,您可以在关闭设置的情况下运行一个或多个版本后打开智能模型优化。
超参数优化是一种在模型优化过程中可以启用的有用设置。通常,不建议在实验的第一个版本中打开此设置。
您还可以更改是否使用时间感知训练,或更改用作日期索引的列。
执行以下操作:
单击视图配置。
如果需要,单击新版本以配置新的实验版本。
在面板中,展开模型优化。
在智能和手动设置之间切换,以打开或关闭智能模型优化。
如果要激活超参数优化,请单击超参数优化复选框并设置最大训练时间。
在基于时间的测试训练分割下,您可以更改时间感知训练的设置:
要启用时间感知训练,请通过在数据集中选择特定的日期索引列来更改默认值 None。
要关闭时间感知训练,请将日期索引设置为值 None。
将所选日期索引列更改为其他列。
删除实验版本
您可以删除不想保留的实验版本。请注意,实验版本中的所有模型也将被删除,无法恢复。
执行以下操作:
切换到模型选项卡。
在模型度量表中,从要删除的实验版本中选择一个模型。
提示注释您还可以在数据或分析选项卡上使用工具栏中的下拉菜单选择模型。在右下角,单击删除 <版本号>。
在确认对话框中,单击删除。