配置实验
实验的配置包括选择目标和模型将用于预测目标的特性。您还可以配置许多可选设置。
为了支持您选择目标,将分析历史数据集,并显示数据集中每一列的摘要统计信息。对数据集应用几个自动预处理步骤,以确保只包含适当的数据。有关数据预处理的详细信息,请参阅自动数据准备和转换。
在运行 v1 之后,如果需要,可以创建新的实验版本来进一步完善模型训练。有关更多信息,请参阅优化模型。
要求和权限
要了解有关使用 ML 实验的用户需求的更多信息,请参阅使用实验。6
界面
以下部分概述了如何导航实验界面以配置实验。有关界面的更多信息,请参阅浏览实验界面。
标签导航
创建实验时,将打开数据标签。您可以在此处配置实验的目标和特性。
运行至少一个实验版本后,其他标签变为可用。这些其他标签允许您分析刚刚在版本中训练的模型。如果需要使用不同的特性选择配置后续版本,可以返回数据标签。
模式视图和数据视图
在数据标签中,您可以在以下视图之间切换:
-
模式视图:默认视图。在此视图中,数据集中的每一列都由模式中包含信息和统计信息的行表示。
-
数据视图:您可以使用另一种视图来访问每列的更多信息和示例数据。
实验配置面板
单击 视图配置可打开一个面板,您可以在其中进一步自定义实验训练。无论您查看哪个标签,都可以打开面板。此面板提供了许多其他配置选项。
使用实验配置面板,您可以:
-
在训练第一个版本之前选择目标
-
添加或删除功能
-
配置新版本的实验
-
选择以更改或刷新训练数据集
-
添加或删除算法
-
更改模型优化设置
选择目标
目标列包含希望机器学习模型预测的值。在开始第一次训练之前,您可以更改目标列。之后,它将被锁定以进行编辑。
执行以下操作:
在 模式视图或 数据视图中,将鼠标悬停在列上。
单击出现的 图标。
目标列现在由 指示,其他可用列将自动选择为特性。
也可以在训练配置面板中选择目标。
选择目标后,可以开始运行第一个版本的实验。阅读 训练实验 中更多内容。您可以在下面描述的这一点进行额外配置,或者在查看训练结果后调整配置。
随着实验训练的继续,将显示如何解释和处理数据的说明。有关更多信息,请参阅解释数据集见解。
确定创建的模型类型
选择作为目标的列决定了实验创建的模型的类型。这反过来又在确定使用哪些算法用来训练模型方面发挥了作用。数据集中的某些列可能无法选择作为实验的目标,或者可能应用了特定的处理。
模型类型包括:
二元分类模型
多类别分类模型
回归模型
下表总结了目标中决定所用模型类型的因素。
模型类型 | 列中不同值的数目 | 需要特性类型 | 额外信息 |
---|---|---|---|
二元分类 | 2 | 任何 | - |
多类别分类 | 3-10 | 任何 | 具有 10 个以上不同的非数字类的列不能作为目标选择。 |
回归 | 大于 10 | 数字 | - |
要了解您的实验训练的模型类型,请单击 视图配置并展开算法。模型类型在部分的标题中可见。
选择特性列
使用目标集,您可以选择要在模型训练中包含的其他可用列。排除不想成为模型一部分的任何特性。请注意,该列将保留在数据集中,但不会被训练算法使用。
在实验配置窗格的顶部,您可以看到数据集中的单元格数。如果数量超过数据集限制,则可以排除低于限制的特性。
可以通过多种方式选择特性列:
模式视图和数据视图
在主视图中,您可以:
取消选择包括所有可用特性,然后仅选择要包括的特性。
手动清除不想包含的特性的复选框。
进行搜索,并在筛选的搜索结果中排除或包括所有特性。
在训练自定义面板中
如果展开实验配置面板,则可以:
手动清除不想包含的特性的复选框。
运行第一个版本的实验后,可以定义要包含的表现最佳的特性的数量。
选择特性时,会自动为其指定一种特性类型。可能的特性类型包括:
分类
数字
日期
自由文本
特性类型是基于特性列中包含的数据指定的。如果一个特性符合某些标准,它可能会被分段,成为自动设计特性的基础。如果需要,可以更改特性是否用于自动特性设计。有关自动特性设计的完整详细信息,请参阅自动特性设计。
数据集中的某些列可能无法选择作为实验的特性,或者可能应用了特定的处理。当您浏览实验训练时,会显示对您的数据是如何被解释和处理的说明。有关更多信息,请参阅解释数据集见解。
选择算法
默认情况下包含所有可用的算法,您可以排除任何不想使用的算法。通常,当您看到第一个训练结果时,您会将此作为模型优化的一部分。阅读 优化模型 中更多内容。
更改特性类型
加载数据集时,根据数据类型和其他特性,将把列视为分类、数字、日期或自由文本来处理。在某些情况下,您可能需要更改此设置。
例如,如果一周中的天数由数字 1-7 表示,则每个数字表示一个分类值。默认情况下,它被视为连续排名的数值,因此您需要手动更改配置以将其视为分类。
当列被标识为包含日期和时间信息时,它将被用作新生成的自动设计特性的基础。发生这种情况时,原始列(父特性)将被视为具有日期特性类型。
您可以将父特性从日期特性更改为分类或数字特性。例如,当一个特性被标识为日期,但您需要将其视为字符串或数字时,这很有用。如果您这样做,就不能再在实验训练中使用它的自动设计特性。
执行以下操作:
在 模式视图中,找到该特性。
在该特性的特性类型列中,单击 。
在列表中选择一个值。
您也可以从 数据视图更改特性类型。找到该特性,然后单击当前特性类型旁边的 。在列表中选择一个值。
您可以在数据处理下的实验配置面板中看到所有具有更改了特性类型的列。
对预测的影响
当您手动更改特性的特性类型,然后部署生成的模型时,特性类型覆盖项将应用于应用数据集中的特性,该数据集用于使用该模型进行的预测。
更改数据集
您可以在运行第一个实验版本之前以及运行任何版本之后更改训练数据集。
如果在运行第一个版本之前更改数据集,则将丢失在更改数据集之前所做的任何配置。
执行以下操作:
在实验配置面板的训练数据下,单击更改数据集。
选择一个新数据集。
有关在模型精化过程中(运行实验版本后)更改和刷新数据集的更多信息,请参阅更改和刷新数据集。
配置模型优化
可以自定义以下设置以优化您的模型:
打开或关闭智能模型优化
打开或关闭超参数优化
开启或关闭时间感知培训
可以为您运行的每个版本的实验打开或关闭这些选项。
配置智能优化
默认情况下,实验使用智能模型优化。通过智能模型优化,AutoML 利用迭代特征选择和对数据应用高级转换来为您处理模型优化过程。
有关智能优化的更多信息,请参阅智能模型优化。
您可以关闭此设置以手动优化您训练的模型。例如,您可能希望从智能模型优化开始模型训练,然后切换到 v2 的手动优化以进一步调整配置。
执行以下操作:
单击 视图配置。
如果您已经运行了至少一个版本的实验,请单击新建版本。
在面板中,展开模型优化。
从智能切换到手动。
使用滑块设置训练的最大运行持续时间。
配置超参数优化
您可以使用超参数优化来优化模型。请注意,这是一个高级选项,可以显著增加训练时间。如果关闭智能优化,则可以使用超参数优化。
有关更多信息,请参阅超参数优化。
执行以下操作:
单击 视图配置。
如果您已经运行了至少一个版本的实验,请单击新建版本。
在面板中,展开模型优化。
从智能切换到手动。
选中超级参数优化复选框。
(可选)为优化设置时间限制。默认时间限制为一小时。
配置时间感知训练
如果您希望在考虑时间序列维度的情况下训练模型,请为实验版本激活时间感知训练。要使用此选项,您的数据集中需要有一列包含相关时间序列信息。
当启用时间感知训练时,AutoML 使用专门的交叉验证和 null 插补过程来训练模型。
执行以下操作:
单击 视图配置。
如果您已经运行了至少一个版本的实验,请单击新建版本。
在面板中,展开模型优化。
在基于时间的测试训练分割下,选择用于对数据进行排序的日期索引。
查看有关训练数据的见解
在实验的数据标签中,您可以查看对训练数据处理的见解。 此信息可在模式视图的见解列中找到。显示的信息取决于您是否运行了具有当前训练数据的版本。见解列中的更改可以帮助您确定为什么特性可能无法使用,或者为什么它们被自动删除。
有关每个见解含义的更多信息,请参阅解释数据集见解。