配置实验
实验的配置包括选择目标和模型将用于预测目标的特性。您还可以配置许多可选设置。
为了支持您选择目标,将分析历史数据集,并显示数据集中每一列的摘要统计信息。对数据集应用几个自动预处理步骤,以确保只包含适当的数据。有关数据预处理的详细信息,请参阅自动数据准备和转换。
在运行 v1 之后,如果需要,可以创建新的实验版本来进一步完善模型训练。有关详细信息,请参阅优化模型。
要求和权限
要了解有关使用 ML 实验的用户需求的更多信息,请参阅使用实验。
视图
默认视图是模式视图,其中数据集中的每一列都由模式中的一行表示,其中包含信息和统计信息。为了获得每列的更多信息和示例数据,还可以使用数据视图。单击 和 以在视图之间切换。
单击 以打开或关闭实验配置侧窗格。在这里您可以找到有关您的实验和当前配置的信息。
选择目标
目标列包含希望机器学习模型预测的值。在开始第一次训练之前,您可以更改目标列。之后,它将被锁定以进行编辑。
执行以下操作:
-
将鼠标悬停在列上方,然后单击出现的 图标。
目标列现在由 指示,其他可用列将自动选择为特性。
选择目标后,可以开始运行第一个版本的实验。阅读 训练实验 中更多内容。您可以在下面描述的这一点进行额外配置,或者在查看训练结果后调整配置。
当您浏览实验训练时,会显示对您的数据是如何被解释和处理的说明。有关详细信息,请参阅训练数据中的常见见解。
确定创建的模型类型
选择作为目标的列决定了实验创建的模型的类型。这反过来又在确定使用哪些算法用来训练模型方面发挥了作用。数据集中的某些列可能无法选择作为实验的目标,或者可能应用了特定的处理。
模型类型包括:
-
二进制分类模型
-
多类别分类模型
-
回归模型
下表总结了目标中决定所用模型类型的因素。
模型类型 | 列中不同值的数目 | 需要功能类型 | 额外信息 |
---|---|---|---|
二进制分类 | 2 | 任何 | - |
多类别分类 | 3-10 | 任何 | 具有 10 个以上不同的非数字类的列不能作为目标选择。 |
回归 | 大于 10 | 数字 | - |
选择特性列
使用目标集,您可以选择要在模型训练中包含的其他可用列。排除不想成为模型一部分的任何特性。请注意,该列将保留在数据集中,但不会被训练算法使用。
在实验配置窗格的顶部,您可以看到数据集中的单元格数。如果数量超过数据集限制,则可以排除低于限制的特性。
可以通过多种方式选择特性列:
-
手动清除不想包含的特性的复选框。
-
单击排除所有特性,然后仅选择要包含的特性。
-
进行搜索,并在筛选的搜索结果中排除或包括所有特性。
-
运行第一个版本的实验后,可以定义要包含的顶级特性的数量。
选择特性时,会自动为其指定一种特性类型。可能的特性类型包括:
-
分类
-
数字
-
日期
-
自由文本
特性类型是基于特性列中包含的数据指定的。如果一个特性符合某些标准,它可能会被分段,成为自动设计特性的基础。如果需要,可以更改特性是否用于自动特性设计。有关自动特性设计的完整详细信息,请参阅自动特性设计。
数据集中的某些列可能无法选择作为实验的特性,或者可能应用了特定的处理。当您浏览实验训练时,会显示对您的数据是如何被解释和处理的说明。有关详细信息,请参阅训练数据中的常见见解。
选择算法
默认情况下包含所有可用的算法,您可以排除任何不想使用的算法。通常,当您看到第一个训练结果时,您会将此作为模型优化的一部分。阅读 优化模型 中更多内容。
更改特性类型
加载数据集时,根据数据类型和其他特性,列将被视为分类、数字、日期或自由文本。在某些情况下,您可能需要更改此设置。
例如,如果一周中的天数由数字 1-7 表示,则每个数字表示一个分类值。默认情况下,它被视为连续排名的数值,因此您需要手动更改配置以将其视为类别。您还可以将分类特性类型转换为数字特性类型。
当列被标识为包含日期和时间信息时,它将被用作新生成的自动设计特性的基础。发生这种情况时,原始列(父特性)将被视为具有日期特性类型。可以将父特性从日期特性类型更改为类别特性类型。然而,如果您这样做,就不能再在实验训练中使用它的自动设计特性。
执行以下操作:
-
在特性素类型列中,单击 。
-
在列表中选择一个值。
您可以在数据处理下的实验配置窗格中看到所有更改了特性类型的列。
更改数据集
您可以在运行第一个实验版本之前以及运行任何版本之后更改训练数据集。
如果在运行第一个版本之前更改数据集,则将丢失在更改数据集之前所做的任何配置。
执行以下操作:
在实验配置窗格的训练数据下,单击更改数据集。
选择一个新数据集。
有关在模型精化过程中(运行实验版本后)更改和刷新数据集的更多信息,请参阅更改和刷新数据集。
配置超参数优化
您可以使用超参数优化来优化模型。请注意,这是一个高级选项,可以显著增加训练时间。有关详细信息,请参阅超参数优化。
执行以下操作:
在实验配置窗格中,展开模型优化部分。
选中超级参数优化复选框。
(可选)为优化设置时间限制。默认时间限制为一小时。
训练数据中的常见见解
根据数据集的质量,在如何在实验配置中使用数据的特定部分方面可能存在限制。模式视图中的 Insights 列有助于识别数据字段的特定特性以及机器学习算法如何处理这些特性。
下表显示了模式中可能显示的细节:
见解 | 含义 | 对配置的影响 |
---|---|---|
常量 | 该列对所有行具有相同的值。 | 该列不能用作目标或包含的特性。 |
One-hot 编码 | 特性类型是分类的,列的唯一值少于 14 个。 | 对配置无影响。 |
Impact 编码 | 特性类型是分类的,列具有 14 个或更多个唯一值。 | 对配置无影响。 |
高基数 | 该列具有太多的唯一值,如果用作t恶心,可能会对模型性能产生负面影响。 | 该列不能用作目标。它将作为特性自动排除,但仍可以在需要时包含。 |
稀疏数据 | 该列的空值太多。 | 该列不能用作目标或包含的特性。 |
代表不足的类 | 该列的类少于 10 行。 | 该列不能用作目标,但可以作为特性包含。 |
<number of>个自动设计特性 | 该列是可用于生成自动设计特性的父特性。 | 如果此父特性被解释为日期特性,则会自动从配置中删除它。建议您改为使用可以从中生成的自动工程日期特性。可以覆盖此设置并包括特性,而不是自动设计特性。 |
自动设计特性 | 该列是一个自动设计的特性,可以或已经从父日期特性生成。它没有出现在原始数据集中。 | 您可以在实验训练中删除其中一个或多个自动设计特性。如果将父特性的特性类型切换为分类,则会删除所有自动设计特性。 |
无法作为日期处理 | 该列可能包含日期和时间信息,但不能用于创建自动设计的日期特性。 | 已从配置中删除该特性。如果自动设计特性以前是从该父特性生成的,则将从未来的实验版本中删除它们。您仍然可以在实验中使用该特性,但必须将其特性类型切换为类别。 |
可能的自由文本 | 该列可能可用作自由文本特性。 | 自由文本特性类型已指定给列。您必须运行一个实验版本来确认该特性是否可以作为自由文本处理。 |
自由文本 | 该列已被确认为包含自由文本。它可以作为自由文本处理。 | 该特性不需要其他配置。 |
无法作为自由文本处理 | 经过进一步分析,该列不能作为自由文本处理。 | 您需要从下一个实验版本的配置中取消选择该特性。如果特性的基数不高,也可以将特性类型更改为类别。 |