配置实验
实验的配置包括选择目标和模型将用于预测目标的特征。您还可以配置许多可选设置。
为了支持您选择目标,将分析历史数据集,并显示数据集中每一列的摘要统计信息。对数据集应用几个自动预处理步骤,以确保只包含适当的数据。有关数据预处理的详细信息,请参阅自动数据准备和转换。
视图
默认视图是模式视图,其中数据集中的每一列都由模式中的一行表示,其中包含信息和统计信息。为了获得每列的更多信息和示例数据,还可以使用数据视图。单击 和
以在视图之间切换。
模式视图中显示的数据集预览

数据视图中显示的数据集预览

单击 以打开或关闭实验配置侧窗格。在这里您可以找到有关您的实验和当前配置的信息。
侧窗格显示当前版本的实验配置

选择目标
目标列包含希望机器学习模型预测的值。您可以更改目标列,直到您开始第一次训练,然后锁定它进行编辑。
执行以下操作:
-
将鼠标悬停在列上方,然后单击出现的
图标。
目标列现在由
指示,其他可用列将自动选择为特征。
选择目标

选择目标后,可以开始运行第一个版本的实验。阅读 训练实验 中更多内容。您可以在下面描述的这一点进行额外配置,或者在查看训练结果后调整配置。
数据集中的某些列可能无法选择作为实验的目标,或者可能应用了特定的处理。用于解释训练数据中检测到的共同特征,请参阅配置实验。
选择特征列
使用目标集,您可以选择要在模型训练中包含的其他可用列。排除不想成为模型一部分的任何特征。请注意,该列将保留在数据集中,但不会被训练算法使用。
在实验配置窗格的顶部,您可以看到数据集中的单元格数。如果数量超过数据集限制,则可以排除低于限制的特征。
可以通过多种方式选择特征列:
-
手动清除不想包含的特征的复选框。
-
单击排除所有特征,然后仅选择要包含的特征。
-
进行搜索,并在筛选的搜索结果中排除或包括所有特征。
-
运行第一个版本的实验后,可以定义要包含的顶级特征的数量。
实验配置中的特征部分

数据集中的某些列可能无法选择作为实验的特征,或者可能应用了特定的处理。用于解释训练数据中检测到的共同特征,请参阅配置实验。
选择算法
默认情况下包含所有可用的算法,您可以排除任何不想使用的算法。通常,当您看到第一个训练结果时,您会将此作为模型优化的一部分。阅读 优化模型 中更多内容。
实验配置中的算法部分

更改特征数据类型
加载数据集时,根据数据类型将列视为分类列或数字列。在某些情况下,您可能需要更改此设置。
例如,如果一周中的天数由数字 1-7 表示,则每个数字表示一个分类值。默认情况下,它被视为连续排名的数值,因此您需要手动更改配置以将其视为类别。
执行以下操作:
-
在特征素类型列中,单击
。
-
在列表中选择一个值。
您可以在数据处理下的实验配置窗格中看到所有更改了特征类型的列。
更改数据集
在进行第一次实验训练之前,可以更改数据集。之后,如果要使用不同的数据集,则需要创建新的实验。请注意,在更改数据集时,您将丢失已完成的任何配置。
执行以下操作:
-
在实验配置窗格的训练数据下,单击更改数据集。
-
选择一个新数据集。
配置超参数优化
您可以使用超参数优化来优化模型。请注意,这是一个高级选项,可以显著增加训练时间。有关更多信息,请参阅超参数优化。
实验配置中的模型优化部分

执行以下操作:
-
在实验配置窗格中,展开模型优化部分。
-
选中超级参数优化复选框。
-
(可选)为优化设置时间限制。默认时间限制为一小时。
训练数据中的常见见解
根据数据集的质量,在如何在实验配置中使用数据的特定部分方面可能存在限制。模式视图中的 Insights 列有助于识别数据字段的特定特征以及机器学习算法如何处理这些特征。
下表显示了模式中可能显示的细节:
见解 | 含义 | 对配置的影响 |
---|---|---|
常量 | 该列对所有行具有相同的值。 | 该列不能用作目标或包含的特征。 |
One-hot encoded | 特征类型是分类的,列的唯一值少于 14 个。 | 对配置无影响。 |
Impact encoded | 特征类型是分类的,列具有 14 个或更多个唯一值。 | 对配置无影响。 |
高基数 | 该列具有太多的唯一值,如果用作t恶心,可能会对模型性能产生负面影响。 | 该列不能用作目标。 |
稀疏数据 | 该列的空值太多。 | 该列不能用作目标或包含的特征。 |
代表不足的类 | 该列的类少于 10 行。 | 该列不能用作目标,但可以作为特征包含。 |