查看有关您训练数据的见解
当您添加训练数据并运行训练版本时,您可以访问有关如何处理数据的见解。见解提供了有关实验中目标和特性的信息,例如已删除、不可用或将通过特殊处理进行编码的特性。
当您处于 模式视图时,可以在数据选项卡中找到见解列。 数据视图中也提供了简化的见解。为实验中训练的每个模型单独创建见解。
见解生成时间:
-
添加或更改了训练数据,但尚未运行任何实验版本。
-
每个实验版本运行后。为每个训练过的模型创建一组单独的见解。
运行版本前后的见解可能不同。这是因为在训练开始时,AutoML 能够预处理您的数据并进一步诊断数据问题。有关更多信息,请参阅自动数据准备和转换。
在训练之前查看见解
在运行实验版本之前,您可以分析见解,看看当前的训练数据是如何被解释的。运行该版本后,这些见解可能会发生变化。
执行以下操作:
在实验中,确保您已添加了要用于实验版本的训练数据。
打开数据选项卡。
确保您处于 模式视图中。
分析见解列。工具提示提供了见解背后的额外背景。有关每种见解含义的进一步解释,请参阅解释数据集见解。
查看模型的见解
在模型完成实验版本的训练后,选择一个模型并检查数据处理方式。
执行以下操作:
运行实验版本,然后打开数据选项卡。
从工具栏的下拉列表中选择一个模型。
确保您处于 模式视图中。
分析见解列。工具提示提供了见解背后的额外背景。有关每种见解含义的进一步解释,请参阅解释数据集见解。
解释数据集见解
下表提供了有关模式中可能显示的见解的更多详细信息。
见解 | 含义 | 对配置的影响 | 确定见解的时间 | 其他引用 |
---|---|---|---|---|
常量 | 该列对所有行具有相同的值。 | 该列不能用作目标或包含的特性。 | 在运行版本前后 | 基数性 |
One-hot 编码 | 特性类型是分类的,列的唯一值少于 14 个。 | 对配置无影响。 | 在运行版本前后 | 分类编码 |
Impact 编码 | 特性类型是分类的,列具有 14 个或更多个唯一值。 | 对配置无影响。 | 在运行版本前后 | 分类编码 |
高基数 | 该列具有太多的唯一值,如果用作t恶心,可能会对模型性能产生负面影响。 | 该列不能用作目标。它将作为特性自动排除,但仍可以在需要时包含。 | 在运行版本前后 | 基数性 |
稀疏数据 | 该列的空值太多。 | 该列不能用作目标或包含的特性。 | 在运行版本前后 | 无效的插补 |
代表不足的类 | 该列的类少于 10 行。 | 该列不能用作目标,但可以作为特性包含。 | 在运行版本前后 | - |
<number of>个自动设计特性 | 该列是可用于生成自动设计特性的父特性。 | 如果此父特性被解释为日期特性,则会自动从配置中删除它。建议您改为使用可以从中生成的自动工程日期特性。可以覆盖此设置并包括特性,而不是自动设计特性。 | 在运行版本前后 | 自动特性设计 |
自动设计特性 | 该列是一个自动设计的特性,可以或已经从父日期特性生成。它没有出现在原始数据集中。 | 您可以在实验训练中删除其中一个或多个自动设计特性。如果将父特性的特性类型切换为分类,则会删除所有自动设计特性。 | 在运行版本前后 | 自动特性设计 |
无法作为日期处理 | 该列可能包含日期和时间信息,但不能用于创建自动设计的日期特性。 | 已从配置中删除该特性。如果自动设计特性以前是从该父特性生成的,则将从未来的实验版本中删除它们。您仍然可以在实验中使用该特性,但必须将其特性类型切换为类别。 | 在运行版本后 | 日期特性设计 |
可能的自由文本 | 该列可能可用作自由文本特性。 | 自由文本特性类型已指定给列。您必须运行一个实验版本来确认该特性是否可以作为自由文本处理。 | 在运行版本前 | 处理自由文本数据 |
自由文本 | 该列已被确认为包含自由文本。它可以作为自由文本处理。 | 该特性不需要其他配置。 | 在运行版本后 | 处理自由文本数据 |
无法作为自由文本处理 | 经过进一步分析,该列不能作为自由文本处理。 | 您需要从下一个实验版本的配置中取消选择该特性。如果特性的基数不高,也可以将特性类型更改为类别。 | 在运行版本后 | 处理自由文本数据 |
目标泄露 | 该特性可能受到目标泄露的影响。如果是这样,它包括您试图预测的目标列的信息。存在目标泄露的特性可能会让您错误地认为模型性能可靠。在现实世界的预测中,它们会导致模型表现非常糟糕。 | 该特性尚未用于训练模型。 | 在运行版本后 | 数据泄露 |
排列重要性低 | 该特性对模型预测没有太大影响。删除这些特性可以通过减少统计噪声来提高模型性能。 | 该特性尚未用于训练模型。 | 在运行版本后 | 了解排列重要性 |
高度相关 | 该特性与实验中的一个或多个其他特性高度相关。具有彼此高度相关的特性会降低模型性能。 | 该特性尚未用于训练模型。与之高度相关的特性并没有因为高度相关而被删除,但可能是因为其他原因而被删除,比如排列重要性低。 | 在运行版本后 | 关联 |