查看关于训练数据的洞察
在添加训练数据并运行训练版本时,您可以访问有关如何处理数据的洞察。洞察提供了有关实验中目标和特性的信息,例如已删除、不可用或将通过特殊处理进行编码的特性。
当您处于配置/训练数据选项卡中时,可以在 架构视图中找到洞察列。简化的洞察也可在
数据视图中找到。系统会为实验中训练的每个模型单独创建洞察。
架构视图中的洞察列
生成洞察的情况:
-
在添加或更改训练数据后,但尚未运行任何实验版本。
-
在每个实验版本运行后。系统会为训练的每个模型创建一组单独的洞察。
运行版本前后的洞察可能会有所不同。这是因为在训练开始时,Qlik Predict 能够预处理您的数据并进一步诊断数据问题。有关更多信息,请参阅 自动数据准备和转换。
在训练前查看洞察
在运行实验版本之前,您可以分析洞察以查看当前训练数据是如何被解释的。这些洞察在您运行版本后可能会发生变化。
执行以下操作:
-
在实验中,确保已添加要用于该实验版本的训练数据。
-
打开配置/训练数据选项卡。
-
确保您处于
架构视图中。
-
分析洞察列。工具提示提供了洞察背后的其他上下文。有关每个洞察含义的进一步说明,请参阅 解释数据集洞察。
查看模型的洞察
在实验版本的模型完成训练后,选择一个模型并检查数据的处理方式。
执行以下操作:
-
运行实验版本,然后打开配置/训练数据选项卡。
-
从工具栏的下拉列表中选择一个模型。
-
确保您处于
架构视图中。
-
分析洞察列。工具提示提供了洞察背后的其他上下文。有关每个洞察含义的进一步说明,请参阅 解释数据集洞察。
解释数据集洞察
以下表格提供了有关架构中可能显示的潜在洞察的更多详细信息。
常规洞察
| 洞察 | 含义 | 对配置的影响 | 何时确定洞察 | 其他参考 |
|---|---|---|---|---|
| Constant | 该列的所有行都具有相同的值。 | 该列不能用作目标或包含的特性。 | 运行版本前和运行版本后 | 基数 |
| One-hot encoded | 特性类型为分类,且该列的唯一值少于 14 个。 | 对配置无影响。 | 运行版本前和运行版本后 | 分类编码 |
| Impact encoded | 特性类型为分类,且该列具有 14 个或更多唯一值。 | 对配置无影响。 | 运行版本前和运行版本后 | 分类编码 |
| High cardinality | 该列具有太多唯一值,如果用作特性,可能会对模型性能产生负面影响。 | 该列不能用作目标。它将作为特性被自动排除,但如果需要,仍可将其包含在内。 | 运行版本前和运行版本后 | 基数 |
| Sparse data | 该列具有太多空值。 | 该列不能用作目标或包含的特性。 | 运行版本前和运行版本后 | 无效的插补 |
| Underrepresented class | 该列包含少于 10 行的类别。 | 该列不能用作目标,但可以作为特性包含在内。 | 运行版本前和运行版本后 | - |
| Feature transform failed | 特性的特性类型已从其默认类型手动更改。在此配置下,发生错误。 | 使用此特性转换,实验版本无法成功运行。请将该特性的特性类型恢复为其以前的值,或从训练中排除该特性。 | 运行版本后 | 更改特性类型 |
自动特性工程洞察
| 洞察 | 含义 | 对配置的影响 | 何时确定洞察 | 其他参考 |
|---|---|---|---|---|
| <number of> auto-engineered features | 该列是可用于生成自动构建特性的父特性。 | 如果此父特性被解释为日期特性,它将自动从配置中删除。建议您改为使用可从中生成的自动构建日期特性。可以覆盖此设置并包含该特性,而不是自动构建的特性。 | 运行版本前和运行版本后 | 自动特性工程 |
| Auto-engineered feature | 该列是一个自动构建的特性,可以或已经从父日期特性中生成。它没有出现在原始数据集中。 | 您可以在实验训练期间删除一个或多个这些自动构建的特性。如果将父特性的特性类型切换为分类,则所有自动构建的特性都将被删除。 | 运行版本前和运行版本后 | 自动特性工程 |
| Could not process as date | 该列可能包含日期和时间信息,但无法用于创建自动构建的日期特性。 | 该特性已从配置中删除。如果以前从此父特性生成了自动构建的特性,则它们将从未来的实验版本中删除。您仍可以在实验中使用该特性,但必须将其特性类型切换为分类。 | 运行版本后 | 自动特性工程 |
| Possible free text | 该列可能可用作自由文本特性。 | 自由文本特性类型已分配给该列。您必须运行实验版本以确认该特性是否可以作为自由文本处理。 | 运行版本前 | 自动特性工程 |
| Free text | 该列已确认包含自由文本。它可以作为自由文本处理。 | 该特性不需要其他配置。 | 运行版本后 | 自动特性工程 |
| Could not process as free text | 经进一步分析,该列无法作为自由文本处理。 | 您需要在下一个实验版本的配置中取消选择该特性。如果该特性不具有高基数,您也可以选择将特性类型更改为分类。 | 运行版本后 | 自动特性工程 |
智能模型优化洞察
| 洞察 | 含义 | 对配置的影响 | 何时确定洞察 | 其他参考 |
|---|---|---|---|---|
| Target leakage | 该特性疑似受到目标泄露的影响。如果是这样,它会包含有关您尝试预测的目标列的信息。具有目标泄露的特性可能会让您对模型性能产生虚假的安全感。在实际预测中,它们会导致模型表现非常糟糕。 | 该特性尚未用于训练模型。 | 运行版本后 | 数据泄露 |
| Low permutation importance | 该特性对模型预测几乎没有影响(如果有的话)。删除这些特性可以通过减少统计噪声来提高模型性能。 | 该特性尚未用于训练模型。 | 运行版本后 | 了解排列重要性 |
| Highly correlated | 该特性与实验中的一个或多个其他特性高度相关。特性之间高度相关会降低模型性能。 | 该特性尚未用于训练模型。与其高度相关的特性并未因高度相关而被删除,但可能由于其他原因(例如低置换重要性)而被删除。 | 运行版本后 | 关联 |
时间序列预测洞察
偏差检测洞察
| 洞察 | 含义 | 对配置的影响 | 何时确定洞察 | 其他参考 |
|---|---|---|---|---|
| Data bias detected | 对于目标列中的值,与其他组相比,某些组(值)的代表性不足。 | 分析偏差检测结果以确定后续步骤 — 这些步骤可以包括删除特性、更改数据集或使用修改后的框架创建新实验。 | 运行版本后 | 检测机器学习模型中的偏差 |
| Representation bias detected | 在训练模型如何使用特性中的数据来创建预测方面,已检测到偏差。 | 分析偏差检测结果以确定后续步骤 — 这些步骤可以包括删除特性、更改数据集或使用修改后的框架创建新实验。 | 运行版本后 | 检测机器学习模型中的偏差 |