查看关于训练数据的洞察

在添加训练数据并运行训练版本时，您可以访问有关如何处理数据的洞察。洞察提供了有关实验中目标和特性的信息，例如已删除、不可用或将通过特殊处理进行编码的特性。

当您处于配置/训练数据选项卡中时，可以在架构视图中找到洞察列。简化的洞察也可在数据视图中找到。系统会为实验中训练的每个模型单独创建洞察。

生成洞察的情况：

在添加或更改训练数据后，但尚未运行任何实验版本。
在每个实验版本运行后。系统会为训练的每个模型创建一组单独的洞察。

运行版本前后的洞察可能会有所不同。这是因为在训练开始时，Qlik Predict 能够预处理您的数据并进一步诊断数据问题。有关更多信息，请参阅 自动数据准备和转换。

在训练前查看洞察

在运行实验版本之前，您可以分析洞察以查看当前训练数据是如何被解释的。这些洞察在您运行版本后可能会发生变化。

执行以下操作：

在实验中，确保已添加要用于该实验版本的训练数据。
打开配置/训练数据选项卡。
确保您处于架构视图中。
分析洞察列。工具提示提供了洞察背后的其他上下文。有关每个洞察含义的进一步说明，请参阅 解释数据集洞察。

查看模型的洞察

在实验版本的模型完成训练后，选择一个模型并检查数据的处理方式。

执行以下操作：

运行实验版本，然后打开配置/训练数据选项卡。
从工具栏的下拉列表中选择一个模型。
确保您处于架构视图中。
分析洞察列。工具提示提供了洞察背后的其他上下文。有关每个洞察含义的进一步说明，请参阅 解释数据集洞察。

解释数据集洞察

以下表格提供了有关架构中可能显示的潜在洞察的更多详细信息。

常规洞察

数据集洞察 — 常规
洞察	含义	对配置的影响	何时确定洞察	其他参考
Constant	该列的所有行都具有相同的值。	该列不能用作目标或包含的特性。	运行版本前和运行版本后	基数
One-hot encoded	特性类型为分类，且该列的唯一值少于 14 个。	对配置无影响。	运行版本前和运行版本后	分类编码
Impact encoded	特性类型为分类，且该列具有 14 个或更多唯一值。	对配置无影响。	运行版本前和运行版本后	分类编码
High cardinality	该列具有太多唯一值，如果用作特性，可能会对模型性能产生负面影响。	该列不能用作目标。它将作为特性被自动排除，但如果需要，仍可将其包含在内。	运行版本前和运行版本后	基数
Sparse data	该列具有太多空值。	该列不能用作目标或包含的特性。	运行版本前和运行版本后	无效的插补
Underrepresented class	该列包含少于 10 行的类别。	该列不能用作目标，但可以作为特性包含在内。	运行版本前和运行版本后	-
Feature transform failed	特性的特性类型已从其默认类型手动更改。在此配置下，发生错误。	使用此特性转换，实验版本无法成功运行。请将该特性的特性类型恢复为其以前的值，或从训练中排除该特性。	运行版本后	更改特性类型

自动特性工程洞察

数据集洞察 — 自动特性工程
洞察	含义	对配置的影响	何时确定洞察	其他参考
<number of> auto-engineered features	该列是可用于生成自动构建特性的父特性。	如果此父特性被解释为日期特性，它将自动从配置中删除。建议您改为使用可从中生成的自动构建日期特性。可以覆盖此设置并包含该特性，而不是自动构建的特性。	运行版本前和运行版本后	自动特性工程
Auto-engineered feature	该列是一个自动构建的特性，可以或已经从父日期特性中生成。它没有出现在原始数据集中。	您可以在实验训练期间删除一个或多个这些自动构建的特性。如果将父特性的特性类型切换为分类，则所有自动构建的特性都将被删除。	运行版本前和运行版本后	自动特性工程
Could not process as date	该列可能包含日期和时间信息，但无法用于创建自动构建的日期特性。	该特性已从配置中删除。如果以前从此父特性生成了自动构建的特性，则它们将从未来的实验版本中删除。您仍可以在实验中使用该特性，但必须将其特性类型切换为分类。	运行版本后	自动特性工程
Possible free text	该列可能可用作自由文本特性。	自由文本特性类型已分配给该列。您必须运行实验版本以确认该特性是否可以作为自由文本处理。	运行版本前	自动特性工程
Free text	该列已确认包含自由文本。它可以作为自由文本处理。	该特性不需要其他配置。	运行版本后	自动特性工程
Could not process as free text	经进一步分析，该列无法作为自由文本处理。	您需要在下一个实验版本的配置中取消选择该特性。如果该特性不具有高基数，您也可以选择将特性类型更改为分类。	运行版本后	自动特性工程

智能模型优化洞察

数据集洞察 — 智能模型优化
洞察	含义	对配置的影响	何时确定洞察	其他参考
Target leakage	该特性疑似受到目标泄露的影响。如果是这样，它会包含有关您尝试预测的目标列的信息。具有目标泄露的特性可能会让您对模型性能产生虚假的安全感。在实际预测中，它们会导致模型表现非常糟糕。	该特性尚未用于训练模型。	运行版本后	数据泄露
Low permutation importance	该特性对模型预测几乎没有影响（如果有的话）。删除这些特性可以通过减少统计噪声来提高模型性能。	该特性尚未用于训练模型。	运行版本后	了解排列重要性
Highly correlated	该特性与实验中的一个或多个其他特性高度相关。特性之间高度相关会降低模型性能。	该特性尚未用于训练模型。与其高度相关的特性并未因高度相关而被删除，但可能由于其他原因（例如低置换重要性）而被删除。	运行版本后	关联

时间序列预测洞察

数据集洞察 — 时间序列预测
洞察	含义	对配置的影响	何时确定洞察	其他参考
Possible date index	该特性可能可用作时间序列实验的日期索引。	如果用作时间序列日期索引，该列中的数据可能会影响时间序列配置的各个方面，例如您可以预测多远的未来。日期索引中的值需要随每一行或固定时间间隔内的唯一组值而增加。	运行版本前	使用时间序列实验日期索引

偏差检测洞察

数据集洞察 — 偏差检测
洞察	含义	对配置的影响	何时确定洞察	其他参考
Data bias detected	对于目标列中的值，与其他组相比，某些组（值）的代表性不足。	分析偏差检测结果以确定后续步骤 — 这些步骤可以包括删除特性、更改数据集或使用修改后的框架创建新实验。	运行版本后	检测机器学习模型中的偏差
Representation bias detected	在训练模型如何使用特性中的数据来创建预测方面，已检测到偏差。	分析偏差检测结果以确定后续步骤 — 这些步骤可以包括删除特性、更改数据集或使用修改后的框架创建新实验。	运行版本后	检测机器学习模型中的偏差

本页面有帮助吗？

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们！

在此处留下您的反馈