执行快速模型分析
当实验版本的模型训练完成时,对最重要的模型指标进行分析,并访问有关训练数据处理方式的摘要。快速分析在 配置/训练数据 和 模型 选项卡中进行。
使用 模型 选项卡获取训练结果的概览。运行实验版本时,系统会自动切换到 模型 选项卡。还建议您重新访问 训练数据 选项卡,以检查数据的预处理和处理方式。
二分类实验的 模型 选项卡
还有其他选项可用于进一步评估模型。您可以比较模型之间的其他指标和超参数,或者专注于特定模型进行精细分析。这些选项在 比较 和 分析 选项卡中可用。有关更多信息,请参阅:
了解概念
在开始评估模型之前,对模型分析背后的概念有基本的了解会很有帮助。有关更多信息,请参阅 了解模型审查概念。
优化设置对分析的影响
对于分类和回归实验,根据您是否使用了智能模型优化,您的分析体验可能会略有不同。默认情况下,新的分类和回归实验的智能模型优化处于打开状态。
分析用智能优化训练的模型
默认情况下,新的分类和回归实验使用智能模型优化运行。
智能模型优化提供了一个更稳健的训练过程,理想情况下,该流程可创建一个几乎不需要进一步改进就可以部署的模型。部署这些模型以用于生产用例时,这些模型的性能仍然取决于使用包含相关特性和数据的高质量数据集对其进行的训练。
如果您的版本接受训练时使用了智能模型优化,请考虑以下方面:
-
版本中的每个模型都可以根据算法分析数据的方式拥有不同的特性选择。
-
在深入具体分析之前,在模型选项卡中阅读模型的模型训练摘要。模型训练摘要显示了 Qlik Predict 如何通过迭代特性选择和应用高级转换来自动优化模型的摘要。
有关智能模型优化的更多信息,请参阅智能模型优化。
分析不用智能优化训练的模型
或者,您可能已经关闭了训练版本的智能模型优化。如果您需要对训练过程进行更多控制,手动优化模型可能会有所帮助。
如果使用手动优化,则版本中的所有模型都将具有相同的特性选择,因此不需要模型训练摘要。
检查配置
在预处理期间,特征可能会被排除在训练之外。这通常是因为随着训练的进行,与运行版本之前相比,人们对数据有了更多的了解。
在查看 模型训练摘要(仅在进行智能优化时显示)后,如果您需要检查这些其他更改,可以仔细查看实验配置。
执行以下操作:
-
在实验中,切换到 训练数据 选项卡。
-
确保您处于
架构视图。
-
使用工具栏中的下拉菜单从版本中选择模型。
-
分析模型架构。您可能需要重点关注 见解 和 特征类型 列,以查看某些特征是否已被丢弃或已转换为不同的特征类型。
例如,最初标记为 可能的自由文本 的特征在您运行版本后可能已被排除。
有关每个见解含义的更多信息,请参阅 解释数据集洞察。
请注意,如果您使用默认的智能优化选项运行版本,由于自动优化,版本中的每个模型可能会有不同的特征选择。如果运行版本时没有进行智能优化,则版本中所有模型的特征选择将是相同的。有关智能模型优化的更多信息,请参阅 智能模型优化。
根据您在此配置中的发现,您可能需要返回到数据集准备阶段以改进您的特征数据。
关闭智能模型优化后,您将无法在快速分析体验中看到 模型训练摘要。此外,来自实验版本的所有模型都将使用相同的特征组合,而通过智能优化训练的模型可以具有不同的特征组合。
选择模型
训练完成后,系统会自动选择推荐的模型进行分析,并显示该模型的指标。
在模型之间进行切换,以比较指标和配置方面的差异。如果您位于 训练数据 选项卡上,请使用工具栏中的下拉菜单选择模型。如果您位于 模型 选项卡上,请单击 模型指标 表中的模型以选择模型。
分析训练摘要
智能模型优化
对于使用智能模型优化训练的模型,模型训练摘要 概述了训练期间发生的情况的关键信息。此摘要包括:
-
模型的采样比例。
-
由于智能优化而被自动丢弃的特征列表。此列表因所选模型而异。
-
训练模型时应用的所有高级转换的摘要。
-
指向训练数据集的链接。
如果您手动优化模型,则不会显示 模型训练摘要。
有关智能模型优化的更多信息,请参阅 智能模型优化。
在 模型 选项卡中显示的模型的 模型训练摘要 图表
模型 training 摘要未列出在预处理阶段丢弃的特征。要检查此信息,请返回实验的 数据 选项卡。请参阅:检查配置
执行以下操作:
-
在实验中,切换到 模型 选项卡。
-
确认您已选择要分析的模型。
-
在页面右侧的 模型洞察 部分中,查看 模型训练摘要。
时间序列实验
在时间序列实验中,模型训练摘要 显示了时间序列预测问题的配置设置,这些设置由您的数据集和训练设置定义。其中一些细节是在训练开始前估算的,但在分析了整个数据集后,现在已确切证实。您可以查看:
时间序列实验中模型的 模型训练摘要 图表
分析模型指标表
模型指标 表提供了有关实验中每个模型性能的高级信息。此列表中的推荐模型显示在表格上方。
带有推荐模型和筛选器的 模型指标 表
该表显示:
寻找顶级模型
最佳和性能最高的模型是根据您应用的筛选器确定的。它们作为推荐呈现在模型指标表上方,并在表中突出显示。
默认情况下选择 最佳模型。该模型标有 图标。最佳模型是根据兼顾准确度和预测速度的平衡计算确定的。
根据您的用例,您可能也有兴趣单独分析特定的性能标记。其他性能优异的模型用以下标记突出显示:
-
最准确:该模型根据适用于该问题类型的评分指标显示出最高的准确度。
-
最快模型:该模型提供最快的预测速度。准确度也被考虑在内。
您也可以直接从 模型指标 表上方的推荐中选择性能最高的模型。
有关如何确定每种推荐模型类型的完整概览,请参阅 选择您的最佳模型。
筛选表中的模型
可以对模型指标表进行筛选,以仅显示您要比较的模型。
以下筛选器可用,并可根据需要进行组合:
-
版本:选择一个或多个实验版本。
-
算法:选择一个或多个算法。
-
100% 采样:默认情况下应用此筛选器。如果需要,可以将其删除。该筛选器显示使用整个训练数据集完成训练和交叉验证过程的模型。在 更多模型筛选器 下找到。
-
已部署:显示已部署到机器学习部署中的模型。在 更多模型筛选器 下找到。
应用所需的筛选器后,系统会根据筛选出的项目自动重新计算性能最高的模型。然后,您的推荐模型将更新。
解释特征重要性可视化
在 模型 选项卡中,向下滚动以查看特征重要性可视化。这些将是 排列重要性 和 SHAP 重要性。
模型 选项卡中的特征重要性可视化
排列重要性 图表
The 排列重要性 图表显示了每个特征对模型整体预测的重要性。您在 排列重要性 图表中看到的内容可以帮助您了解如何改进模型。
通过分析此图表,您可以获得以下常见见解:
-
如果一个特征几乎消耗了所有的重要性,这很可能是目标泄漏的迹象。该特征需要被删除。如果这是由数据质量问题引起的,这些问题也需要解决。
-
某些特征对模型预测的影响可能非常小,甚至没有影响。排列重要性极低的特征可以被视为统计噪声,应该予以删除。
如果使用智能模型优化来训练该版本,则上述一些常见问题可能已通过丢弃这些特征而自动得到解决。
有关排列重要性的更多信息,请参阅 了解排列重要性。
SHAP 重要性 图表
SHAP 重要性 图表提供了另一种方法来分析实验中的每个特征对每个模型预测的影响。这可以让您尽早了解哪些特征是显著的,或者您是否需要重新配置训练。有关更多信息,请参阅 了解实验训练中的 SHAP 重要性。
解释模型评分可视化
对于某些模型类型,可以使用其他可视化来显示模型运行状况的概览。
二分类
如果您的实验是二分类问题,系统会自动生成许多其他可视化以供快速使用。这些可视化让您更深入地了解模型预测正类和负类的效果如何。
有关这些可视化的更多信息,请参阅 二元分类模型评分。
混淆矩阵
混淆矩阵 图表显示了模型创建的预测的准确度。预测是在自动留出数据上执行的。
ROC 曲线
ROC 曲线 图表描述了当实际结果为正时,模型在预测正类方面的表现有多好。
有关理想 ROC 曲线外观的指示,请参阅 AUC 和 ROC 曲线。
时间序列
对于时间序列模型,系统会自动生成 预测窗口中的预测误差 图表,以提供对预测准确度的洞察。您可以查看预测窗口中每个时间步长的预测误差率。误差率分为第 50、第 10 和第 90 百分位数。
分析偏差检测结果
如果该版本中的任何特征被激活用于偏差检测,您可以快速了解哪些特征被确定具有数据和模型偏差。
由于空间有限,此精简视图中并未显示所有指标和组。例如,如果偏差检测指标是根据这些统计数据计算的,则可能仅显示最小值和最大值。您可以切换到 分析 选项卡,以查看有关每个所选特征的偏差结果的全面详细信息。
有关更多信息,请参阅 偏差结果的快速分析。