执行 详细的模型分析
在实验的分析选项卡中,您可以专注于单个模型,以深入分析其预测性能。使用嵌入式分析进行详细分析。
训练已完成,请选择模型。接下来打开分析选项卡,查看有关模型预测准确性、影响数据趋势的因素的更多信息以及其他信息。分析选项卡中显示的数据基于模型根据保留数据生成的预测。
详细模型分析的一些主要优点包括:
-
交互式界面,您可以根据需要改进和自定义可视化数据。
-
详细查看对操持数据的预测,以及特性重要性统计数据。
分析工作流
为了全面了解模型训练结果,建议您完成快速分析,然后继续操作比较和分析选项卡中的其他选项。快速分析提供了一个模型训练摘要,显示了在智能优化过程中删除了哪些特性,还提供了许多自动生成的可视化结果以供快速使用。比较和分析选项卡不显示模型训练摘要,但可以让您更深入地了解模型指标,以更好地了解模型的质量。
有关其他分析选项的更多信息,请参阅:
理解概念
在开始评估模型之前,对模型分析背后的概念有一个基本的了解可能会有所帮助。有关更多信息,请参阅了解模型审查概念。
优化设置对分析的影响
根据您是否使用了智能模型优化,您的分析体验可能会略有不同。默认情况下,新实验的智能模型优化处于打开状态。
分析用智能优化训练的模型
默认情况下,新实验使用智能模型优化运行。
智能模型优化提供了一个更稳健的训练过程,理想情况下,该流程可创建一个几乎不需要进一步改进就可以部署的模型。部署这些模型以用于生产用例时,这些模型的性能仍然取决于使用包含相关特性和数据的高质量数据集对其进行的训练。
如果您的版本接受训练时使用了智能模型优化,请考虑以下方面:
-
版本中的每个模型都可以根据算法分析数据的方式拥有不同的特性选择。
-
在深入具体分析之前,在模型选项卡中阅读模型的模型训练摘要。 模型训练摘要显示了 AutoML 如何通过迭代特性选择和应用高级转换来自动优化模型的摘要。
有关智能模型优化的更多信息,请参阅智能模型优化。
分析不用智能优化训练的模型
或者,您可能已经关闭了训练版本的智能模型优化。如果您需要对训练过程进行更多控制,手动优化模型可能会有所帮助。
如果使用手动优化,则版本中的所有模型都将具有相同的特性选择,因此不需要模型训练摘要。
检查配置
在预处理过程中,特性可能已被排除,不在训练中使用。这通常是因为随着训练的进行,用户对数据的了解比运行版本之前更多。
在查看了模型训练摘要(仅对智能优化显示)后,如果需要检查这些其他更改,您可以仔细查看实验配置。
执行以下操作:
-
在实验中,切换到数据选项卡。
-
确保您处于 模式视图中。
-
使用工具栏中的下拉菜单从版本中选择模型。
-
分析模型模式。您可能希望关注见解和特性类型列,以查看某些特性是否被删除或已转换为不同的特性类型。
例如,在运行版本后,最初标记为可能的自由文本的特性可能已被排除。
有关每个见解含义的更多信息,请参阅解释数据集见解。
请注意,如果您使用默认的智能优化选项运行版本,由于自动优化,版本中的每个模型可能会有不同的特性选择。如果该版本在没有智能优化的情况下运行,则该版本中所有模型的特性选择都将是相同的。有关智能模型优化的更多信息,请参阅智能模型优化。
根据您在此配置中发现的内容,您可能需要返回到数据集准备阶段以改进您的特性数据。
启动详细分析
您可以通过多种方式对特定模型进行详细分析:
-
在数据或模型选项卡中选择一个模型,单击模型旁边的 ,然后单击 分析。
-
选择模型后,单击分析选项卡。
-
如果您已经在查看模型的详细信息分析,请使用工具栏中的下拉菜单选择其他模型。
分析内容取决于实验目标所定义的模型类型。不同的模型类型将有不同的指标。
导航嵌入式分析
使用交互式界面以使用嵌入式分析来分析模型。
在工作表之间切换
工作表面板允许您在分析中的工作表之间切换。每张工作表都有一个特定的焦点。面板可以根据需要展开和折叠。
选择选择项
使用 选择来优化数据。您可以选择特性并向下钻取到特定的值和范围。这让您可以在需要时仔细查看。在某些情况下,您可能需要做出一个或多个选择才能显示可视化。单击可视化和筛选器窗格中的数据值进行选择。
您可以通过以下方式处理选择:
-
通过单击内容、定义范围和绘图来选择值。
-
在图表中搜索以选择值。
-
单击嵌入式分析顶部工具栏中的选定字段。这允许您在现有选择项中搜索、锁定或解锁它们,并进一步修改它们。
-
在嵌入式分析顶部的工具栏中,单击 以删除选择。单击 图标清除所有选择。
-
通过单击 和 ,在选择中前进和后退。
分析包含筛选器窗格,以便更容易地优化数据。在筛选器窗格中,单击要选择的值的复选框。如果筛选器窗格包含多个列表框,请单击一个列表框将其展开,然后进行任何所需的选择。
将数据导出到目录
您可以将详细分析中使用的数据导出到目录中。数据导出到 Qlik Cloud 分析 中的空间。您可以使用导出的数据创建自己的 Qlik Sense 应用程序进行自定义分析。
有关更多信息,请参阅导出模型训练数据。
分析预测准确度
如何解释预测的准确性将取决于训练数据集的结构和机器学习用例。此外,这些可视化的解释取决于模型类型。以下部分提供了每种模型的更多信息。
模型概览工作表的预测部分提供了模型正确和错误预测数量的聚合概述。
使用预测和特性分布工作表,重点分析特定特性,以分析预测不准确的性质。在工作表左侧的筛选器窗格中选择单个特性。对于所有模型类型,此表并排显示预测不准确度和实际值分布,以帮助用户正确分析数据。
二元分类模型
分析整个模型
在模型概览工作表的预测部分中,显示了混淆矩阵中定义的原始数据。这包括真阳性和假阳性,以及真阴性和假阴性。这些值以静态总计的形式呈现,因此它们不会对选择做出响应。要进一步了解这些值的含义,请参阅混淆矩阵。
分析数据的子集
在预测和特性分布工作表中,错误预测图表显示了特性中每个可能的特性值或范围的条形图,以及条形图对应于模型所做错误预测数量的高度。条形图中的每种颜色对应于每个实际目标值。选择单个特性和任何其他所需字段中的值,以查看不同数据子集的预测准确度如何变化。
多类别分类模型
分析整个模型
在模型概览工作表的预测部分中,显示了一个条形图,其中的一个条形对应一个实际目标值。条形图的每种颜色的高度对应于模型预测特定类别的次数。除此图表外,预测部分还显示了正确与错误预测的细分。
分析数据的子集
在预测和特性分布工作表中,错误预测图表显示了特性中每个可能的值或范围的条形图,以及条形图对应于模型所做错误预测数量的高度。条形图中的每种颜色对应于每个实际目标值。
回归模型
对于回归模型,您可以在模型和特性级别查看以下信息:
-
目标的平均预测值
-
实际目标值
-
第九十和第十百分位预测范围。这些线显示了模型预期预测值的范围。第九十百分位线将始终是具有较大值的线。
-
平均绝对误差 (MAE)
对于模型范围和特定特性的可视化,分析指标以及特性的实际值分布。
分析特性重要性
访问概览
分析特性重要性可以指明每个特性相对于其他特性如何影响预测。
模型概览工作表的特性影响部分提供了平均绝对 SHAP 值的聚合概览。此图表与模型选项卡中的 SHAP 重要性图表看起来相同。图表会根据您所做的选择进行更新。选择单个特性时,可以深入查看其特定值和范围以获取更多详细信息。
分析 SHAP 分布
您还可以打开特性影响工作表,以更全面地查看每个特性值或范围的 SHAP 值。SHAP 值以方向表示,而不是以绝对值表示。
这种分析可以帮助您识别特定队列中的模式,以及发现数据中的异常值。在图表中选择值或范围,以筛选数据从而进行更精细的分析。
图表的外观和类型取决于您选择的特性类型。
分类特性
分类特性被可视化为框图。框图可帮助您查看每个分类值的 SHAP 值分布。框图具有以下配置:
-
显示平均 SHAP 值
-
使用标准 (Tukey) 配置:
-
值的框由第一个四分位数(下端)和第三四分位数(上端)定义。
-
中间值是框内的水平线。
-
-
上须和下须对应于 1.5 个四分位距的上限和下限。
-
异常值未显示。
数值特性
对于数值特性,SHAP 值显示为散点图。散点图具有以下配置:
-
显示所选样本的 SHAP 值。
-
散点图的观感取决于要显示的数据点的数量。对于数据点数量较少的图表,会显示单个气泡。对于具有大量数据点的图表,气泡被收集到框中,用颜色表示每个框中有多少数据点。
在散点图中,选择特定值或范围以进行更仔细的检查。