执行快速模型分析
当模型完成实验版本的训练后,对最重要的模型指标进行分析,并访问训练数据处理方式的摘要。快速分析在数据和模型选项卡中执行。
使用模型选项卡获取您的训练结果概览。运行实验版本时,系统会自动切换到模型选项卡。还建议您重新访问数据选项卡,以检查数据是如何预处理和处理的。
有其他选项可用于进一步评估模型。您可以在模型之间比较其他指标和超参数,或者专注于特定的模型进行精细分析。这些选项在比较和分析选项卡中提供。有关更多信息,请参阅:
理解概念
在开始评估模型之前,对模型分析背后的概念有一个基本的了解可能会有所帮助。有关更多信息,请参阅了解模型审查概念。
优化设置对分析的影响
根据您是否使用了智能模型优化,您的分析体验可能会略有不同。默认情况下,新实验的智能模型优化处于打开状态。
分析用智能优化训练的模型
默认情况下,新实验使用智能模型优化运行。
智能模型优化提供了一个更稳健的训练过程,理想情况下,该流程可创建一个几乎不需要进一步改进就可以部署的模型。部署这些模型以用于生产用例时,这些模型的性能仍然取决于使用包含相关特性和数据的高质量数据集对其进行的训练。
如果您的版本接受训练时使用了智能模型优化,请考虑以下方面:
-
版本中的每个模型都可以根据算法分析数据的方式拥有不同的特性选择。
-
在深入具体分析之前,在模型选项卡中阅读模型的模型训练摘要。 模型训练摘要显示了 AutoML 如何通过迭代特性选择和应用高级转换来自动优化模型的摘要。
有关智能模型优化的更多信息,请参阅智能模型优化。
分析不用智能优化训练的模型
或者,您可能已经关闭了训练版本的智能模型优化。如果您需要对训练过程进行更多控制,手动优化模型可能会有所帮助。
如果使用手动优化,则版本中的所有模型都将具有相同的特性选择,因此不需要模型训练摘要。
检查配置
在预处理过程中,特性可能已被排除,不在训练中使用。这通常是因为随着训练的进行,用户对数据的了解比运行版本之前更多。
在查看了模型训练摘要(仅对智能优化显示)后,如果需要检查这些其他更改,您可以仔细查看实验配置。
执行以下操作:
-
在实验中,切换到数据选项卡。
-
确保您处于 模式视图中。
-
使用工具栏中的下拉菜单从版本中选择模型。
-
分析模型模式。您可能希望关注见解和特性类型列,以查看某些特性是否被删除或已转换为不同的特性类型。
例如,在运行版本后,最初标记为可能的自由文本的特性可能已被排除。
有关每个见解含义的更多信息,请参阅解释数据集见解。
请注意,如果您使用默认的智能优化选项运行版本,由于自动优化,版本中的每个模型可能会有不同的特性选择。如果该版本在没有智能优化的情况下运行,则该版本中所有模型的特性选择都将是相同的。有关智能模型优化的更多信息,请参阅智能模型优化。
根据您在此配置中发现的内容,您可能需要返回到数据集准备阶段以改进您的特性数据。
关闭智能模型优化后,您将无法在快速分析体验中看到模型训练摘要。此外,实验版本的所有模型将使用相同的特性组合,而用智能优化训练的模型可以有不同的特性组合。
选择模型
训练完成后,将自动选择性能最佳的模型进行分析,并显示该模型的指标。每个实验版本中表现最佳的模型都带有 图标。
在模型之间切换,以比较指标和配置的差异。如果您在数据选项卡上,请使用工具栏中的下拉菜单选择模型。如果您在模型选项卡上,请单击模型指标表中的模型以选择模型。
分析训练摘要
对于用智能模型优化训练的模型,模型训练摘要概述了训练期间情况的关键信息。该摘要包括:
-
模型的采样率。
-
由于智能优化而自动删除的特性列表。此列表因所选模型而异。
-
指向训练数据集的链接。
如果您手动优化模型,则不会显示模型训练摘要。
有关智能模型优化的更多信息,请参阅智能模型优化。
模型训练摘要没有列出在预处理阶段删除的特性。要检查此信息,请返回实验的数据选项卡。参阅: 检查配置
执行以下操作:
-
在实验中,切换到模型选项卡。
-
确认您已选择的要分析的模型。
-
在页面右侧的模型见解部分,查看模型训练摘要。
分析模型指标表
模型指标表提供了有关实验中每个模型性能的概括性信息。此表显示在模型选项卡中。
当您在模型选项卡中时,模型指标表也是您选择要分析的模型的位置。
模型指标表显示:
-
该模型在其版本中是否表现最佳
-
每个模型的名称(为方便起见,可以编辑此名称。参阅:编辑模型详细信息)
-
用于训练模型的算法
-
给定实验目标定义的模型类型,最重要的模型性能得分的值:
有关您的实验训练哪种类型的模型的更多信息,请参阅确定创建的模型类型。
筛选表中的模型
可以筛选模型指标表,仅显示要比较的模型。
有以下筛选器可用,可以根据需要组合使用:
-
版本:选择一个或多个实验版本。
-
算法:选择一个或多个算法。
-
表现最佳者:显示所有版本中表现最佳的模型(用 图标标记)。位于更多模型筛选器下。
-
100% 采样:默认情况下应用此筛选器。可根据需要将其删除。筛选器显示了使用整个训练数据集完成训练和交叉验证过程的模型。位于更多模型筛选器下。
-
已部署:显示已部署到 ML 部署中的模型。位于更多模型筛选器下。
解释特性重要性可视化
在模型选项卡中,向下滚动以查看特性重要性可视化。这些可视化将是排列重要性和 SHAP 重要性。
排列重要性图表
排列重要性图表显示了每个特性对模型整体预测的重要性。您在排列重要性图表中看到的内容可以帮助您了解如何改进模型。
通过分析此图表,您可以获得以下常见见解:
-
如果一个特性几乎占据了所有的重要性,这可能是目标泄露的迹象。需要删除该特性。如果这是由数据质量问题引起,那么这些问题也需要得到解决。
-
某些特性可能对模型预测几乎没有影响。排列重要性极低的特性可被视为统计噪声,应予以去除。
如果使用智能模型优化来训练版本,那么通过删除这些特性,上述一些常见问题可能会自动得到解决。
有关排列重要性的更多信息,请参阅了解排列重要性。
SHAP 重要性图表
SHAP 重要性图提供了另一种分析实验中每个特性对每个模型预测的影响的方法。这可以让您尽早了解哪些功能是重要的,或者您是否需要重新配置训练。有关更多信息,请参阅了解实验训练中的 SHAP 重要性。
解释模型评分可视化
如果您的实验是一个二元分类问题,则会自动生成许多其他可视化结果以供快速使用。这些可视化可以让您更深入地了解模型预测阳性和阴性类别的能力。
有关这些可视化的更多信息,请参阅二元分类模型评分。
混淆矩阵
混淆矩阵图表显示了模型创建的预测的准确性。对自动保持数据进行预测。
ROC 曲线
ROC 曲线图表描述了当实际结果为正时,模型在预测正类方面效果如何。
有关理想 ROC 曲线的指示,请参阅AUC 和 ROC 曲线。