审查和微调模型
在第一版模型训练完成后,分析生成的模型指标和推荐的模型。如果需要进一步修改以微调模型,您可以使用手动模型优化运行其他版本。
运行实验版本时,您将被带到 模型 选项卡,在此处可以开始分析生成的模型指标。返回 数据 选项卡,即可访问 架构视图 和 数据视图。可以在 比较 和 分析 选项卡中进行更精细的分析。
分析模型指标表
切换回 模型 选项卡。在 模型指标 部分,推荐的模型会根据常见的质量要求进行突出显示。最佳模型 已自动选择用于分析。
实验中训练的模型提供了三个推荐。单个模型可以出现在多个推荐中。这些推荐是:
-
最佳模型:该模型最能平衡表现最佳的准确度指标和预测速度。
-
最准确:该模型在平衡准确度和原始准确度指标中得分最高。
-
最快模型:该模型具有最快的预测速度,以及强大的准确度相关指标。
选择最适合您使用场景的模型非常重要。在大多数情况下,最佳模型是最有利的选择。但是,您的预测使用场景可能对预测速度或准确度指标有特定要求。
有关如何确定顶级模型类型的深入概览,请参阅 选择您的最佳模型。
显示推荐模型和模型指标的模型指标表
您可以使用推荐上方的下拉筛选器来缩小关注范围。每次更改筛选时,系统都会自动重新计算顶级模型类型。
使用表格上方的 显示指标 选择器在核心指标之间进行切换。您可以根据名称和正在分析的所选指标对模型进行排序。
过度拟合的模型在表中用警告 标记。这些模型不适合部署。过度拟合的原因可能包括训练算法引入的模型复杂性,以及训练数据集的问题。有关更多信息,请参阅 过度拟合。
分析模型训练摘要
我们现在可以关注界面右侧的 模型训练摘要。此摘要可让您探索如何优化模型和输入训练数据以获得最佳性能。模型训练摘要是智能模型优化所提供增强功能的概览。
从下图的摘要中,我们可以看到:
-
训练数据中的特性在训练期间被丢弃,未纳入模型中。
-
该模型的采样率为 100%。
由于目标泄露而丢弃的特性
特性 DaysSinceLastService 在训练期间由于目标泄露而被丢弃。
在此特性列中,在数据收集期间没有定义逻辑来停止计算已取消订阅的客户自上次服务工单以来的天数。因此,模型可能会学会将自上次服务工单以来的大量天数(存在于多年前取消的客户中)与 Churned 字段中的值 yes 相关联。
需要从训练中删除此特性,因为这会导致模型在新数据上的性能非常差。
根本问题被称为目标泄露,这是数据泄露的一种形式。有关数据泄露的更多信息,请参阅 数据泄露。
由于高相互关系而丢弃的特性
我们可以看到 PriorPeriodUsage-Rounded 和 AdditionalFeatureSpend 在训练期间被丢弃。
在这种情况下,至少有一个特性列——PriorPeriodUsage-Rounded——是直接从数据集中的另一列派生出来的。检测到 AdditionalFeatureSpend 存在其他相互关系问题。
删除导致相互关系问题的特性对于训练高质量模型非常重要。
有关相互关系的更多信息,请参阅 关联。
由于低重要性而丢弃的特性
由于置换重要性较低,一些特性也被丢弃。经过初步分析,这些特性被确定对目标结果的影响非常小。这些特性可以被视为统计噪声,并已被删除以提高模型质量。
有关置换重要性的更多信息,请参阅 了解排列重要性。
模型训练摘要
分析 模型 选项卡中的其他可视化
模型 选项卡中还提供了其他可视化,用于进行额外的高级分析。在 模型指标 表中选择不同的模型,以探索特性级性能以及其他可提供模型质量见解的图表。
机器学习实验中的 模型 选项卡,显示可用于分析的其他可视化
比较训练和留出指标
您可以查看其他指标,并将交叉验证训练的指标与留出指标进行比较。
执行以下操作:
-
在实验中,切换到 比较 选项卡。
嵌入式分析随即打开。您可以使用交互式界面深入进行比较模型分析并发现新的见解。
-
在分析左侧的 工作表 面板中,切换到 详细信息 工作表。
-
查看 模型指标 可视化。它显示模型评分指标(例如 F1)以及其他信息。
-
在 要显示的列 部分,使用筛选器窗格在表格中添加和删除列。
-
在下拉列表框中,添加其他指标。可以将训练分数添加到表格中。您可以根据分析需要添加它们。
您现在可以查看交叉验证训练中的 F1 指标,并将其与留出指标进行比较。
添加并查看训练分数以便与留出分数进行比较

专注于特定模型
在模型分析期间的任何时候,您都可以对单个模型进行精细分析。通过交互式体验探索预测准确度、特性重要性和特性分布。
执行以下操作:
-
选择任意模型,然后单击 分析 选项卡。
嵌入式分析随即打开。
-
通过 模型概览 工作表,您可以分析模型的预测准确度。通过 选择 的强大功能增强了分析。单击特性或预测值以进行选择。嵌入式分析中的数据会进行调整以筛选数据。您可以深入钻取特定的特性值 and 范围,以查看特性影响和预测准确度如何变化。
-
切换到其他工作表,您可以查看预测准确度、特性分布和影响分布 (SHAP) 的可视化。此分析内容可以帮助您:
-
揭示影响数据趋势的关键驱动因素。
-
确定特定特性和群组如何影响预测值和预测准确度。
-
识别数据中的异常值。
-
机器学习实验中的 分析 选项卡

后续步骤
在使用智能模型优化运行实验版本后,您可以根据需要运行手动版本以微调模型。要快速创建新的手动版本,您可以切换回 模型 选项卡,然后单击 模型训练摘要 中的 新建手动版本。
在实际场景中,在部署模型之前,根据需要多次重复任何微调步骤非常重要,以确保您拥有最适合您特定使用场景的模型。
有关微调模型的更多信息,请参阅 微调模型。
在本教程中,请转到关于部署模型的下一部分。