跳到主要内容 跳到补充内容

实验训练中的 SHAP 重要性

SHAP importance 提供了关于实验中创建的预测的重要见解。它可以帮助您了解哪些特性对预测最重要。

SHAP 值表示在给定该行的所有其他特性的情况下,每个特性对目标的预测值的贡献程度。

训练实验版本后,在模型度量表中选择一个模型。下表中的 SHAP 重要性图表显示了在保留(测试)数据上创建的模型预测中的 SHAP 数据。

实验训练中的 SHAP 重要性有关预测期间生成的 SHAP 重要性数据集的信息,请参阅在预测期间生成 SHAP 数据集

概述

SHAP importance 在行级别进行测量。它表示相对于单行中的其他特性以及数据集中的平均结果,特性如何影响单行的预测。该值既有方向也有大小,但对于模型训练,SHAP 重要性以绝对值的形式表示。

在 SHAP importance 图表中,行级别值被聚合。这可以让您了解数据子集内的特性影响。

二分类和回归实验

在二分类或回归实验中,每个模型版本的 SHAP importance 图表是条形图,显示实验中每个特性的平均绝对 SHAP 值。SHAP importance 从最高值到最低值排序。该图表显示了哪些特性对目标的预测结果影响最大和最小,无论确定的结果是什么。

当训练二分类模型时示出的 SHAP importance 图表

多类别分类实验

在多类别分类实验中,SHAP importance 图表的呈现有多种选项。存在以下选项:

  • 特性 SHAP 表示为总计

  • 特性 SHAP 值按类分离

  • 单类 SHAP importance 图表

特性 SHAP 表示为总计

默认情况下,SHAP importance 图表将配置所有类:平均特性 SHAP 设置。

该配置显示了每个特性的 SHAP importance,而与目标的预测结果无关。图表中的特性按总平均绝对 SHAP 值排序,不按类别分隔。

特性 SHAP 值按类分离

要显示每个特性对作为实验中每个类的值的目标结果的影响程度,请选择按类划分特性 SHAP 设置。配置可以设置为分组堆叠。实验中每个类的平均绝对 SHAP 值用不同的颜色表示,以允许按类进行比较。

例如,假设实验中的目标领域有四个可能的类或结果(紫色计划、绿色计划、蓝色计划或红色计划)。每个特性的多色条形将分解该特性对实验的四个可能结果中的每一个产生的影响程度。如果查看条形的总长度,您将看到特性对目标预测产生的总影响,而与预测结果无关。

多类别分类模型的 SHAP importance 图(按类划分的特性 SHAP 选项)

单类 SHAP importance 图表

您还可以选择查看目标预测的每个可能结果的 SHAP importance 图表。给出了单个类的预测结果的平均绝对 SHAP 值。

例如,若您的实验目标有四个可能的结果,您可以查看四个单独的图表,分解出产生四个可能结果中每一个的预测的最具影响力的特性。

计算 SHAP 值

为各种算法计算 SHAP 值。 SHAP importance 使用两种不同的方法计算:

  • 树形 SHAP:一种快速准确的方法,用来估计树模型的 SHAP 值:

  • 线性 SHAP:一种计算线性模型 SHAP 值的方法

按模型类型和 SHAP 计算方法划分的可用算法
算法支持的模型类型SHAP 计算方法
随机森林分类 二分类、多类别分类树形 SHAP
XGBoost 分类二分类、多类别分类树形 SHAP
LightGBM 分类二分类、多类别分类树形 SHAP
Catboost 分类二分类、多类别分类树形 SHAP
逻辑回归二分类、多类别分类线性 SHAP
套索回归二分类、多类别分类线性 SHAP
弹性网回归二分类、多类别分类线性 SHAP
高斯朴素贝叶斯二分类、多类别分类未计算 SHAP
Catboost 回归回归树形 SHAP
LightGBM 回归回归树形 SHAP
线性回归回归线性 SHAP
随机森林回归回归树形 SHAP
SGD 回归回归线性 SHAP
XGBoost 回归回归树形 SHAP

关键驱动因素分析

您可以直接在 Qlik Sense 应用程序中创建关键驱动因素分析,以比较特定因素在确定特定业务或绩效指标的观察数据时的重要性。关键驱动因素分析的工作原理是为所考虑的每个因素计算行级别的 SHAP 值,并以聚合形式显示它们。这提供了驱动应用程序数据趋势和行为的概览视图。您可以利用关键驱动因素分析的结果来提高组织的数据素养,并做出更明智、更有效的决策。

有关详细信息,请参阅使用关键驱动因素分析揭示数据背后的关键影响因素

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!