了解实验训练中的 SHAP 重要性
SHAP 重要性提供了关于实验中创建的预测的重要见解。它可以帮助您了解哪些特性对预测最重要。
SHAP 值表示在给定该行的所有其他特性的情况下,每个特性对目标的预测值的贡献程度。
训练完实验版本后,选择一个模型。下表模型选项卡中的 SHAP 重要性图表显示了在保持(测试)数据上创建的模型预测中的 SHAP 数据。
实验训练中的 SHAP 重要性有关预测期间生成的 SHAP 重要性数据集的信息,请参阅在预测期间生成 SHAP 数据集。
概述
SHAP 重要性在行级别进行测量。它表示相对于单行中的其他特性以及数据集中的平均结果,特性如何影响单行的预测。该值既有方向也有大小,但对于模型训练,SHAP 重要性以绝对值的形式表示。
在 SHAP 重要性图表中,行级别值被聚合。这可以让您了解数据子集内的特性影响。
二分类和回归实验
在二分类或回归实验中,每个模型版本的 SHAP 重要性图表是条形图,显示实验中每个特性的平均绝对 SHAP 值。SHAP 重要性从最高值到最低值排序。该图表显示了哪些特性对目标的预测结果影响最大和最小,无论确定的结果是什么。
多类别分类实验
在多类别分类实验中,SHAP 重要性图表的呈现有多种选项。存在以下选项:
特性 SHAP 表示为总计
特性 SHAP 值按类分离
单类 SHAP 重要性图表
特性 SHAP 表示为总计
默认情况下,SHAP 重要性图表将配置所有类:平均特性 SHAP 设置。
该配置显示了每个特性的 SHAP 重要性,而与目标的预测结果无关。图表中的特性按总平均绝对 SHAP 值排序,不按类别分隔。
特性 SHAP 值按类分离
要显示每个特性对作为实验中每个类的值的目标结果的影响程度,请选择按类划分特性 SHAP 设置。配置可以设置为分组或堆叠。实验中每个类的平均绝对 SHAP 值用不同的颜色表示,以允许按类进行比较。
例如,假设实验中的目标领域有四个可能的类或结果(紫色计划、绿色计划、蓝色计划或红色计划)。每个特性的多色条形将分解该特性对实验的四个可能结果中的每一个产生的影响程度。如果查看条形的总长度,您将看到特性对目标预测产生的总影响,而与预测结果无关。
单类 SHAP 重要性图表
您还可以选择查看目标预测的每个可能结果的 SHAP 重要性图表。给出了单个类的预测结果的平均绝对 SHAP 值。
例如,若您的实验目标有四个可能的结果,您可以查看四个单独的图表,分解出产生四个可能结果中每一个的预测的最具影响力的特性。
计算 SHAP 值
为各种算法计算 SHAP 值。 SHAP importance 使用两种不同的方法计算:
树形 SHAP:一种快速准确的方法,用来估计树模型的 SHAP 值:
线性 SHAP:一种计算线性模型 SHAP 值的方法
算法 | 支持的模型类型 | SHAP 计算方法 |
---|---|---|
随机森林分类 | 二分类、多类别分类 | 树形 SHAP |
XGBoost 分类 | 二分类、多类别分类 | 树形 SHAP |
LightGBM 分类 | 二分类、多类别分类 | 树形 SHAP |
Catboost 分类 | 二分类、多类别分类 | 树形 SHAP |
逻辑回归 | 二分类、多类别分类 | 线性 SHAP |
套索回归 | 二分类、多类别分类 | 线性 SHAP |
弹性网回归 | 二分类、多类别分类 | 线性 SHAP |
高斯朴素贝叶斯 | 二分类、多类别分类 | 未计算 SHAP |
Catboost 回归 | 回归 | 树形 SHAP |
LightGBM 回归 | 回归 | 树形 SHAP |
线性回归 | 回归 | 线性 SHAP |
随机森林回归 | 回归 | 树形 SHAP |
SGD 回归 | 回归 | 线性 SHAP |
XGBoost 回归 | 回归 | 树形 SHAP |
关键驱动因素分析
您可以直接在 Qlik Sense 应用程序中创建关键驱动因素分析,以比较特定因素在确定特定业务或绩效指标的观察数据时的重要性。关键驱动因素分析的工作原理是为所考虑的每个因素计算行级别的 SHAP 值,并以聚合形式显示它们。这提供了驱动应用程序数据趋势和行为的概览视图。您可以利用关键驱动因素分析的结果来提高组织的数据素养,并做出更明智、更有效的决策。
有关更多信息,请参阅使用关键驱动因素分析揭示数据背后的关键影响因素。