跳到主要内容 跳到补充内容

特征重要性

特征重要性衡量每个特征对目标的影响程度。它可以帮助您识别数据集问题并改进模型。特征重要性包括两种不同的可视化:permutation importance 和 SHAP importance。

对特征重要性的简单解释是,改变最重要的特征变量将比改变任何其他变量更能改变目标变量。改变两个最重要特征的变量可能会比只改变一个变量产生更大的影响,但原则是,具有非常低特征重要性的变量可能没有太大的预测能力。控制或改变它可能不会有什么不同。

使用特征重要性

特征重要性有助于识别用于训练模型的数据的问题。例如,假设我们试图预测销售机会是否结束,但我们忘记排除包含销售结束日期的列。这可能是最具预测性的列,因此具有最高的特征重要性。包括它会使模型比现实生活中的表现更好,因为当我们试图预测销售是否结束的二元结果时,我们将无法获得结束日期。

特性重要性也可以帮助您找到方法以迭代方式使模型更好。最重要的特性值有时可以作为细分的良好基础。例如,自动转账标志可能非常重要。我们可以使用此特征对数据进行细分,并针对为自动转账设置的客户训练一个模型,而针对没有自动转账的客户训练另一个模型。这两个模型可能比我们的第一个模型做得更好。

在其他情况下,您可能能够捕获或设计更好地表示更重要的特征变量所描述的特性,而不增加冗余。例如,一个非常重要的特征变量可能是企业正在生产的产品系列。将产品系列划分为几个更具描述性的产品特征可能更为重要。

比较 permutation importance 和 SHAP importance

Permutation importance 和 SHAP importance 是测量特征重要性的替代方法。主要区别在于,permutation importance 基于模型性能的降低,而 SHAP importance 基于特征属性的大小。

如何使用这些值

Permutation importance 可用于:

  • 了解要保留哪些特征和要排除哪些特征。

  • 检查数据泄漏。

  • 了解哪些特征对模型精度最重要。

  • 指导其他特征工程。

SHAP importance 可用于:

  • 了解哪些特征最影响预测结果。

  • 深入一个特征,了解该特征的不同值如何影响预测。

  • 了解什么对数据中的单个行或子集最有影响。

数据级

在整个数据集上计算 Permutation importance。具体而言,通过消除一个特征,整个数据集的准确性会发生多大变化。它不能用于理解对单个行的影响。

SHAP importance 是在行级别计算的,可用于了解对特定行重要的内容。这些值表示特征相对于数据集中的平均结果如何影响单行的预测。

特征值的影响

Permutation importance 无法用于了解特征中的哪些值最重要。

SHAP importance 值可用于了解特定特征内的值如何影响结果。

方向

Permutation importance 不包括方向。

SHAP importance 值是定向的。它们可以是正的,也可以是负的,这取决于它们对预测结果的影响的方向。

量级

permutation importance 的量级衡量特征对模型的整体预测的重要性。

SHAP importance 的量级是特定特征对行的预测有多大的影响,从而不同于数据集的平均预测。

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!