Accéder au contenu principal Passer au contenu complémentaire

Familiarisation avec l'importance des caractéristiques

L'importance des caractéristiques (ou variables) mesure l'impact de chaque caractéristique/variable sur la cible. Cela peut vous permettre d'identifier les problèmes dans l'ensemble de données et d'améliorer le modèle. L'importance des caractéristiques (ou variables) comprend deux visualisations distinctes : Permutation importance et SHAP importance.

Une interprétation simpliste de l'importance des caractéristiques (ou variables) consiste à dire que le fait de changer la variable la plus caractéristique changera davantage la variable cible que de changer toute autre variable. Le changement de deux des variables les plus caractéristiques aura probablement un plus gros impact que le changement d'une seule, mais le principe consiste à dire que quelque chose qui est très peu caractéristique n'a probablement pas beaucoup de puissance prédictive. Son contrôle ou son changement peut ne faire aucune différence.

Utilisation de l'importance des caractéristiques (ou variables)

L'importance des caractéristiques (ou variables) peut permettre d'identifier les problèmes dans les données utilisées pour former le modèle. Par exemple, imaginons que nous essayions de prédire si une opportunité de vente va se conclure ou non, et que nous oubliions d'exclure une colonne contenant la date de conclusion de la vente. Cette colonne est probablement la plus prédictive et par conséquent celle ayant la plus grande importance (étant la plus caractéristique). L'inclure rendrait le modèle plus performant que dans la pratique, car, lorsque nous tentons de prédire le résultat binaire de la conclusion ou non d'une vente, nous n'avons pas accès à la date de conclusion.

L'importance des caractéristiques (ou variables) peut également vous aider à trouver des façons d'améliorer les itérations d'un modèle. Les valeurs les plus caractéristiques peuvent parfois servir de base solide pour la segmentation. Par exemple, un indicateur de paiement automatique peut être une variable très caractéristique. Nous pouvons l'utiliser pour segmenter les données et former un modèle sur les clients qui adhèrent au paiement automatique et un autre modèle sur ceux qui n'y adhèrent pas. Les deux modèles peuvent s'avérer plus performants que notre premier modèle.

Dans d'autres cas, vous serez peut-être en mesure de capturer ou d'extraire des caractéristiques (via l'ingénierie des caractéristiques) capables de mieux représenter ce que décrit une variable plus caractéristique, sans y ajouter de redondance. Par exemple, une variable très caractéristique peut être une gamme de produits fabriquée par une entreprise. La division de la gamme de produits en quelques caractéristiques plus descriptives sur les produits peut s'avérer plus pertinente.

Comparaison entre Permutation importance et SHAP importance

Permutation importance et SHAP importance constituent deux méthodes alternatives pour mesurer l'importance des caractéristiques (ou variables). La principale différence réside dans le fait que la méthode Permutation importance est basée sur la réduction des performances du modèle, tandis que la méthode SHAP importance est fondée sur la magnitude des attributions de caractéristiques.

Utilisation des valeurs

La méthode Permutation importance peut être utilisée pour :

  • Comprendre quelles caractéristiques conserver et quelles caractéristiques exclure.

  • Vérifier l'absence de fuite de données.

  • Comprendre quelles caractéristiques sont les plus importantes pour l'exactitude du modèle.

  • Guider une ingénierie des caractéristiques plus poussée.

La méthode SHAP importance peut être utilisée pour :

  • Comprendre quelles caractéristiques influencent le plus le résultat prédit.

  • Approfondir une caractéristique et comprendre comment les différentes valeurs de cette caractéristique affectent la prédiction.

  • Comprendre ce qui a le plus d'influence sur les lignes ou sous-ensembles individuels au sein des données.

Au niveau des données

Le calcul Permutation importance est appliqué à la totalité de l'ensemble de données. En particulier, pour savoir dans quelle mesure l'exactitude de l'ensemble de données tout entier change si l'on supprime une caractéristique. Cette méthode ne peut pas être utilisée pour comprendre l'influence sur les lignes individuelles.

Le calcul SHAP importance est appliqué au niveau de la ligne et peut être utilisé pour comprendre ce qui est important pour une ligne spécifique. Les valeurs indiquent dans quelle mesure une caractéristique influence la prédiction d'une seule ligne par rapport au résultat moyen de l'ensemble de données.

Influence des valeurs caractéristiques

La méthode Permutation importance ne peut pas être utilisée pour comprendre quelles valeurs d'une caractéristique sont les plus importantes.

Les valeurs de la méthode SHAP importance peuvent être utilisées pour comprendre dans quelle mesure les valeurs d'une caractéristique spécifique influencent le résultat.

Direction

La méthode Permutation importance n'inclut pas de direction.

Les valeurs de la méthode SHAP sont directionnelles. Elles peuvent être positives ou négatives suivant la direction dans laquelle elles ont influencé le résultat prédit.

Magnitude

La magnitude de la méthode Permutation importance mesure l'importance de la caractéristique par rapport à la prédiction générale du modèle.

La magnitude de la méthode SHAP importance mesure l'influence d'une caractéristique spécifique sur la différentiation de la prédiction d'une ligne par rapport à la prédiction générale de l'ensemble de données.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !