Familiarisation avec SHAP importance dans l'apprentissage d'une expérimentation

SHAP importance fournit des informations importantes sur les prédictions créées dans les expérimentations. Cela peut vous aider à déterminer les caractéristiques les plus importantes pour la prédiction.

Les valeurs SHAP représentent le niveau de contribution de chaque caractéristique à la valeur prédite de la cible, par rapport à l'ensemble des autres caractéristiques de la ligne en question.

Après l'apprentissage d'une version d'expérimentation, sélectionnez un modèle. Le graphique SHAP importance de l'onglet Modèles sous le tableau montre les données SHAP des prédictions du modèle créées en fonction des données de rétention (test).

Cette rubrique d'aide porte sur SHAP importance dans l'apprentissage d'une expérimentation. Pour des informations sur les ensembles de données SHAP importance générés lors d'une prédiction, voir Génération d'ensembles de données SHAP lors des prédictions.

Vue d'ensemble

SHAP importance est mesuré au niveau de la ligne. Ces valeurs indiquent dans quelle mesure une caractéristique influence la prédiction d'une seule ligne par rapport aux autres caractéristiques de cette ligne et par rapport au résultat moyen de l'ensemble de données. La valeur a une direction et une magnitude, mais, pour l'apprentissage du modèle, la valeur SHAP importance est représentée sous forme de valeur absolue.

Dans le graphique SHAP importance, les valeurs au niveau de la ligne sont agrégées. Cela vous permet de comprendre l'influence des caractéristiques au sein de sous-ensembles de données.

Expérimentations Classification binaire et Régression

Dans une expérimentation Classification binaire ou Régression, le graphique SHAP importance de chaque version de modèle est un graphique à barres affichant la valeur de Shapley moyenne absolue de chaque caractéristique de l'expérimentation. Le graphique SHAP importance est trié de la valeur la plus haute à la valeur la plus basse. Le graphique indique les caractéristiques qui exercent la plus forte influence et celles qui exercent la plus faible influence sur le résultat prédit de la cible, quel que doive être ce résultat.

Cliquez pour voir en taille réelle — Graphique SHAP importance affiché lors de l'apprentissage d'un modèle Classification binaire

Expérimentations Classification multiclasse

Dans une expérimentation Classification multiclasse, il existe plusieurs options pour la présentation du graphique SHAP importance. Il s'agit des options suivantes :

Valeurs de Shapley de caractéristiques présentées sous forme de total
Valeurs de Shapley de caractéristiques séparées par classe
Graphiques SHAP importance d'une seule classe

Valeurs de Shapley de caractéristiques présentées sous forme de total

Par défaut, le graphique SHAP importance sera configuré avec le paramètre Toutes les classes : Graphique SHAP - Caractéristiques moyennes.

Cette configuration affiche la valeur SHAP importance de chaque caractéristique, quel que soit le résultat prédit de la cible. Les caractéristiques du graphique sont triées par valeur de Shapley moyenne absolue totale et ne sont pas séparées par classe.

Valeurs de Shapley de caractéristiques séparées par classe

Pour afficher l'influence de chaque caractéristique sur le résultat de la cible comme valeur de chaque classe de l'expérimentation, sélectionnez le paramètre Valeurs de Shapley de caractéristiques par classe. La configuration peut être définie sur Groupé ou Empilé. Les valeurs de Shapley moyennes absolues de chaque classe de l'expérimentation sont présentées avec différentes couleurs pour permettre une comparaison par classe.

Par exemple, imaginons que le champ cible de votre expérimentation comporte quatre classes, ou résultats, possibles (Plan violet, Plan vert, Plan bleu ou Plan rouge). La barre multicolore de chaque caractéristique répartira l'influence exercée par chaque caractéristique sur chacun des quatre résultats possibles de l'expérimentation. Si vous regardez la longueur totale de la barre, vous verrez l'influence totale exercée par la caractéristique sur la prédiction de la cible, quel que soit le résultat prédit.

Graphiques SHAP importance d'une seule classe

Vous avez également la possibilité d'afficher un graphique SHAP importance pour chacun des résultats possibles de la prédiction cible. Les valeurs de Shapley moyennes absolues des résultats prédits d'une seule classe sont présentées.

Par exemple, si la cible de votre expérimentation comporte quatre résultats possibles, vous pouvez afficher quatre graphiques distincts répartissant les caractéristiques ayant le plus d'influence pour les prédictions, permettant d'obtenir chacun des quatre résultats possibles.

Calcul de valeurs de Shapley

Des valeurs de Shapley sont calculées pour une variété d'algorithmes. Les valeurs SHAP importance sont calculées à l'aide de deux méthodes distinctes :

Arborescence SHAP : méthode rapide et exacte permettant d'estimer les valeurs de Shapley de trois modèles d'arborescence
SHAP linéaire : méthode permettant de calculer des valeurs de Shapley pour des modèles linéaires

Algorithmes disponibles par types de modèle et méthode de calcul SHAP
Algorithme	Types de modèle pris en charge	Méthode de calcul SHAP
Classification Forêt d'arbres décisionnels	Classification binaire, classification multiclasse	Arborescence SHAP
Classification XGBoost	Classification binaire, classification multiclasse	Arborescence SHAP
Classification LightGBM	Classification binaire, classification multiclasse	Arborescence SHAP
Classification CatBoost	Classification binaire, classification multiclasse	Arborescence SHAP
Régression logistique	Classification binaire, classification multiclasse	SHAP linéaire
Régression Lasso	Classification binaire, classification multiclasse	SHAP linéaire
Régression du filet élastique	Classification binaire, classification multiclasse	SHAP linéaire
Classification naïve bayésienne gaussienne	Classification binaire, classification multiclasse	SHAP non calculé
Régression CatBoost	Régression	Arborescence SHAP
Régression LightGBM	Régression	Arborescence SHAP
Régression linéaire	Régression	SHAP linéaire
Régression Forêt d'arbres décisionnels	Régression	Arborescence SHAP
Régression SGD	Régression	SHAP linéaire
Régression XGBoost	Régression	Arborescence SHAP

Analyse des facteurs clés

Vous pouvez créer des analyses des facteurs clés directement dans une application Qlik Sense afin de comparer l'importance de certains facteurs dans la détermination des données observées pour une métrique métier ou de performances donnée. L'analyse des facteurs clés fonctionne en calculant les valeurs de Shapley au niveau de la ligne pour chaque facteur pris en compte et en les affichant sous forme agrégée. Cela fournit une vue de haut niveau de ce qui dirige les tendances et le comportement des données de votre application. Vous pouvez utiliser les résultats des analyses des facteurs clés pour améliorer la littératie des données de votre entreprise et prendre des décisions mieux informées et plus efficaces.

Pour plus d'informations, consultez Découverte des facteurs d'influence clés sous-jacents à vos données via l'analyse des facteurs clés.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici