Familiarisation avec SHAP importance dans l'apprentissage d'une expérimentation
SHAP importance fournit des informations importantes sur les prédictions créées dans les expérimentations. Cela peut vous aider à déterminer les caractéristiques les plus importantes pour la prédiction.
Les valeurs SHAP représentent le niveau de contribution de chaque caractéristique à la valeur prédite de la cible, par rapport à l'ensemble des autres caractéristiques de la ligne en question.
Après l'apprentissage d'une version d'expérimentation, sélectionnez un modèle. Le graphique SHAP importance de l'onglet Modèles sous le tableau montre les données SHAP des prédictions du modèle créées en fonction des données de rétention (test).
Cette rubrique d'aide porte sur SHAP importance dans l'apprentissage d'une expérimentation. Pour des informations sur les ensembles de données SHAP importance générés lors d'une prédiction, voir Génération d'ensembles de données SHAP lors des prédictions.
Vue d'ensemble
SHAP importance est mesuré au niveau de la ligne. Ces valeurs indiquent dans quelle mesure une caractéristique influence la prédiction d'une seule ligne par rapport aux autres caractéristiques de cette ligne et par rapport au résultat moyen de l'ensemble de données. La valeur a une direction et une magnitude, mais, pour l'apprentissage du modèle, la valeur SHAP importance est représentée sous forme de valeur absolue.
Dans le graphique SHAP importance, les valeurs au niveau de la ligne sont agrégées. Cela vous permet de comprendre l'influence des caractéristiques au sein de sous-ensembles de données.
Expérimentations Classification binaire et Régression
Dans une expérimentation Classification binaire ou Régression, le graphique SHAP importance de chaque version de modèle est un graphique à barres affichant la valeur de Shapley moyenne absolue de chaque caractéristique de l'expérimentation. Le graphique SHAP importance est trié de la valeur la plus haute à la valeur la plus basse. Le graphique indique les caractéristiques qui exercent la plus forte influence et celles qui exercent la plus faible influence sur le résultat prédit de la cible, quel que doive être ce résultat.
Expérimentations Classification multiclasse
Dans une expérimentation Classification multiclasse, il existe plusieurs options pour la présentation du graphique SHAP importance. Il s'agit des options suivantes :
Valeurs de Shapley de caractéristiques présentées sous forme de total
Valeurs de Shapley de caractéristiques séparées par classe
Graphiques SHAP importance d'une seule classe
Valeurs de Shapley de caractéristiques présentées sous forme de total
Par défaut, le graphique SHAP importance sera configuré avec le paramètre Toutes les classes : Graphique SHAP - Caractéristiques moyennes.
Cette configuration affiche la valeur SHAP importance de chaque caractéristique, quel que soit le résultat prédit de la cible. Les caractéristiques du graphique sont triées par valeur de Shapley moyenne absolue totale et ne sont pas séparées par classe.
Valeurs de Shapley de caractéristiques séparées par classe
Pour afficher l'influence de chaque caractéristique sur le résultat de la cible comme valeur de chaque classe de l'expérimentation, sélectionnez le paramètre Valeurs de Shapley de caractéristiques par classe. La configuration peut être définie sur Groupé ou Empilé. Les valeurs de Shapley moyennes absolues de chaque classe de l'expérimentation sont présentées avec différentes couleurs pour permettre une comparaison par classe.
Par exemple, imaginons que le champ cible de votre expérimentation comporte quatre classes, ou résultats, possibles (Plan violet, Plan vert, Plan bleu ou Plan rouge). La barre multicolore de chaque caractéristique répartira l'influence exercée par chaque caractéristique sur chacun des quatre résultats possibles de l'expérimentation. Si vous regardez la longueur totale de la barre, vous verrez l'influence totale exercée par la caractéristique sur la prédiction de la cible, quel que soit le résultat prédit.
Graphiques SHAP importance d'une seule classe
Vous avez également la possibilité d'afficher un graphique SHAP importance pour chacun des résultats possibles de la prédiction cible. Les valeurs de Shapley moyennes absolues des résultats prédits d'une seule classe sont présentées.
Par exemple, si la cible de votre expérimentation comporte quatre résultats possibles, vous pouvez afficher quatre graphiques distincts répartissant les caractéristiques ayant le plus d'influence pour les prédictions, permettant d'obtenir chacun des quatre résultats possibles.
Calcul de valeurs de Shapley
Des valeurs de Shapley sont calculées pour une variété d'algorithmes. Les valeurs SHAP importance sont calculées à l'aide de deux méthodes distinctes :
Arborescence SHAP : méthode rapide et exacte permettant d'estimer les valeurs de Shapley de trois modèles d'arborescence
SHAP linéaire : méthode permettant de calculer des valeurs de Shapley pour des modèles linéaires
Algorithme | Types de modèle pris en charge | Méthode de calcul SHAP |
---|---|---|
Classification Forêt d'arbres décisionnels | Classification binaire, classification multiclasse | Arborescence SHAP |
Classification XGBoost | Classification binaire, classification multiclasse | Arborescence SHAP |
Classification LightGBM | Classification binaire, classification multiclasse | Arborescence SHAP |
Classification CatBoost | Classification binaire, classification multiclasse | Arborescence SHAP |
Régression logistique | Classification binaire, classification multiclasse | SHAP linéaire |
Régression Lasso | Classification binaire, classification multiclasse | SHAP linéaire |
Régression du filet élastique | Classification binaire, classification multiclasse | SHAP linéaire |
Classification naïve bayésienne gaussienne | Classification binaire, classification multiclasse | SHAP non calculé |
Régression CatBoost | Régression | Arborescence SHAP |
Régression LightGBM | Régression | Arborescence SHAP |
Régression linéaire | Régression | SHAP linéaire |
Régression Forêt d'arbres décisionnels | Régression | Arborescence SHAP |
Régression SGD | Régression | SHAP linéaire |
Régression XGBoost | Régression | Arborescence SHAP |
Analyse des facteurs clés
Vous pouvez créer des analyses des facteurs clés directement dans une application Qlik Sense afin de comparer l'importance de certains facteurs dans la détermination des données observées pour une métrique métier ou de performances donnée. L'analyse des facteurs clés fonctionne en calculant les valeurs de Shapley au niveau de la ligne pour chaque facteur pris en compte et en les affichant sous forme agrégée. Cela fournit une vue de haut niveau de ce qui dirige les tendances et le comportement des données de votre application. Vous pouvez utiliser les résultats des analyses des facteurs clés pour améliorer la littératie des données de votre entreprise et prendre des décisions mieux informées et plus efficaces.
Pour plus d'informations, consultez Découverte des facteurs d'influence clés sous-jacents à vos données via l'analyse des facteurs clés.