Accéder au contenu principal Passer au contenu complémentaire

Familiarisation avec le concept de permutation importance

La méthode Permutation importance mesure l'importance d'une caractéristique par rapport à la prédiction générale d'un modèle. En d'autres termes, dans quelle mesure le modèle serait affecté si vous supprimez sa capacité à tirer un enseignement de cette caractéristique. La métrique peut vous aider à affiner un modèle en modifiant les caractéristiques et les algorithmes à inclure.

Le calcul Permutation importance est effectué via Scikit-learn Permutation importance. Il mesure la diminution du score du modèle après la permutation de la caractéristique.

  • Une caractéristique est « importante » si, lorsqu'on mélange ses valeurs, le score du modèle diminue. En effet, dans ce cas, cela signifie que le modèle s'appuyait sur la caractéristique pour réaliser la prédiction.

  • Une caractéristique est « sans importance » si, lorsqu'on mélange ses valeurs, les performances du modèle restent inchangées. En effet, dans ce cas, cela signifie que le modèle ignorait la caractéristique pour réaliser la prédiction.

Sur le graphique Permutation importance, les caractéristiques sont affichées dans l'ordre de la plus influente (celle ayant le plus gros impact sur les performances du modèle) à la moins influente (celle ayant le moins d'impact sur les performances du modèle). La taille de barre représente l'importance de chaque caractéristique.

Un graphique Permutation importance est automatiquement généré pour chaque modèle dont l'apprentissage est effectué lors d'une expérimentation. Le graphique est affiché dans l'onglet Modèles.

Graphique Permutation importance

Graphique Permutation importance.

Utilisation de Permutation importance pour sélectionner des colonnes de caractéristiques

Lorsque vous itérez l'apprentissage du modèle, vous pouvez vous pencher sur la Permutation importance pour déterminer quelles colonnes conserver et quelles colonnes exclure. Notez les caractéristiques les plus importantes pour plusieurs modèles. Il s'agit probablement des caractéristiques présentant la valeur la plus prédictive et de bons candidats à conserver à mesure que vous affinez votre modèle. De même, les caractéristiques qui se retrouvent régulièrement au bas de la liste ont probablement peu de valeur prédictive et sont probablement de bons candidats à exclure.

Si le score d'un algorithme est bien meilleur que celui des autres, penchez-vous sur le graphique Permutation importance de cet algorithme. Si plusieurs algorithmes ont des scores similaires, vous pouvez comparer leurs graphiques Permutation importance.

Utilisation de Permutation importance pour sélectionner des algorithmes

Chaque algorithme offre une approche unique en matière d'apprentissage des patterns des données d'apprentissage. Les expérimentations sont formées avec différents algorithmes pour voir quelle approche fonctionne le mieux pour le jeu de données en question. Les différentes approches sont reflétées dans les variations de Permutation importance des différents algorithmes. Par exemple, la caractéristique A peut être la plus importante pour le modèle Régression logistique, tandis que la caractéristique B est la plus importante avec l'approche de la Classification XGBoost pour les mêmes données. En règle générale, les caractéristiques très prédictives sont souvent les meilleures pour les différents algorithmes, mais il est courant de constater des variations.

Vous pouvez utiliser cette variation de Permutation importance lorsque vous devez faire votre choix parmi des algorithmes aux scores similaires. Sélectionnez l'algorithme présentant les meilleures caractéristiques et celles qui sont les plus intuitives en fonction de vos connaissances métier spécifiques.

Disponibilité de Permutation importance

L'inclusion dans votre expérimentation de fonctions de texte libre augmente la complexité de l'expérimentation et les processus nécessaires pour l'exécuter. Il est possible que les graphiques Permutation importance ne soient pas disponibles pour les modèles obtenus si les données sous forme de texte libre sont suffisamment complexes.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !