Évaluation des modèles de classification binaire

Les modèles de classification binaire distribuent les résultats en deux catégories, par exemple, Oui ou Non. Il est possible d'évaluer l'exactitude selon laquelle un modèle distribue les résultats à l'aide d'une variété de métriques d'évaluation.

Les métriques exposent différents points forts et points faibles du modèle. Aucune d'entre elles ne peut être à elle seule une véritable mesure d'une bonne adaptation. En particulier, il est important de noter qu'un excellent score d'exactitude général ne signifie pas forcément que le modèle est excellent. Par exemple, que se passerait-il si une entreprise enregistrait un taux de conversion de seulement 10 % ? Le modèle pourrait avoir un score d'exactitude de 90 % en disant simplement qu'aucun lead n'aboutira jamais à une conversion. C'est là où le score F1, le rappel et la précision entrent en jeu, pour aider à déterminer l'équilibre entre les points forts et les points faibles d'un modèle. Si le modèle suppose que 100 % des leads n'aboutiront pas à un conversion, le score F1 sera de 0.

Lors de l'apprentissage d'une expérimentation de classification binaire, les graphiques suivants sont automatiquement générés pour fournir une analyse rapide des scores des modèles :

Matrice de confusion : graphique synthétisant l'exactitude des résultats de prédiction d'un modèle de classification. Consultez Matrice de confusion.
Courbe ROC : graphique montrant dans quelle mesure un modèle d'apprentissage automatique peut prédire correctement la classe positive lorsque le résultat réel est positif. Voir AUC et courbe ROC.

Matrice de confusion

La plupart des métriques des problèmes de classification binaire sont générées par différents calculs des valeurs de la matrice de confusion. La matrice de confusion est l'une des visualisations affichées dans l'onglet Modèles. Elle indique le nombre de valeurs vraies et fausses réelles correctement prédites, avec un total pour chaque classe. Les valeurs affichées sur le graphique sont basées sur les données de rétention automatique utilisées pour valider les performances du modèle après l'apprentissage. Chaque enregistrement de l'ensemble de données est trié dans l'un des quadrants suivants :

Les valeurs vraies positives (True Positive ou TP) sont des valeurs vraies réelles correctement prédites comme vraies.
Les valeurs fausses positives (False Positive ou FP) sont des valeurs fausses réelles incorrectement prédites comme vraies.
Les valeurs fausses négatives (False Negative ou FN) sont des valeurs vraies réelles incorrectement prédites comme fausses.
Les valeurs vraies négatives (True Negative ou TN) sont des valeurs fausses réelles correctement prédites comme fausses.

Sous les nombres de chaque quadrant, vous pouvez également voir les valeurs en pourcentage des métriques recall/rappel (TP), fallout (FP), miss rate (FN) et specificity/spécificité (TN). Survolez une valeur à l'aide de la souris pour afficher une info-bulle contenant la métrique.

Matrice de confusion avec des quadrants. — Matrice de confusion d'un modèle de classification binaire

Tout cas réaliste affichera des valeurs fausses positives et fausses négatives dans la matrice de confusion. Des prédictions parfaites sur les données d'apprentissage indiqueraient que le modèle a mémorisé les réponses et qu'il sera peu performant dans la pratique. C'est pourquoi vous voulez vous assurer de capturer suffisamment de valeurs vraies positives et négatives.

Dans certains cas, une régression serait le choix approprié pour votre problème d'apprentissage automatique, mais vous pouvez tout de même rechercher la compréhension facile fournie par la matrice de confusion. Dans ce cas, ce que vous pouvez faire, c'est exécuter un modèle sous forme de régression et un modèle sous forme de classification binaire avec les mêmes données à l'exception de la colonne cible. Cela combinera l'explication facile d'un classificateur binaire et la robustesse d'une régression.

Score F1

Le score F1 est une métrique qui tente de tenir compte de l'exactitude lorsque les classes sont déséquilibrées en se concentrant sur l'exactitude des prédictions positives et sur les enregistrements positifs réels. On peut le considérer comme la mesure de l'exactitude avec laquelle le modèle capture les résultats qui comptent. La métrique tente d'équilibrer le rappel et la précision pour trouver dans l'idéal un résultat entre les deux. Notez que plus un ensemble de données est déséquilibré, moins le score F1 risque d'être uniforme, au même niveau d'exactitude général.

Si la valeur F1 est élevée, toutes les autres métriques d'évaluation le seront elles aussi. Si la valeur est faible, vous devez approfondir l'analyse. Cependant, si le score est très élevé, ou si le score de rétention est beaucoup plus faible que le score de validation croisée, cela peut indiquer une fuite de données.

Le score F1 est calculé comme suit : 2 x ((Précision x Rappel) / (Précision + Rappel)

Rappel

Le rappel (recall) est le taux de résultats vrais positifs. Il mesure la fréquence à laquelle le modèle a correctement prédit une valeur vraie lorsque quelque chose était effectivement vrai. À savoir, dans quelle mesure le modèle a-t-il trouvé tous les cas vrais réels d'un ensemble de données ? Le rappel est la mesure de la bonne mémorisation de la classe positive. Cela est calculé comme suit : TP / (TP + FN)

Précision

La précision est également connue comme la valeur prédictive positive. Elle mesure la probabilité selon laquelle le modèle avait raison en prédisant que quelque chose était vrai. Cela est calculé comme suit : TP / (TP + FP)

Compromis entre rappel et précision

Le rappel peut être décrit comme la mesure de la largeur du filet du modèle : toutes les valeurs définies sur true ont-elles été capturées, même si cela aboutissait à des prédictions fausses positives ? A-t-il capturé autant de valeurs vraies que possible ? La précision est un peu l'inverse du rappel. Ici, nous voulons nous assurer que lorsque le modèle prédit que quelque chose est vrai, il se montre très précis à prédire cette vérité. Cependant, en cas de grande précision, on obtient plus de faux négatifs, auquel cas le modèle prédit que quelque chose est faux, même si ce quelque chose est vrai.

Il convient de faire un compromis entre ne rater aucun résultat vrai et être sûr qu'aucun des résultats prédits comme vrais n'était en fait faux. Savoir s'il est préférable de pencher pour une précision supérieure ou un rappel supérieur dépend du cas d'utilisation. Par exemple, pour prédire un diagnostic de maladie, vous voulez vous assurer de ne pas laisser passer des patients qui souffraient réellement de la maladie, à savoir, des faux négatifs.

Si le « coût » d'un faux négatif est élevé, un modèle penchant vers un rappel élevé peut se justifier.
Si le « coût » d'un faux positif est élevé, un modèle penchant vers une précision élevée peut se justifier.

Exactitude

L'exactitude mesure la fréquence moyenne à laquelle le modèle a effectué une prédiction correcte. Cela est calculé comme suit : (TP + TN) / (Toutes les prédictions)

Spécificité

La spécificité (specificity) est le taux de valeurs vraies négatives. Ce taux mesure la fréquence à laquelle le modèle a correctement prédit une valeur fausse lorsque quelque chose était effectivement faux. Cela est calculé comme suit : TN / (FP + TN)

Coefficient de corrélation de Matthews MCC

Le coefficient MCC (Matthews Correlation Coefficient) varie de -1 à 1, où 1 signifie que le modèle a correctement prédit chaque échantillon. Le MCC est calculé comme suit : ((TP x TN) - (FP x FN)) / [(TP + FP) x (FN + TN) x (FP + TN) x (TP + FN)]^(1/2)

Taux de faux négatifs

Le taux Miss rate est le taux de faux négatifs. Il s'agit du ratio entre le nombre de faux négatifs et le nombre total d'événements positifs réels. Cela est calculé comme suit : FN / (TP + FN)

Taux de faux positifs

Le taux Fallout est le taux de faux positifs. Il s'agit du ratio entre le nombre de faux positifs et le nombre total d'événements négatifs réels. Cela est calculé comme suit : FP / (FP + TN)

Valeur prédictive négative NPV

La valeur NPV (Negative Predictive Value) mesure la probabilité selon laquelle le modèle avait raison en prédisant que quelque chose était faux. Cela est calculé comme suit : TN / (FN + TN)

Perte logarithmique

Log Loss (perte de logarithme) est une mesure courante de l'exactitude en régression logistique. Une valeur Log Loss inférieure signifie de meilleures prédictions ; la valeur Log Loss d'un modèle parfait serait de 0.

AUC et courbe ROC

AUC (Area Under the Curve) est une métrique d'exactitude plus compliquée qui peut vous aider à comprendre dans quelle mesure un modèle est déterministe. Elle décrit dans quelle mesure le modèle peut prédire la classe positive lorsque le résultat réel est positif.

La métrique AUC est définie comme la zone sous une courbe ROC. La courbe ROC trace le taux de faux positifs (axe des abscisses) par rapport au taux de vrais positifs (axe des ordonnées) pour un nombre de différentes valeurs de seuil ou limites (threshold) comprises entre 0.0 et 1.0. En d'autres termes, elle trace le taux de fausses alarmes par rapport au taux de réussite. La courbe est utile pour comprendre s'il est possible de séparer les classes, ce qui indique si les données sont suffisamment bonnes pour pouvoir faire une distinction exacte entre les résultats prédits.

Le taux de vrais positifs est calculé comme suit : TP / (TP + FN)

Plus le taux de vrais positifs est proche de 1.0 (la zone possible maximale sous la courbe), plus le modèle est déterministe.
Plus le taux de vrais positifs est proche de 0.5, moins le modèle est déterministe.

L'image ci-dessous montre une bonne courbe ROC. Elle est considérée comme bonne, car la courbe doit être aussi proche que possible de 1, ce qui donne une valeur AUC élevée. La ligne en pointillés est aléatoire, 50:50. Si la valeur AUC est faible, la courbe est considérée comme mauvaise.

Seuil

Le seuil ou la limite (threshold) est la probabilité qu'une prédiction est vraie. Il représente le compromis entre les faux positifs et les faux négatifs. La valeur de seuil est déterminée par algorithme et vous obtiendrez probablement une valeur de seuil différente pour chaque algorithme de votre modèle.

Affinement du seuil

L'affinement du seuil constitue une méthode efficace pour s'assurer de sélectionner la valeur de seuil correcte afin d'optimiser les scores F1 des modèles de classification binaire. AutoML calcule la précision et le rappel pour des centaines de seuils possibles différents de 0 à 1. Le seuil qui atteint le score F1 le plus élevé est celui qui est sélectionné.

La sélection du seuil, au lieu de s'appuyer sur le seuil de 0.5 par défaut, produit des prédictions plus robustes pour les ensembles de données dont le nombre de cas positifs et négatifs est déséquilibré.

Sur le graphique, le seuil est défini sur 0.5. Dans ce cas, les enregistrements qui étaient effectivement vrais et prédisaient une valeur inférieure à 0.5 ont reçu le libellé de prédiction faux (faux négatifs).

Graphique avec un seuil marqué sur 0.5. — Valeur de seuil de 0.5

En modifiant le seuil qui décide si un enregistrement est prédit comme vrai ou faux, nous pouvons pencher vers un rappel supérieur ou vers une précision supérieure.

Graphique avec deux seuils alternatifs marqués. — Les valeurs de seuil alternatives aboutissent à un rappel supérieur ou à une précision supérieure

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici