Évaluation des modèles de régression
Les modèles de régression prédisent les résultats sous forme de nombre, indiquant la meilleure estimation par le modèle de la variable cible. Plusieurs métriques sont générées pour que vous puissiez évaluer des modèles de régression.
Coefficient de détermination R2
Le coefficient de détermination R au carré (R2) est une mesure sans unité de la corrélation des caractéristiques par rapport à la cible. Il peut être exprimé comme suit : à quel pourcentage plus proche de la perfection se trouvent les prédictions du modèle par rapport à l'utilisation de la valeur moyenne de la cible ?
Le coefficient R2 varie de l'infinité négative à 1. Plus il se rapproche de 1, plus la variance de la valeur cible peut s'expliquer par les variables caractéristiques. En d'autres termes, plus il est probable que vous ayez des variables très caractéristiques susceptibles d'aboutir à des prédictions exactes.
Les graphiques montrent un exemple de tracé de la hauteur en fonction de l'âge. Sur le premier graphique, la hauteur est davantage corrélée à l'âge, avec un coefficient R2 de 0.97, que sur le deuxième graphique, où le coefficient R2 est de 0.56.
Deux graphiques indiquant la hauteur par rapport à l'âge avec deux coefficients R2 différents

Notez qu'une valeur R2 inférieure ne veut pas forcément dire que le modèle est mauvais. L'interprétation de la valeur R2 dépend du cas d'utilisation et des données. Lors de l'évaluation d'un modèle de régression, il est important de garder en mémoire qu'une relation linéaire n'est pas toujours essentielle. Si la régression linéaire produit de mauvais résultats alors que d'autres algorithmes offrent de meilleures performances, cela peut simplement dire que vos données ne peuvent pas être suffisamment modélisées par une relation linéaire.
REQM
La racine de l'erreur quadratique moyenne (Root Mean Squared Error ou RMSE) peut être interprétée comme la différence +/- moyenne prévue entre une valeur prédite et la valeur réelle. Il s'agit de l'écart type des résidus (la différence entre la valeur observée et la valeur prédite d'une caractéristique). La valeur RMSE est exprimée dans la même unité que celle de la valeur cible.
Par exemple, imaginons que notre cible consiste à prédire une valeur contractuelle et que nous obtenions une valeur RMSE = 1250. Cela signifie qu'en moyenne, la valeur prédite varie de +/- 1 250 $ par rapport à la valeur réelle.
EQM
L’erreur quadratique moyenne (Mean Squared Error ou MSE) peut être interprétée comme la différence +/- au carré entre la valeur prédite et la valeur réelle que nous nous attendrions à voir en moyenne. Elle est exprimée dans la même unité que celle de la valeur cible au carré.
Dans l'exemple de prédiction de la valeur contractuelle, une valeur MSE égale à 1562500 signifie que le modèle est éloigné de +/- 1 562 500 $2. Notez que l'unité est le dollar au carré.
Erreur absolue moyenne MAE
L'erreur absolue moyenne (Mean Absolute Error ou MAE) est la moyenne de toutes les erreurs de prédiction absolues, où l'erreur de prédiction est la différence entre la valeur réelle et la valeur prédite. L'utilisation de la valeur absolue des erreurs de prédiction empêche l'annulation mutuelle des erreurs +/-. La valeur MAE est exprimée dans la même unité que celle de la valeur cible.
Vitesse de prédiction
La vitesse de prédiction est une métrique de modèle qui s'applique à tous les types de modèle : classification binaire, classification multiclasse, régression et série temporelle. La vitesse de prédiction mesure la rapidité avec laquelle un modèle d'apprentissage automatique est capable de générer des prédictions.
Dans Qlik Predict, la vitesse de prédiction est calculée en combinant le temps de calcul des caractéristiques et le temps de prédiction du jeu de données test. Elle s'affiche en lignes par seconde.
La vitesse de prédiction peut être analysée dans le tableau Métriques des modèles après l'exécution de votre version d'expérimentation. Vous pouvez également afficher les données relatives à la vitesse de prédiction lorsque vous analysez des modèles avec des analyses intégrées. Pour plus d'informations, consultez :
Considérations
La vitesse de prédiction mesurée est basée sur la taille du jeu de données d'apprentissage et non sur les données sur lesquelles les prédictions sont effectuées. Après avoir déployé un modèle, vous remarquerez peut-être des différences dans la rapidité de création des prédictions si les données d'apprentissage et de prédiction sont de tailles très différentes, ou lors de la création de prédictions en temps réel sur une ou quelques lignes de données.