Sélection du modèle qui vous convient le mieux
Lorsque vous analysez les résultats de votre expérimentation, il est important de rechercher des modèles présentant des caractéristiques spécifiques importantes pour votre cas d'utilisation. Par exemple, outre des prédictions constamment précises, vous pouvez aussi avoir besoin de modèles capables de fournir des prédictions rapidement. Dans l'onglet Modèles de votre expérimentation, des modèles vous sont recommandés en fonction de plusieurs angles d'analyse.
Analyse des meilleurs modèles pour une expérimentation
En fonction de vos filtres, des modèles recommandés sont présentés pour vous aider à prendre en compte plusieurs perspectives de qualité différentes. Un seul modèle peut être considéré comme un meilleur modèle à plus d'un titre. Les types de meilleur modèle sont les suivants :
Affichage des meilleurs modèles dans l'interface utilisateur
Pour des informations sur la recherche et l'exploration des meilleurs modèles pour votre expérimentation, consultez Analyse du tableau Métriques des modèles.
Meilleur modèle
Suivant vos filtres, le meilleur modèle est automatiquement sélectionné pour l'analyse. Le meilleur modèle est mis en évidence par une icône .
Dans Qlik Predict, le meilleur modèle est déterminé par un calcul équilibré qui tient compte des métriques d'exactitude et de la vitesse de prédiction.
Pour déterminer le meilleur modèle, le processus suivant est automatiquement appliqué :
-
Sélectionnez le modèle ayant le score le plus élevé pour la métrique de performance prédictive déterminée par le type de modèle. Les métriques utilisées sont les suivantes :
-
Classification binaire : F1
-
Classification multiclasse : F1 Macro
-
Régression : R2
-
Séries temporelles : MASE (ou MAE, si MASE n'est pas disponible)
-
-
En utilisant les scores de performances de l'étape 1, sélectionnez tous les modèles qui se situent dans les cinq pour cent du score du modèle ayant obtenu le score le plus élevé.
-
Parmi tous les modèles sélectionnés, optez pour celui dont la Vitesse de prédiction est la plus grande (consultez Vitesse de prédiction). Ce modèle est le meilleur modèle.
Le plus exact
Il est important que votre modèle soit capable de générer des prédictions d'une grande exactitude de manière constante. Bien que F1, F1 Macro et R2 fournissent un score équilibré qui reflète de manière exhaustive l'exactitude du modèle, vous pouvez également vous intéresser aux métriques brutes d'exactitude et de précision de vos modèles.
Le modèle le plus exact est mis en évidence par une icône . Pour déterminer le modèle le plus exact, le processus suivant est automatiquement appliqué :
-
Sélectionnez le modèle ayant le score le plus élevé pour la métrique de performance prédictive déterminée par le type de modèle. Les métriques utilisées sont les suivantes :
-
Classification binaire : F1
-
Classification multiclasse : Macro F1
-
Régression :Coefficient de détermination R2
-
Série temporelle : MASE (si MASE n'est pas disponible, sélectionnez le modèle avec le score MAE le plus bas)
-
-
En utilisant les scores de performances de l'étape 1, sélectionnez tous les modèles qui se situent dans les dix pour cent du score du modèle ayant obtenu le score le plus élevé.
-
L'une des deux voies suivantes est utilisée en fonction du type de modèle :
-
Classification binaire :
-
Si le jeu de données d'apprentissage est équilibré, sélectionnez le modèle ayant le score d'exactitude le plus élevé. Il s'agit du modèle le plus exact. Pour plus d'informations sur la métrique spécifique utilisée, consultez Exactitude.
-
Si le jeu de données d'apprentissage est déséquilibré, sélectionnez le modèle ayant le score de précision le plus élevé. Pour plus d'informations sur la métrique spécifique utilisée, consultez Précision.
-
-
Classification multiclasse ou régression :
-
Sélectionnez le modèle ayant le score d'exactitude le plus élevé. Les métriques d'exactitude suivantes sont utilisées :
-
Classification multiclasse : Exactitude
-
Régression : Erreur absolue moyenne MAE
-
-
-
Série temporelle : sélectionnez le modèle présentant le meilleur score MAE (le score le plus bas).
-
Modèle le plus rapide
Lorsque vous sélectionnez un modèle, vous pouvez accorder de l'importance à la rapidité avec laquelle le modèle peut fournir des prédictions. Le modèle le plus rapide est mis en évidence par une icône .
La vitesse de prédiction détermine le modèle le plus rapide. Toutefois, l'exactitude prédictive des modèles est elle aussi prise en compte. En effet, un modèle peut être capable de générer des prédictions rapidement, mais il doit également être capable de prédire avec une exactitude raisonnable.
Pour déterminer le modèle le plus rapide, le processus suivant est automatiquement appliqué :
-
Sélectionnez le modèle ayant le score le plus élevé pour la métrique de performance prédictive déterminée par le type de modèle. Les métriques utilisées sont les suivantes :
-
Classification binaire : F1
-
Classification multiclasse : Macro F1
-
Régression :Coefficient de détermination R2
-
Série temporelle : MASE (si MASE n'est pas disponible, sélectionnez le modèle avec le score MAE le plus bas)
-
-
L'une des voies suivantes est utilisée suivant le type de modèle :
-
Classification binaire :
-
Si le jeu de données d'apprentissage est équilibré, sélectionnez tous les modèles dont le score d'exactitude se situe dans les dix pour cent du score d'exactitude du modèle sélectionné à l'étape 1. Pour plus d'informations sur la métrique spécifique utilisée, consultez Exactitude.
-
Si le jeu de données d'apprentissage est déséquilibré, sélectionnez tous les modèles qui se situent dans les dix pour cent du score du modèle ayant obtenu le score le plus élevé à l'étape 1. Les métriques de l'étape 1 sont utilisées.
-
-
Classification multiclasse ou régression :
-
Sélectionnez tous les modèles dont le score d'exactitude se trouve dans les dix pour cent du score d'exactitude du modèle de l'étape 1. Les métriques d'exactitude suivantes sont utilisées :
-
Classification multiclasse : Exactitude
-
Régression : Erreur absolue moyenne MAE
-
-
-
Série temporelle : sélectionnez tous les modèles figurant dans les dix pour cent du score MAE du modèle de l'étape 1.
-
-
Parmi tous les modèles sélectionnés, sélectionnez celui dont la vitesse de prédiction est la plus grande (consultez Vitesse de prédiction). Ce modèle est le modèle le plus rapide.
Vitesse de prédiction
La vitesse de prédiction est une métrique de modèle qui s'applique à tous les types de modèle : classification binaire, classification multiclasse, régression et série temporelle. La vitesse de prédiction mesure la rapidité avec laquelle un modèle d'apprentissage automatique est capable de générer des prédictions.
Dans Qlik Predict, la vitesse de prédiction est calculée en combinant le temps de calcul des caractéristiques et le temps de prédiction du jeu de données test. Elle s'affiche en lignes par seconde.
La vitesse de prédiction peut être analysée dans le tableau Métriques des modèles après l'exécution de votre version d'expérimentation. Vous pouvez également afficher les données relatives à la vitesse de prédiction lorsque vous analysez des modèles avec des analyses intégrées. Pour plus d'informations, consultez :
Considérations
La vitesse de prédiction mesurée est basée sur la taille du jeu de données d'apprentissage et non sur les données sur lesquelles les prédictions sont effectuées. Après avoir déployé un modèle, vous remarquerez peut-être des différences dans la rapidité de création des prédictions si les données d'apprentissage et de prédiction sont de tailles très différentes, ou lors de la création de prédictions en temps réel sur une ou quelques lignes de données.
Surapprentissage
Il y a surapprentissage lorsque le comportement prédictif d'un modèle est trop étroitement mappé vers le jeu de données d'apprentissage. En cas de surapprentissage d'un modèle, ce dernier n'a probablement mémorisé que les tendances du jeu de données d'apprentissage et ne sera pas en mesure de prédire avec précision les valeurs futures.
Le surapprentissage peut avoir plusieurs causes, notamment des problèmes liés aux algorithmes d'apprentissage et à des jeux de données d'apprentissage trop courts ou trop complexes.
Dans Qlik Predict, le surapprentissage est automatiquement identifié grâce à une analyse des résultats de test et d'apprentissage de toutes les métriques utilisées dans le processus de sélection du meilleur modèle, à l'exception de la vitesse de prédiction :
-
Modèles de classification binaire : F1, Exactitude (données équilibrées), Précision (données déséquilibrées)
-
Modèles de classification multiclasse : Macro F1, Exactitude
-
Modèles de régression : Coefficient de détermination R2, Erreur absolue moyenne MAE
S'il existe une différence de plus de dix pour cent entre l'une de ces métriques lors de la comparaison des résultats de test et d'apprentissage, le modèle est soupçonné de surapprentissage.
En cas de soupçon de surapprentissage d'un modèle, ce dernier n'est jamais présenté comme un modèle recommandé, même si son score est bon. Le modèle est marqué d'un avertissement dans le tableau Métriques des modèles.
Si tous les modèles figurant dans vos filtres sont soupçonnés de surapprentissage, aucun modèle n'est recommandé.
Faire face au surapprentissage
Vous pouvez remédier au surapprentissage en procédant comme suit :
-
En ne déployant pas les modèles soupçonnés de surapprentissage.
-
Si vous soupçonnez un problème avec votre jeu de données d'apprentissage, consultez Préparation de votre jeu de données à l'apprentissage pour savoir comment préparer vos données d'apprentissage afin d'éviter le surapprentissage.