Examen et affinement des versions de modèle
Une fois la première version de l'apprentissage du modèle terminée, analysez les métriques de modèle obtenues et configurez de nouvelles versions de l'expérimentation jusqu'à obtenir les résultats dont vous avez besoin.
Lors de l'exécution de la version d'expérimentation, vous êtes dirigé vers la vue Modèle, sur laquelle vous pouvez analyser les métriques de modèle obtenues. Vous pouvez à tout moment basculer entre la vue Schéma et la vue Données. Lorsque vous avez besoin de revenir à la vue Modèle, cliquez sur l'icône correspondante.
Vous saurez que la première version de l'apprentissage est terminée lorsque toutes les métriques apparaissent dans le tableau Métriques du modèle et qu'une icône en forme de trophée apparaît à côté du modèle le plus performant.
Analyse du modèle
Dans la vue Modèle, nous voyons que l'algorithme le plus performant est évalué à l'aide d'une icône de trophée . Cela signifie qu'il s'agit du modèle le plus performant suivant le score F1.
Procédez comme suit :
-
Dans le coin supérieur droit du tableau, cliquez sur le bouton de sélecteur de colonne . Ici, vous pouvez voir l'ensemble des métriques disponibles pour votre problème et ajouter ou retirer des métriques, selon les besoins. Sélectionnez n'importe quelle métrique à afficher dans le tableau ou laissez les métriques par défaut.
-
Dans le tableau Métriques du modèle, cliquez sur la liste déroulante du filtre Algorithme et sélectionnez l'algorithme correspondant au modèle le plus performant.
-
Activez Afficher les métriques des données d'apprentissage.
À présent, vous voyez les métriques d'apprentissage de la validation croisée et vous pouvez les comparer aux métriques de rétention. Pour chaque colonne de métrique de rétention, il existe une colonne Former correspondante pour la métrique équivalente des données d'apprentissage.
-
Cliquez sur Effacer les filtres et désactivez de nouveau Afficher les métriques des données d'apprentissage.
-
Triez les modèles en fonction des performances, du modèle le plus performant au modèle le moins performant, en cliquant sur l'en-tête de colonne F1. Vous pouvez décider d'exclure les algorithmes dont les performances sont mauvaises ou de vous concentrer uniquement sur le meilleur pour obtenir des résultats plus rapides lors de l'itération suivante de l'apprentissage. Nous aborderons le sujet lors de la configuration de la v3 dans une section ultérieure.
-
Faites défiler l'écran sous le tableau de métriques pour voir les visualisations du modèle sélectionné.
-
Cliquez sur ou sur Afficher la configuration pour développer le volet Configuration de l'expérimentation.
-
Cliquez sur Nouvelle version pour créer une ébauche de la nouvelle version d'expérimentation.
-
Sur le graphique Permutation importance ainsi que dans la liste Caractéristiques du volet Configuration de l'expérimentation, notez que cette première itération du modèle s'appuie considérablement sur la caractéristique DaysSinceLastService (Nombre de jours depuis le dernier service), tandis que toutes les autres caractéristiques n'ont quasiment aucune importance en comparaison.
Cette disparité, ainsi que les performances extrêmement fortes des modèles, doivent être examinées comme un signe que quelque chose ne va pas. Dans le cas présent, aucune logique n'a été définie lors de la collecte de données pour arrêter le comptage du nombre de jours depuis le dernier ticket de service d'un client pour les clients ayant annulé leur abonnement. En conséquence, le modèle a appris à associer un grand nombre de jours depuis le dernier ticket de service à une valeur yes (Oui) dans le champ Churned (Perte de clientèle).
Il s'agit d'un exemple de fuite de données. En effet, dans un scénario concret, le modèle aurait accès uniquement aux informations jusqu'à la réalisation de la prédiction, alors que le nombre de jours contenu dans ce champ a été collecté après ce point de mesure. Pour plus d'informations sur la fuite de données, voir Fuite de données.
Nous devons supprimer la caractéristique « qui fuit DaysSinceLastService de la configuration de l'expérimentation, car elle fausse les modèles obtenus. Notez que, dans la pratique, il est nécessaire d'analyser en profondeur la qualité et la logique des données avant de créer le modèle, pour s'assurer que le modèle obtenu est correctement formé.
Nous aborderons ce problème dans la section suivante, lors de la configuration de la v2.
Configuration et exécution de la version 2
Étant donné que la majeure partie de l'apprentissage du modèle changera une fois cette fuite de données résolue, configurons une nouvelle version avant de poursuivre les affinements.
Procédez comme suit :
-
Suite à une étape précédente, vous avez déjà le volet Configuration de l'expérimentation ouvert pour configurer la version v2.
-
Sous Caractéristiques dans le volet Configuration de l'expérimentation, décochez la case DaysSinceLastService.
-
Cliquez sur Exécuter v2.
Configuration et exécution de la version 3
À la fin de l'exécution de la deuxième version de l'expérimentation, cochez la case à côté du modèle v2 le plus performant du tableau de métriques (repéré par une icône de trophée ). Cela actualise la page pour y afficher les métriques de ce modèle.
Au-dessus du tableau Métriques du modèle, cliquez sur la liste déroulante du filtre Version et sélectionnez 2. Cela vous permet de vous concentrer uniquement sur les métriques du modèle de la v2.
Vous verrez que la liste des caractéristiques importantes a considérablement changé depuis la résolution de la fuite de données. Il se peut que le modèle le plus performant utilise également un autre algorithme que celui utilisé par le modèle le plus performant pour la v1.
Procédez comme suit :
-
Penchez-vous sur le graphique Permutation importance. Certaines caractéristiques peuvent avoir beaucoup moins d'influence sur votre modèle que d'autres. Elles ont peu de valeur pour ce cas d'utilisation et peuvent être considérées comme des parasites. Vous pouvez essayer de supprimer certaines de ces caractéristiques pour voir si cela améliore les scores du modèle.
-
Cliquez sur ou sur Afficher la configuration pour développer le volet Configuration de l'expérimentation.
-
Cliquez sur Nouvelle version pour créer une ébauche de la nouvelle version d'expérimentation.
-
Dans le volet Configuration de l'expérimentation, sous Caractéristiques, décochez les cases d'une ou de plusieurs caractéristiques qui ont peu d'influence sur le modèle ou qui n'en ont pas.
-
Observez le tableau Métriques du modèle. Vous pouvez décider d'exclure certains algorithmes dont les performances sont mauvaises ou de vous concentrer uniquement sur les meilleurs pour obtenir des résultats plus rapides lors de l'itération suivante de l'apprentissage.
-
Dans le volet Configuration de l'expérimentation, sous Algorithmes, décochez éventuellement les cases de quelques-uns des algorithmes les moins performants.
-
Cliquez sur Exécuter v3.
Comparaison de versions de l'expérimentation
Dans le tableau Métriques du modèle, cliquez sur Effacer les filtres.
Après l'exécution de la v3, cochez la case à côté du modèle v3 le plus performant pour afficher ses métriques.
Cliquez sur Plus de filtres de modèle et sélectionnez le filtre Meilleurs résultats. Vous pouvez voir les métriques des modèles les plus performants de chaque itération de l'expérimentation.
La première version de l'apprentissage a obtenu les scores les plus élevés, mais ces métriques constituaient des prédicteurs très exagérés et peu réalistes des performances, en raison du problème de fuite de données. Dans la version v3, le score F1 du modèle le plus performant a augmenté par rapport à celui du modèle v2 le plus performant.
Dans un scénario réel, il est important de répéter ces étapes d'affinement autant de fois que nécessaire avant de déployer le modèle, pour être sûr d'avoir le meilleur modèle possible pour le cas d'utilisation en question.
Dans ce didacticiel, passez à la section suivante sur le déploiement du modèle.