Examen et affinement de modèles
Une fois la première version de l'apprentissage du modèle terminée, analysez les métriques de modèle obtenues et configurez de nouvelles versions de l'expérimentation jusqu'à obtenir les résultats dont vous avez besoin.
Lors de l'exécution de la version d'expérimentation, vous êtes dirigé vers l'onglet Modèles dans lequel vous pouvez commencer à analyser les métriques de modèle obtenues. Vous pouvez accéder à la Vue Schéma et à la Vue Données en revenant à l'onglet Données. Il est possible d'effectuer une analyse plus granulaire dans les onglets Comparer et Analyser.
Vous saurez que la première version de l'apprentissage est terminée lorsque toutes les métriques apparaissent dans le tableau Métriques des modèles et qu'une icône en forme de trophée apparaît à côté du modèle le plus performant.
Analyse des modèles de la v1
Revenez à l'onglet Modèles. Dans le tableau Métriques des modèles, le modèle le plus performant est évalué avec une icône de trophée . Cela signifie qu'il s'agit du modèle le plus performant suivant le score F1.
Revenez à l'onglet Modèles. Dans le tableau Métriques des modèles, le modèle le plus performant est évalué avec une icône de trophée . Cela signifie qu'il s'agit du modèle le plus performant suivant le score F1.
Triez les modèles en fonction des performances, du modèle le plus performant au modèle le moins performant, en cliquant sur l'en-tête de colonne F1. Vous pouvez décider d'exclure les algorithmes dont les performances sont mauvaises ou de vous concentrer uniquement sur le meilleur pour obtenir des résultats plus rapides lors de l'itération suivante de l'apprentissage. Nous aborderons le sujet lors de la configuration de la v3 dans une section ultérieure.
Identification d'une fuite de données
Regardez les graphiques Informations relatives au modèle sur le côté droit de la page. Ces graphiques vous donnent une indication de l'importance relative de chaque caractéristique ainsi que des performances du modèle.
Sur le graphique Permutation importance ainsi que dans la liste Caractéristiques du volet Configuration de l'expérimentation, notez que cette première itération du modèle s'appuie considérablement sur la caractéristique DaysSinceLastService (Nombre de jours depuis le dernier service), tandis que toutes les autres caractéristiques n'ont quasiment aucune importance en comparaison.
Cette disparité, ainsi que les scores de performance F1 extrêmement élevés des modèles, doivent être considérés comme un signe que quelque chose ne va pas. Dans le cas présent, aucune logique n'a été définie lors de la collecte de données pour arrêter le comptage du nombre de jours depuis le dernier ticket de service d'un client pour les clients ayant annulé leur abonnement. En conséquence, le modèle a appris à associer un grand nombre de jours depuis le dernier ticket de service (présent pour les clients qui ont annulé le service il y a des années) à une valeur yes (Oui) dans le champ Churned (Perte de clientèle).
Il s'agit d'un exemple de fuite de données. En effet, dans un scénario concret, le modèle aurait accès uniquement aux informations jusqu'à la réalisation de la prédiction, alors que le nombre de jours contenu dans ce champ a été collecté après ce point de mesure. Ce problème est connu sous le nom de fuite de la cible, une sorte de fuite de données. Pour plus d'informations sur la fuite de données, voir Fuite de données.
Nous devons supprimer la caractéristique « qui fuit DaysSinceLastService de la configuration de l'expérimentation, car elle fausse les modèles obtenus. Notez que, dans la pratique, il est nécessaire d'analyser en profondeur la qualité et la logique des données avant de créer le modèle, pour s'assurer que le modèle obtenu est correctement formé.
Nous aborderons ce problème lors de la configuration de la v2.
Configuration et exécution de la version 2
Configurons une nouvelle version pour résoudre la fuite de données.
Procédez comme suit :
Cliquez sur Afficher la configuration pour développer le panneau Configuration de l'expérimentation.
Cliquez sur Nouvelle version.
Dans le panneau, sous Caractéristiques, décochez la case DaysSinceLastService.
Cliquez sur Exécuter v2.
Analyse des modèles de la v2
À la fin de l'exécution de la deuxième version de l'expérimentation, cochez la case à côté du modèle le plus performant de la v2 du tableau Métriques des modèles (repéré par une icône de trophée ). Cela actualise la page pour y afficher les métriques de ce modèle.
Comparaison des métriques d'apprentissage et de rétention
Vous pouvez voir des métriques supplémentaires et comparer les métriques de l'apprentissage de validation croisée aux métriques de rétention.
Procédez comme suit :
Dans l'expérimentation, accédez à l'onglet Comparer.
Une analyse intégrée s'ouvre. Vous pouvez utiliser l'interface interactive pour approfondir votre analyse de modèles comparative et découvrir de nouvelles informations analytiques.
Dans le panneau Feuilles sur le côté droit de l'analyse, accédez à la feuille Details.
Regardez le tableau Model Metrics. Il indique des métriques d'évaluation de modèle telles que F1 ainsi que d'autres informations.
La version 1 de l'apprentissage a été affectée par une fuite de la cible ; dans ce cas, concentrons-nous sur la v2. Utilisez le volet de filtre Version sur le côté droit de la feuille pour sélectionner la valeur 1.
Dans la section Columns to show, utilisez le volet de filtre pour ajouter ou retirer des colonnes du tableau.
Dans la zone de liste déroulante, ajoutez des métriques supplémentaires. Les scores d'apprentissage de chaque métrique sont affichés sous forme de valeurs se terminant par Train. Ajoutez des métriques d'apprentissage au tableau.
À présent, vous voyez les métriques F1 d'apprentissage de validation croisée et vous pouvez les comparer aux métriques de rétention.
Identification des caractéristiques ayant peu d'importance
Ensuite, nous devons vérifier pour voir s'il existe des caractéristiques ayant une faible permutation importance. Les caractéristiques ayant peu ou pas d'influence sur le modèle doivent être retirées pour améliorer l'exactitude des prédictions.
Procédez comme suit :
Dans l'expérimentation, revenez à l'onglet Modèles.
Penchez-vous sur le graphique Permutation importance. Les quatre caractéristiques les plus mauvaises—StartMonth, DeviceType, CustomerTenure et Territory—influencent beaucoup moins le modèle que les autres. Elles ont peu de valeur pour ce cas d'utilisation et peuvent être considérées comme des parasites.
Dans la v3, nous pouvons retirer ces caractéristiques pour voir si cela améliore les scores du modèle.
Identification des algorithmes peu performants
Nous pouvons consulter le tableau Métriques des modèles pour voir si nous pouvons retirer des algorithmes de l'apprentissage de la v3. Vous pouvez retirer les algorithmes peu performants lors de l'affinement des modèles afin que l'apprentissage soit plus rapide lors des itérations suivantes.
Dans l'expérimentation, revenez à l'onglet Modèles.
Dans le tableau Métriques des modèles, utilisez le filtre Version pour afficher uniquement les modèles de la v2.
Regardez les scores F1 de chaque Algorithme. Si certains algorithmes créent des modèles dont les scores sont nettement inférieurs à ceux des autres, nous pouvons les retirer de la version suivante.
Configuration et exécution de la version 3
Procédez comme suit :
Cliquez sur Afficher la configuration pour développer le panneau Configuration de l'expérimentation.
Cliquez sur Nouvelle version.
Dans le panneau, sous Caractéristiques, décochez les cases StartMonth, DeviceType, CustomerTenure et Territory.
Vous pouvez éventuellement développer Algorithmes et décocher les cases Classification naïve bayésienne gaussienne et Régression logistique.
Cliquez sur Exécuter v3.
Analyse des modèles de la v3
Après l'exécution de la v3, vous pouvez effacer le filtre Version du tableau Métriques des modèles. Sélectionnez le modèle le plus performant de la v3.
Comparons rapidement les modèles de l'ensemble des versions.
La première version de l'apprentissage a obtenu les scores les plus élevés, mais ces métriques constituaient des prédicteurs très exagérés et peu réalistes des performances, en raison du problème de fuite de données. Dans la version v3, le score F1 du modèle le plus performant a augmenté par rapport à celui du modèle v2 le plus performant.
Comme lors de l'exploration précédente, vous pouvez accéder à l'onglet Comparer pour approfondir la comparaison des scores des modèles.
Concentration sur un modèle spécifique
À tout moment lors de l'analyse de modèles, vous pouvez effectuer une analyse granulaire d'un modèle individuel. Explorez l'exactitude des prédictions, l'importance des caractéristiques et la distribution des caractéristiques grâce à une expérience Qlik Sense interactive.
Procédez comme suit :
Après avoir sélectionné le modèle de la v3 le plus performant, cliquez sur l'onglet Analyser.
Une analyse intégrée s'ouvre.
Grâce à la feuille Model Overview, vous pouvez analyser l'exactitude des prédictions du modèle. L'analyse est améliorée par la puissance des sélections. Cliquez sur une caractéristique ou une valeur prédite pour la sélectionner. Les données de l'analyse intégrée s'ajustent pour filtrer les données. Vous pouvez effectuer un zoom avant sur les valeurs et les plages d'une caractéristique spécifique pour voir dans quelle mesure elle est source d'influence et voir comment l'exactitude des prédictions change.
En passant aux autres feuilles, vous pouvez afficher des visualisations indiquant l'exactitude des prédictions, la distribution des caractéristiques et la distribution de l'impact (SHAP). Le contenu de ces analyses vous permet :
de découvrir les facteurs clés qui influencent les tendances des données ;
d'identifier la manière dont des caractéristiques et cohortes spécifiques affectent les valeurs prédites et l'exactitude des prédictions.
d'identifier les valeurs hors norme des données.
Étapes suivantes
Dans un scénario réel, il est important de répéter ces étapes d'affinement autant de fois que nécessaire avant de déployer le modèle, pour être sûr d'avoir le meilleur modèle possible pour le cas d'utilisation en question.
Dans ce didacticiel, passez à la section suivante sur le déploiement du modèle.