Surveillance de la dérive des données dans les modèles déployés
Dans le volet Surveillance de la dérive des données de votre déploiement ML, vous pouvez analyser la dérive des données du modèle déployé source. La surveillance de la dérive des données vous permet d'identifier les modifications des répartitions d'une ou de plusieurs caractéristiques utilisées pour effectuer l'apprentissage du modèle.
Lorsque la dérive calculée d'une caractéristique dépasse une valeur de 0,25, il est recommandé de renouveler l'apprentissage du modèle avec les données les plus récentes ou de configurer un nouveau modèle si la question d'apprentissage automatique initiale a changé de manière significative.
Calculs de la dérive des données dans AutoML
Dans Qlik AutoML, la dérive des données est calculée sous forme d'indice de stabilité de la population (Population Stability Index ou PSI).
Vous pouvez identifier une dérive importante des données d'une caractéristique en observant sa valeur PSI. Si la valeur PSI est supérieure ou égale à 0,25, vous pouvez envisager de renouveler l'apprentissage du modèle ou de créer une nouvelle expérimentation.
Valeur PSI | Description |
---|---|
Inférieur à 0,1 | Faible dérive |
Supérieur à 0,1 mais inférieur à 0,25 | Dérive mineure |
Supérieur ou égal à 0,25 | Dérive importante |
Lancement d'une analyse de la dérive des données
Procédez comme suit :
-
Ouvrez un déploiement ML
-
Dans le panneau de gauche, sélectionnez Surveillance de la dérive des données.
-
Une analyse intégrée est générée. Restez sur la feuille Feature Drift pour effectuer l'analyse de la dérive des données.
Disponibilité de l'analyse
Les nouveaux calculs relatifs à la dérive des données ne sont pas générés immédiatement lorsque vous ouvrez une analyse. Les calculs de la dérive des données sont générés une fois par jour à 16h30 UTC.
Navigation dans l'analyse intégrée
Utilisez l'interface interactive pour analyser le modèle déployé à l'aide de l'analyse intégrée.
Passage d'une feuille à une autre
Le panneau Feuilles vous permet de passer d'une feuille à une autre dans l'analyse. Chaque feuille a un focus spécifique. Le panneau peut être développé et réduit selon les besoins.
La feuille Feature Drift contient toutes les informations relatives à la dérive des données. L'accès à la feuille Operations vous permet de surveiller l'utilisation de votre déploiement ML. Pour plus d'informations, consultez Surveillance des opérations des modèles déployés.
Procédure de sélection
Utilisez des sélections pour affiner les données. Vous pouvez sélectionner des caractéristiques et leurs valeurs ou plages spécifiques et filtrer des dates et des plages d'importance spécifiques. Dans certains cas, vous devrez peut-être effectuer une ou plusieurs sélections pour pouvoir afficher des visualisations. Cliquez sur les valeurs des données des visualisations pour effectuer des sélections.
Vous pouvez appliquer des sélections comme suit :
-
Sélectionnez des valeurs en cliquant sur du contenu, en définissant des plages et en utilisant la fonction de tracé.
-
Effectuez des recherches dans des graphiques pour sélectionner des valeurs.
-
Cliquez sur un champ sélectionné dans la barre d'outils en haut de l'analyse intégrée. Cela vous permet d'effectuer des recherches dans des sélections existantes, de les verrouiller ou de les déverrouiller et de les modifier davantage.
-
Dans la barre d'outils en haut de l'analyse intégrée, cliquez sur pour supprimer une sélection. Effacez toutes les sélections en cliquant sur l'icône .
-
Avancez ou reculez dans vos sélections en cliquant sur et sur .
Analyse de la dérive des caractéristiques et de leur importance
Utilisez le graphique Feature drift vs importance pour analyser la dérive des caractéristiques et l'importance de la permutation (Permutation importance). Vous pouvez identifier à quel moment les modifications de la dérive se produisent parallèlement aux tendances de changement d'importance. En examinant ces deux métriques ensemble, vous pouvez découvrir de nouveaux schémas émergents et mieux comprendre les tendances qui affectent vos données.
Pour comprendre ce que les scores de dérive signifient pour les performances de votre modèle, consultez Calculs de la dérive des données dans AutoML.
Surveillance de la dérive des caractéristiques au fil du temps
Dans le graphique Feature drift over time, affichez la chronologie de chaque calcul de dérive et analysez les modifications survenues au fil du temps à mesure de la génération de nouvelles prédictions.
Une ligne de référence a été ajoutée à une valeur PSI de 0,25 pour indiquer à quel moment une caractéristique présente une dérive importante. Pour en savoir plus sur ce que les scores de dérive signifient pour les performances de votre modèle, consultez Calculs de la dérive des données dans AutoML.
Affichage de la répartition des caractéristiques
Le graphique Value distribution est utile pour comparer la répartition des valeurs d'une caractéristique entre le jeu de données d'apprentissage et le jeu de données utilisé pour la dernière prédiction générée par le modèle. Vous pouvez identifier les plages d'une caractéristique qui sont les plus et les moins affectées par la dérive.
Les barres bleues indiquent le pourcentage de valeurs du dernier jeu de données d'application qui se situent dans chaque plage. Les marqueurs violets en forme de cercle indiquent le pourcentage de valeurs du jeu de données d'apprentissage qui se situent dans chaque plage. Si vous constatez une grande différence entre la hauteur des barres et la position des marqueurs, il est probable que la plage soit affectée par la dérive.