Surveillance de la dérive des données dans les modèles déployés

Dans le volet Surveillance de la dérive des données de votre déploiement ML, vous pouvez analyser la dérive des données du modèle déployé source. La surveillance de la dérive des données vous permet d'identifier les modifications des répartitions d'une ou de plusieurs caractéristiques utilisées pour effectuer l'apprentissage du modèle.

Lorsque la dérive calculée d'une caractéristique dépasse une valeur de 0,25, il est recommandé de renouveler l'apprentissage du modèle avec les données les plus récentes ou de configurer un nouveau modèle si la question d'apprentissage automatique initiale a changé de manière significative.

Analyse intégrée montrant les calculs de dérive des caractéristiques d'un modèle déployé. — Analyse de la dérive des données dans Qlik Predict

Calculs de la dérive des données dans Qlik Predict

Dans Qlik Predict, la dérive des données est calculée sous forme d'indice de stabilité de la population (Population Stability Index ou PSI).

Vous pouvez identifier une dérive importante des données d'une caractéristique en observant sa valeur PSI. Si la valeur PSI est supérieure ou égale à 0,25, vous pouvez envisager de renouveler l'apprentissage du modèle ou de créer une nouvelle expérimentation.

Valeurs et indications de l'indice de stabilité de la population (Population Stability Index ou PSI)
Valeur PSI	Description
Inférieur à 0,1	Faible dérive
Supérieur à 0,1 mais inférieur à 0,25	Dérive mineure
Supérieur ou égal à 0,25	Dérive importante

Lancement d'une analyse de la dérive des données

Procédez comme suit :

Ouvrez un déploiement ML
Dans le panneau de gauche, sélectionnez Surveillance de la dérive des données.

Une analyse intégrée est générée.

Disponibilité de l'analyse

Les nouveaux calculs relatifs à la dérive des données ne sont pas générés immédiatement lorsque vous ouvrez une analyse. Les calculs de la dérive des données sont générés une fois par jour à 16h30 UTC.

Navigation dans l'analyse intégrée

Utilisez l'interface interactive pour analyser le modèle déployé à l'aide de l'analyse intégrée.

Procédure de sélection

Utilisez des sélections pour affiner les données. Vous pouvez sélectionner des caractéristiques et leurs valeurs ou plages spécifiques et filtrer des dates et des plages d'importance spécifiques. Dans certains cas, vous devrez peut-être effectuer une ou plusieurs sélections pour pouvoir afficher des visualisations. Cliquez sur les valeurs des données des visualisations pour effectuer des sélections.

Vous pouvez appliquer des sélections comme suit :

Sélectionnez des valeurs en cliquant sur du contenu, en définissant des plages et en utilisant la fonction de tracé.
Effectuez des recherches dans des graphiques pour sélectionner des valeurs.
Cliquez sur un champ sélectionné dans la barre d'outils en haut de l'analyse intégrée. Cela vous permet d'effectuer des recherches dans des sélections existantes, de les verrouiller ou de les déverrouiller et de les modifier davantage.
Dans la barre d'outils en haut de l'analyse intégrée, cliquez sur pour supprimer une sélection. Effacez toutes les sélections en cliquant sur l'icône .
Avancez ou reculez dans vos sélections en cliquant sur et sur .

Analyse de la dérive des caractéristiques et de leur importance

Utilisez le graphique Dérive vs. importance des caractéristiques pour analyser la dérive des caractéristiques et l'importance de la permutation (Permutation importance). Vous pouvez identifier à quel moment les modifications de la dérive se produisent parallèlement aux tendances de changement d'importance. En examinant ces deux métriques ensemble, vous pouvez découvrir de nouveaux schémas émergents et mieux comprendre les tendances qui affectent vos données.

Pour comprendre ce que les scores de dérive signifient pour les performances de votre modèle, consultez Calculs de la dérive des données dans Qlik Predict.

Surveillance de la dérive des caractéristiques au fil du temps

Dans le graphique Dérive vs. importance des caractéristiques, affichez la chronologie de chaque calcul de dérive et analysez les modifications survenues au fil du temps à mesure de la génération de nouvelles prédictions.

Une ligne de référence a été ajoutée à une valeur PSI de 0,25 pour indiquer à quel moment une caractéristique présente une dérive importante. Pour en savoir plus sur ce que les scores de dérive signifient pour les performances de votre modèle, consultez Calculs de la dérive des données dans Qlik Predict.

Affichage de la répartition des caractéristiques

Le graphique Distribution des valeurs est utile pour comparer la répartition des valeurs d'une caractéristique entre le jeu de données d'apprentissage et le jeu de données utilisé pour la dernière prédiction générée par le modèle. Vous pouvez identifier les plages d'une caractéristique qui sont les plus et les moins affectées par la dérive.

Les barres bleues indiquent le pourcentage de valeurs du dernier jeu de données à appliquer qui se situent dans chaque plage. Les marqueurs violets en forme de cercle indiquent le pourcentage de valeurs du jeu de données d'apprentissage qui se situent dans chaque plage. Si vous constatez une grande différence entre la hauteur des barres et la position des marqueurs, il est probable que la plage soit affectée par la dérive.

Limitations

La surveillance de la dérive des données n'est pas disponible pour les modèles de série temporelle.

En savoir plus

Dérive des données

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici