Überwachung von Datendrift in bereitgestellten Modellen

Im Fenster Überwachung von Datendrifts in Ihrer ML-Bereitstellung können Sie Datendrift für das bereitgestellte Quellmodell analysieren. Die Überwachung von Datendrifts ermöglicht es Ihnen, Veränderungen in den Verteilungen einer oder mehrerer Features zu erkennen, die zum Trainieren des Modells verwendet wurden.

Wenn der berechnete Drift für ein Feature einen Wert von 0,25 überschreitet, empfiehlt es sich, das Modell mit den neuesten Daten neu zu trainieren oder ein neues Modell zu konfigurieren, wenn sich die ursprüngliche ML-Fragestellung wesentlich geändert hat.

Die Datendrift-Analyse ist nur auf Englisch verfügbar.

Eingebettete Analyse mit Berechnungen von Feature-Drift für ein bereitgestelltes Modell — Datendrift-Analyse in AutoML

Datendrift-Berechnungen in AutoML

In Qlik AutoML wird Datendrift als Populationsstabilitätsindex (PS) berechnet.

Sie können signifikanten Datendrift für ein Feature erkennen, indem Sie sich den entsprechenden PSI-Wert ansehen. Wenn der PSI-Wert größer oder gleich 0,25 ist, sollten Sie das Modell neu trainieren oder ein neues Experiment erstellen.

Populationsstabilitätsindex (PSI) – Werte und Angaben
PSI-Wert	Beschreibung
Unter 0,1	Geringfügiger Drift
Größer als 0,1 aber kleiner als 0,25	Mäßiger Drift
Größer oder gleich 0,25	Starker Drift

Starten einer Datendrift-Analyse

Gehen Sie folgendermaßen vor:

Öffnen Sie eine ML-Bereitstellung.
Wählen Sie im linken Fensterbereich die Option Überwachung von Datendrifts aus.
Es wird eine eingebettete Analyse erstellt. Bleiben Sie auf dem Arbeitsblatt Feature Drift, um eine Datendrift-Analyse durchzuführen.

Verfügbarkeit der Analyse

Neue Berechnungen für Datendrift werden nicht sofort erstellt, wenn Sie eine Analyse öffnen. Die Datendrift-Berechnungen werden einmal täglich um 4:30 PM UTC erstellt.

Navigieren in eingebetteten Analysen

Mithilfe der interaktiven Benutzeroberfläche können Sie das bereitgestellte Modell mit eingebetteten Analysen analysieren.

Wechseln zwischen Arbeitsblättern

Im Fensterbereich Arbeitsblätter können Sie zwischen den Arbeitsblättern in der Analyse hin- und herwechseln. Jedes Arbeitsblatt hat einen bestimmten Schwerpunkt. Der Fensterbereich kann nach Belieben erweitert und reduziert werden.

Das Arbeitsblatt Feature Drift enthält alle Informationen zum Datendrift. Wenn Sie zum Arbeitsblatt Operations wechseln, können Sie die Nutzung Ihrer ML-Bereitstellung überwachen. Weitere Informationen finden Sie unter Überwachung der Vorgänge von bereitgestellten Modellen.

Vornehmen von Auswahlen

Verwenden Sie Auswahlen zur Verfeinerung der Daten. Sie können Features und ihre spezifischen Werte oder Bereiche auswählen und nach bestimmten Datumsangaben und Wichtigkeitsbereichen filtern. In einigen Fällen müssen Sie möglicherweise eine oder mehrere Auswahlen treffen, damit Visualisierungen angezeigt werden. Klicken Sie auf Datenwerte in Visualisierungen, um Auswahlen vorzunehmen.

Sie können mit Auswahlen arbeiten, indem Sie:

Werte durch Klicken auf Inhalte, definierende Bereiche und Zeichnungen auswählen
In Diagrammen suchen, um Werte auszuwählen
Auf ein ausgewähltes Feld in der Symbolleiste oben in der eingebetteten Analyse klicken. Damit können Sie in bestehenden Auswahlen suchen, diese sperren oder entsperren und weiter ändern.
In der Symbolleiste oben in der eingebetteten Analyse auf klicken, um eine Auswahl zu entfernen. Löschen Sie alle Auswahlen durch Klicken auf das Symbol .
In Ihren Auswahlen vor- und zurückspringen, indem Sie auf und klicken

Analyse von Feature-Drift im Vergleich zur Wichtigkeit

Verwenden Sie das Diagramm Feature drift vs importance, um Feature-Drift und Permutationswichtigkeit (Permutation Importance) zusammen zu analysieren. Sie können erkennen, wann Veränderungen am Drift parallel zu veränderten Mustern der Wichtigkeit eintreten. Wenn Sie diese beiden Metriken zusammen betrachten, können Sie neu entstehende Muster aufdecken und ein tieferes Verständnis für die Trends entwickeln, die Ihre Daten beeinflussen.

Um zu verstehen, was die Drift-Scores für die Leistung Ihres Modells bedeuten, lesen Sie Datendrift-Berechnungen in AutoML.

Überwachen von Feature-Drift im Zeitverlauf

Im Diagramm Feature drift over time sehen Sie die Zeitachse für jede Drift-Berechnung und analysieren die Veränderungen, die sich im Laufe der Zeit ergeben haben, während neue Vorhersagen erstellt werden.

Bei einem PSI-Wert von 0,25 wurde eine Positionslinie hinzugefügt, die anzeigt, wenn ein Feature einen signifikanten Drift aufweist. Weitere Informationen zur Bedeutung der Drift-Scores für die Leistung Ihres Modells finden Sie unter Datendrift-Berechnungen in AutoML.

Anzeigen der Feature-Verteilung

Das Diagramm Value distribution ist hilfreich, um die Werteverteilung für ein Feature zwischen dem Trainingsdatensatz und dem für die letzte mit dem Modell erstellte Vorhersage verwendeten Datensatz zu vergleichen. Sie können feststellen, welche Bereiche in einem Feature am meisten bzw. am wenigsten von dem Drift betroffen sind.

Die blauen Balken zeigen den Prozentsatz der Werte im neuesten Anwendungsdatensatz an, die in den jeweiligen Bereich fallen. Die lila kreisförmigen Markierungen zeigen den Prozentsatz der Werte im Trainingsdatensatz, die in den jeweiligen Bereich fallen. Wenn Sie einen großen Unterschied zwischen der Höhe der Balken und der Position der Markierungen feststellen, wird der Bereich wahrscheinlich durch einen Drift beeinflusst.

Weitere Informationen

Datendrift

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!

Geben Sie hier Ihr Feedback ab