Überwachung von Datendrift in bereitgestellten Modellen
Im Fenster Überwachung von Datendrifts in Ihrer ML-Bereitstellung können Sie Datendrift für das bereitgestellte Quellmodell analysieren. Die Überwachung von Datendrifts ermöglicht es Ihnen, Veränderungen in den Verteilungen einer oder mehrerer Features zu erkennen, die zum Trainieren des Modells verwendet wurden.
Wenn der berechnete Drift für ein Feature einen Wert von 0,25 überschreitet, empfiehlt es sich, das Modell mit den neuesten Daten neu zu trainieren oder ein neues Modell zu konfigurieren, wenn sich die ursprüngliche ML-Fragestellung wesentlich geändert hat.
Datendrift-Berechnungen in AutoML
In Qlik AutoML wird Datendrift als Populationsstabilitätsindex (PS) berechnet.
Sie können signifikanten Datendrift für ein Feature erkennen, indem Sie sich den entsprechenden PSI-Wert ansehen. Wenn der PSI-Wert größer oder gleich 0,25 ist, sollten Sie das Modell neu trainieren oder ein neues Experiment erstellen.
PSI-Wert | Beschreibung |
---|---|
Unter 0,1 | Geringfügiger Drift |
Größer als 0,1 aber kleiner als 0,25 | Mäßiger Drift |
Größer oder gleich 0,25 | Starker Drift |
Starten einer Datendrift-Analyse
Gehen Sie folgendermaßen vor:
-
Öffnen Sie eine ML-Bereitstellung.
-
Wählen Sie im linken Fensterbereich die Option Überwachung von Datendrifts aus.
-
Es wird eine eingebettete Analyse erstellt. Bleiben Sie auf dem Arbeitsblatt Feature Drift, um eine Datendrift-Analyse durchzuführen.
Verfügbarkeit der Analyse
Neue Berechnungen für Datendrift werden nicht sofort erstellt, wenn Sie eine Analyse öffnen. Die Datendrift-Berechnungen werden einmal täglich um 4:30 PM UTC erstellt.
Navigieren in eingebetteten Analysen
Mithilfe der interaktiven Benutzeroberfläche können Sie das bereitgestellte Modell mit eingebetteten Analysen analysieren.
Wechseln zwischen Arbeitsblättern
Im Fensterbereich Arbeitsblätter können Sie zwischen den Arbeitsblättern in der Analyse hin- und herwechseln. Jedes Arbeitsblatt hat einen bestimmten Schwerpunkt. Der Fensterbereich kann nach Belieben erweitert und reduziert werden.
Das Arbeitsblatt Feature Drift enthält alle Informationen zum Datendrift. Wenn Sie zum Arbeitsblatt Operations wechseln, können Sie die Nutzung Ihrer ML-Bereitstellung überwachen. Weitere Informationen finden Sie unter Überwachung der Vorgänge von bereitgestellten Modellen.
Vornehmen von Auswahlen
Verwenden Sie Auswahlen zur Verfeinerung der Daten. Sie können Features und ihre spezifischen Werte oder Bereiche auswählen und nach bestimmten Datumsangaben und Wichtigkeitsbereichen filtern. In einigen Fällen müssen Sie möglicherweise eine oder mehrere Auswahlen treffen, damit Visualisierungen angezeigt werden. Klicken Sie auf Datenwerte in Visualisierungen, um Auswahlen vorzunehmen.
Sie können mit Auswahlen arbeiten, indem Sie:
-
Werte durch Klicken auf Inhalte, definierende Bereiche und Zeichnungen auswählen
-
In Diagrammen suchen, um Werte auszuwählen
-
Auf ein ausgewähltes Feld in der Symbolleiste oben in der eingebetteten Analyse klicken. Damit können Sie in bestehenden Auswahlen suchen, diese sperren oder entsperren und weiter ändern.
-
In der Symbolleiste oben in der eingebetteten Analyse auf klicken, um eine Auswahl zu entfernen. Löschen Sie alle Auswahlen durch Klicken auf das Symbol .
-
In Ihren Auswahlen vor- und zurückspringen, indem Sie auf und klicken
Analyse von Feature-Drift im Vergleich zur Wichtigkeit
Verwenden Sie das Diagramm Feature drift vs importance, um Feature-Drift und Permutationswichtigkeit (Permutation Importance) zusammen zu analysieren. Sie können erkennen, wann Veränderungen am Drift parallel zu veränderten Mustern der Wichtigkeit eintreten. Wenn Sie diese beiden Metriken zusammen betrachten, können Sie neu entstehende Muster aufdecken und ein tieferes Verständnis für die Trends entwickeln, die Ihre Daten beeinflussen.
Um zu verstehen, was die Drift-Scores für die Leistung Ihres Modells bedeuten, lesen Sie Datendrift-Berechnungen in AutoML.
Überwachen von Feature-Drift im Zeitverlauf
Im Diagramm Feature drift over time sehen Sie die Zeitachse für jede Drift-Berechnung und analysieren die Veränderungen, die sich im Laufe der Zeit ergeben haben, während neue Vorhersagen erstellt werden.
Bei einem PSI-Wert von 0,25 wurde eine Positionslinie hinzugefügt, die anzeigt, wenn ein Feature einen signifikanten Drift aufweist. Weitere Informationen zur Bedeutung der Drift-Scores für die Leistung Ihres Modells finden Sie unter Datendrift-Berechnungen in AutoML.
Anzeigen der Feature-Verteilung
Das Diagramm Value distribution ist hilfreich, um die Werteverteilung für ein Feature zwischen dem Trainingsdatensatz und dem für die letzte mit dem Modell erstellte Vorhersage verwendeten Datensatz zu vergleichen. Sie können feststellen, welche Bereiche in einem Feature am meisten bzw. am wenigsten von dem Drift betroffen sind.
Die blauen Balken zeigen den Prozentsatz der Werte im neuesten Anwendungsdatensatz an, die in den jeweiligen Bereich fallen. Die lila kreisförmigen Markierungen zeigen den Prozentsatz der Werte im Trainingsdatensatz, die in den jeweiligen Bereich fallen. Wenn Sie einen großen Unterschied zwischen der Höhe der Balken und der Position der Markierungen feststellen, wird der Bereich wahrscheinlich durch einen Drift beeinflusst.