Überwachung von Datendrift in bereitgestellten Modellen
Im Fenster Überwachung von Datendrifts in Ihrer ML-Bereitstellung können Sie Datendrift für das bereitgestellte Quellmodell analysieren. Die Überwachung von Datendrifts ermöglicht es Ihnen, Veränderungen in den Verteilungen einer oder mehrerer Features zu erkennen, die zum Trainieren des Modells verwendet wurden.
Wenn der berechnete Drift für ein Feature einen Wert von 0,25 überschreitet, empfiehlt es sich, das Modell mit den neuesten Daten neu zu trainieren oder ein neues Modell zu konfigurieren, wenn sich die ursprüngliche ML-Fragestellung wesentlich geändert hat.
Datendrift-Analyse in Qlik Predict

Datendrift-Berechnungen in Qlik Predict
In Qlik Predict wird Datendrift als Populationsstabilitätsindex (PS) berechnet.
Sie können signifikanten Datendrift für ein Feature erkennen, indem Sie sich den entsprechenden PSI-Wert ansehen. Wenn der PSI-Wert größer oder gleich 0,25 ist, sollten Sie das Modell neu trainieren oder ein neues Experiment erstellen.
| PSI-Wert | Beschreibung |
|---|---|
| Unter 0,1 | Geringfügiger Drift |
| Größer als 0,1 aber kleiner als 0,25 | Mäßiger Drift |
| Größer oder gleich 0,25 | Starker Drift |
Starten einer Datendrift-Analyse
Gehen Sie folgendermaßen vor:
-
Öffnen Sie eine ML-Bereitstellung.
-
Wählen Sie im linken Fensterbereich die Option Überwachung von Datendrifts aus.
Es wird eine eingebettete Analyse erstellt.
Verfügbarkeit der Analyse
Neue Berechnungen für Datendrift werden nicht sofort erstellt, wenn Sie eine Analyse öffnen. Die Datendrift-Berechnungen werden einmal täglich um 4:30 PM UTC erstellt.
Navigieren in eingebetteten Analysen
Mithilfe der interaktiven Benutzeroberfläche können Sie das bereitgestellte Modell mit eingebetteten Analysen analysieren.
Vornehmen von Auswahlen
Verwenden Sie Auswahlen zur Verfeinerung der Daten. Sie können Features und ihre spezifischen Werte oder Bereiche auswählen und nach bestimmten Datumsangaben und Wichtigkeitsbereichen filtern. In einigen Fällen müssen Sie möglicherweise eine oder mehrere Auswahlen treffen, damit Visualisierungen angezeigt werden. Klicken Sie auf Datenwerte in Visualisierungen, um Auswahlen vorzunehmen.
Sie können mit Auswahlen arbeiten, indem Sie:
-
Werte durch Klicken auf Inhalte, definierende Bereiche und Zeichnungen auswählen
-
In Diagrammen suchen, um Werte auszuwählen
-
Auf ein ausgewähltes Feld in der Symbolleiste oben in der eingebetteten Analyse klicken. Damit können Sie in bestehenden Auswahlen suchen, diese sperren oder entsperren und weiter ändern.
-
In der Symbolleiste oben in der eingebetteten Analyse auf
klicken, um eine Auswahl zu entfernen. Löschen Sie alle Auswahlen durch Klicken auf das Symbol
.
-
In Ihren Auswahlen vor- und zurückspringen, indem Sie auf
und
klicken
Analyse von Feature-Drift im Vergleich zur Wichtigkeit
Verwenden Sie das Diagramm Vergleich von Feature-Drift und Wichtigkeit, um Feature-Drift und Permutationswichtigkeit (Permutation Importance) zusammen zu analysieren. Sie können erkennen, wann Veränderungen am Drift parallel zu veränderten Mustern der Wichtigkeit eintreten. Wenn Sie diese beiden Metriken zusammen betrachten, können Sie neu entstehende Muster aufdecken und ein tieferes Verständnis für die Trends entwickeln, die Ihre Daten beeinflussen.
Um zu verstehen, was die Drift-Scores für die Leistung Ihres Modells bedeuten, lesen Sie Datendrift-Berechnungen in Qlik Predict.
Überwachen von Feature-Drift im Zeitverlauf
Im Diagramm Feature-Drift im Zeitverlauf sehen Sie die Zeitachse für jede Drift-Berechnung und analysieren die Veränderungen, die sich im Laufe der Zeit ergeben haben, während neue Vorhersagen erstellt werden.
Bei einem PSI-Wert von 0,25 wurde eine Positionslinie hinzugefügt, die anzeigt, wenn ein Feature einen signifikanten Drift aufweist. Weitere Informationen zur Bedeutung der Drift-Scores für die Leistung Ihres Modells finden Sie unter Datendrift-Berechnungen in Qlik Predict.
Anzeigen der Feature-Verteilung
Das Diagramm Wertverteilung ist hilfreich, um die Wertverteilung für ein Feature zwischen dem Trainingsdatensatz und dem für die letzte mit dem Modell erstellte Vorhersage verwendeten Datensatz zu vergleichen. Sie können feststellen, welche Bereiche in einem Feature am meisten bzw. am wenigsten von dem Drift betroffen sind.
Die blauen Balken zeigen den Prozentsatz der Werte im neuesten Anwendungsdatensatz an, die in den jeweiligen Bereich fallen. Die lila kreisförmigen Markierungen zeigen den Prozentsatz der Werte im Trainingsdatensatz, die in den jeweiligen Bereich fallen. Wenn Sie einen großen Unterschied zwischen der Höhe der Balken und der Position der Markierungen feststellen, wird der Bereich wahrscheinlich durch einen Drift beeinflusst.
Beschränkungen
Die Überwachung von Veränderungen in der Datenverteilung (Data Drift) ist für Zeitreihenmodelle nicht verfügbar.