Datendrift
Im Laufe der Zeit kann die Genauigkeit Ihres Modells abnehmen, weil sich die Daten in einem oder mehreren Features in Bezug auf Verteilung, Größenordnung und anderen Eigenschaften ändern. Da das ursprüngliche Modell mit Features trainiert wurde, die bestimmte Muster und Verteilungen aufwiesen, beeinflussen zukünftige Änderungen dieser Verteilungen die Präzision und Qualität der Vorhersagen.
Datendrift kann quantifiziert und auf verschiedene Weise berechnet werden. In Qlik AutoML wird Datendrift anhand der Formel für den Populationsstabilitätsindex berechnet. Weitere Informationen finden Sie unter Überwachung von Datendrift in bereitgestellten Modellen.
Eine Best Practice besteht darin, Ihr Modell auf Datendrift zu überwachen, indem Sie den ursprünglichen Trainingsdatensatz mit dem aktuellsten Anwendungsdatensatz vergleichen, auf dessen Grundlage Sie Vorhersagen erstellen. Wenn der Datendrift einen bestimmten Schwellenwert erreicht, trainieren Sie das Modell erneut oder konfigurieren Sie ein neues Modell, wenn sich Ihr ursprüngliches ML-Problem wesentlich verändert hat.
Weitere Informationen zur Bewertung der Modellleistung im Zeitverlauf finden Sie unter Bewerten der Modellleistung im Zeitverlauf.
Beispiel
Angenommen, ein Unternehmen führt eine Reihe von Produkten, die als vor allem bei Verbrauchern ab 45 Jahren beliebt eingestuft wurden. Die Werteverteilung für das Feature Alter könnte wie folgt aussehen.
Das Balkendiagramm zeigt, dass die Produkte des Unternehmens Verbraucher über 45 Jahren stärker ansprechen.

Vor kurzem hat das Unternehmen ein neues Produkt auf den Markt gebracht, das auch jüngere Verbraucher ansprechen soll. Wenn sich das Produkt wie erwartet verkauft, sehen wir einen deutlichen Feature-Drift für das Feature Alter.
Das Balkendiagramm zeigt, dass der Umsatz des Unternehmens gleichmäßiger verteilt ist und sich Verbraucher aller Altersgruppen ausgewogener von den Produkten angesprochen fühlen.

Überwachung von Datendrift in AutoML
AutoML verfügt über integrierte Tools, mit denen Sie Datendrift in den von Ihnen bereitgestellten Modellen auf Featurebasis erkennen können. Weitere Informationen finden Sie unter Überwachung von Datendrift in bereitgestellten Modellen.