Erkennen und Bearbeiten von Anomalien
Anomalien werden bei der intelligenten Modelloptimierung erkannt und bearbeitet. Mit diesen Funktionen kann Qlik AutoML Ausreißerwerte in Ihren Trainingsdaten automatisch mit spezifischer Verarbeitung bearbeiten. Während des Trainings werden Ausreißerdaten aus Ihren Trainingsdaten nicht vollständig gelöscht, sondern mit Hilfe eines von Algorithmen unterstützten Gewichtungssystems verarbeitet.
Ausreißerwerte oder Anomalien sind bei fast allen Daten, mit denen Sie arbeiten, zu beobachten. Anomalien sind Datenwerte, die außerhalb des üblicherweise zu erwartenden Bereichs liegen. Beim Trainieren von Modellen für maschinelles Lernen kann ein gewisser Anteil an Anomalien toleriert werden und ist vielleicht sogar wünschenswert, da er die Abweichungen in realen Anwendungsfällen widerspiegelt. In Extremfällen führen Anomalien und Ausreißerwerte jedoch zu einer Verzerrung des Modells und reduzieren seine Zuverlässigkeit und Nützlichkeit.
Beispiele
Nicht alle Anomalien sind gleich zu behandeln und sie sollten nicht immer als etwas betrachtet werden, das aus den Daten entfernen werden muss. Wenn es sich bei einer Datenanomalie beispielsweise um ein natürlich mögliches, aber seltenes Ereignis handelt, das bei der Datenerfassung beobachtet werden kann, ist es möglicherweise sinnvoll, sie in den trainierten Modellen zu verwenden. Ein gutes Beispiel dafür sind Fälle von Betrug bei Finanztransaktionen. Unter Millionen von Transaktionen hat vielleicht nur eine Handvoll mit Betrug zu tun. Je nach dem Problem, das Sie mit Ihrem Modell analysieren und angehen möchten, kann die Wahrscheinlichkeit von Betrug bei alltäglichen Transaktionen ein Element sein, das bei der Erstellung von Vorhersagen berücksichtigen werden sollte.
Ein Beispiel für eine Anomalie, die Sie wahrscheinlich löschen möchten, ist ein unbeabsichtigter Fehler, der bei der Datenerfassung auftritt. Nehmen wir zum Beispiel an, Sie erstellen ein Modell, das zur Vorhersage von Wettermustern verwendet werden soll. Ihr Modell wird mit Daten eines Sensors trainiert, der Wetterkennzahlen überwacht, und ein zufälliger Stromausfall führt dazu, dass vom Sensor fehlerhafte Daten gesammelt werden. Diese fehlerhaften Daten können als Anomaliedaten betrachtet werden, die Sie vor Abschluss des Modelltrainings löschen möchten.
Wie geht Qlik AutoML mit Anomalien um?
Die Erkennung und Bearbeitung von Anomalien erfolgt, wenn Sie Modelle mit intelligenter Modelloptimierung trainieren, die bei neuen Experimenten standardmäßig aktiviert ist.
Die Bearbeitung von Anomalien kann im Allgemeinen in zwei getrennte Prozesse eingeteilt werden: die Erkennung und das Modelltraining selbst.
Anomalieerkennung
Wenn Sie eine Version des Trainings ausführen, führt AutoML mehrere Schritte durch, bevor das Modelltraining beginnt. Dazu zählen die Datenklassifizierung, die Null-Imputation und eine Reihe anderer Prozesse. Die Anomalieerkennung wird in dieser Phase durchgeführt, sofern die intelligente Modelloptimierung aktiviert ist.
Technisch gesehen verwendet Qlik AutoML einen entscheidungsbaumbasierten Algorithmus, den Isolation Forest-Algorithmus, um Anomalien und Ausreißerwerte in Ihren Trainingsdaten zu erkennen. Während der Datenverarbeitungsphase bei der intelligenten Modelloptimierung wird jedem Datenpunkt im Datensatz eine Anomalie-Bewertung zugewiesen und auf der Grundlage des Gewissheitsgrads als Anomalie gewichtet.
Bearbeitung von Anomalien im Modelltraining
Nachdem Ihre Daten verarbeitet und nach Bedarf umgewandelt wurden, beginnt AutoML mit dem Training von Modellen. Bei diesem Vorgang werden die zuvor generierten gewichteten Anomalie-Bewertungen verwendet, um den Einfluss jeder Zeile auf das Modell anzupassen. So wird beispielsweise einer Zeile, die mit hoher Wahrscheinlichkeit eine Anomalie enthält, ein geringerer Einfluss auf das Modelltraining zugewiesen.
Mit diesem gewichteten Bewertungssystem kann AutoML das Verwerfen von Daten vermeiden und stattdessen einfach die Auswirkungen von Ausreißerdaten auf das Modell reduzieren.
Überlegungen
Trotz der Möglichkeiten zur Anomalieerkennung, die mit Qlik AutoML zur Verfügung stehen, bedeutet dies nicht, dass beliebige Daten zum Trainieren eines qualitativ hochwertigen Modells verwendet werden können. Wenn Ihre Daten einen untypisch hohen Anteil an fehlerhaften oder beschädigten Informationen enthalten, kann die Anomalieerkennung nicht alle diese Probleme beheben.
In diesen Fällen empfiehlt es sich, zum Datensammlungsprozess zurückzugehen, um sicherzustellen, dass Sie über möglichst hochwertige und realistische Daten verfügen. Dies wird Ihnen helfen, die Zuverlässigkeit und den Erfolg Ihres Modells für maschinelles Lernen zu optimieren.