Auswählen des für Sie am besten geeigneten Modells
Bei der Analyse der Ergebnisse des Experiments ist es wichtig, nach Modellen mit spezifischen Merkmalen zu suchen, die für Ihren Anwendungsfall wichtig sind. So benötigen Sie zum Beispiel nicht nur konsistent genaue Vorhersagen, sondern auch Modelle, die schnell Vorhersagen liefern können. Auf der Registerkarte Modelle des Experiments werden Ihnen Modelle anhand mehrerer Analysegesichtspunkte empfohlen.
Analysieren der leistungsstärksten Modelle für ein Experiment
Auf der Grundlage Ihrer Filter werden empfohlene Modelle vorgestellt, die Ihnen helfen, verschiedene Qualitätsperspektiven zu berücksichtigen. Ein einzelnes Modell kann in mehr als einer Hinsicht als leistungsstarkes Modell betrachtet werden. Die Typen der leistungsstärksten Modelle sind:
Anzeigen der leistungsstärksten Modelle auf der Benutzeroberfläche
Informationen darüber, wie Sie die leistungsstärksten Modelle für Ihr Experiment finden und prüfen können, finden Sie unter Analyse der Modellmetriktabelle.
Bestes Modell
Auf der Grundlage Ihrer Filter wird automatisch das beste Modell für die Analyse ausgewählt. Das beste Modell wird mit einem -Symbol hervorgehoben.
In Qlik Predict wird das beste Modell auf der Grundlage einer ausgewogenen Berechnung ermittelt, bei der sowohl die Genauigkeitsmetriken als auch die Vorhersagegeschwindigkeit berücksichtigt werden.
Um das beste Modell zu ermitteln, wird automatisch der folgende Prozess durchgeführt:
-
Wählen Sie das Modell mit der höchsten Punktzahl für die durch den Modelltyp bestimmte Vorhersageleistung. Die verwendeten Metriken sind:
-
Binäre Klassifizierung: F1
-
Mehrklassen-Klassifizierung: F1 Macro
-
Regression: R2
-
Zeitreihen: MASE (oder MAE, falls MASE nicht verfügbar ist)
-
-
Wählen Sie anhand der Leistungsbewertungen aus Schritt 1 alle Modelle aus, die innerhalb von fünf Prozent von der Punktzahl des Modells mit der höchsten Punktzahl liegen.
-
Wählen Sie aus allen ausgewählten Modellen das Modell mit der schnellsten Vorhersagegeschwindigkeit aus (siehe Vorhersagegeschwindigkeit). Dieses Modell ist das beste Modell.
Am genauesten
Es ist wichtig, dass Ihr Modell in der Lage ist, kontinuierlich Vorhersagen mit hoher Genauigkeit zu treffen. Obwohl F1, F1 Makro und R2 eine ausgewogene Bewertung bieten, die die Genauigkeit des Modells umfassend widerspiegelt, sind Sie vielleicht auch an den Rohdaten zur Genauigkeit und Präzision Ihrer Modelle interessiert.
Das genaueste Modell wird mit einem -Symbol hervorgehoben. Um das genaueste Modell zu ermitteln, wird automatisch der folgende Prozess durchgeführt:
-
Wählen Sie das Modell mit der höchsten Punktzahl für die durch den Modelltyp bestimmte Vorhersageleistung. Die verwendeten Metriken sind:
-
Wählen Sie anhand der Leistungsbewertungen aus Schritt 1 alle Modelle aus, die innerhalb von zehn Prozent von der Punktzahl des Modells mit der höchsten Punktzahl liegen.
-
Je nach Modelltyp wird einer der beiden folgenden Pfade verwendet:
-
Binäre Klassifizierung:
-
Wenn der Trainingsdatensatz ausgewogen ist, wählen Sie das Modell mit der höchsten Genauigkeitsbewertung aus. Dies ist das genaueste Modell. Informationen über die verwendete spezifische Metrik finden Sie unter Genauigkeit.
-
Wenn der Trainingsdatensatz unausgewogen ist, wählen Sie das Modell mit der höchsten Präzisionsbewertung aus. Informationen über die verwendete spezifische Metrik finden Sie unter Präzision.
-
-
Mehrklassen-Klassifizierung oder Regression:
-
Wählen Sie das Modell mit der höchsten Genauigkeitsbewertung aus. Es werden die folgenden Genauigkeitsmetriken verwendet:
-
Mehrklassen-Klassifizierung: Genauigkeit
-
Regression: MAE
-
-
-
Zeitreihen: Wählen Sie das Modell mit dem besten (niedrigsten) MAE-Wert aus.
-
Schnellstes Modell
Bei der Auswahl eines Modells kann es für Sie wichtig sein, wie schnell das Modell Vorhersagen liefern kann. Das schnellste Modell wird mit einem -Symbol hervorgehoben.
Die Vorhersagegeschwindigkeit bestimmt, welches Modell das schnellste ist. Allerdings wird die Vorhersagegenauigkeit der Modelle weiterhin berücksichtigt. Denn auch wenn ein Modell schnell Vorhersagen erstellen kann, muss in der Lage sein, diese mit angemessener Genauigkeit vorzunehmen.
Um das schnellste Modell zu ermitteln, wird automatisch der folgende Prozess durchgeführt:
-
Wählen Sie das Modell mit der höchsten Punktzahl für die durch den Modelltyp bestimmte Vorhersageleistung. Die verwendeten Metriken sind:
-
Je nach Modelltyp wird einer der folgenden Pfade verwendet:
-
Binäre Klassifizierung:
-
Wenn der Trainingsdatensatz ausgewogen ist, wählen Sie alle Modelle aus, deren Genauigkeitsbewertung innerhalb von zehn Prozent von der Genauigkeitsbewertung des in Schritt 1 ausgewählten Modells liegt. Informationen über die verwendete spezifische Metrik finden Sie unter Genauigkeit.
-
Wenn der Trainingsdatensatz unausgewogen ist, wählen Sie alle Modelle aus, die innerhalb von zehn Prozent von der Punktzahl des Modells mit der höchsten Punktzahl aus Schritt 1 liegen. Die Metriken aus Schritt 1 werden verwendet.
-
-
Mehrklassen-Klassifizierung oder Regression:
-
Wählen Sie alle Modelle aus, deren Genauigkeitsbewertung innerhalb von zehn Prozent von der Genauigkeitsbewertung des Modells aus Schritt 1 liegt. Die folgenden Genauigkeitsmetriken werden verwendet:
-
Mehrklassen-Klassifizierung: Genauigkeit
-
Regression: MAE
-
-
-
Zeitreihen: Wählen Sie alle Modelle aus, die innerhalb von zehn Prozent des MAE-Werts des Modells aus Schritt 1 liegen.
-
-
Wählen Sie aus allen ausgewählten Modellen das Modell mit der schnellsten Vorhersagegeschwindigkeit aus (siehe Vorhersagegeschwindigkeit). Dieses Modell ist das schnellste Modell.
Vorhersagegeschwindigkeit
Die Prognosegeschwindigkeit ist eine Modellmetrik, die für alle Modelltypen gilt: Binärklassifikation, Mehrklassen-Klassifikation, Regression und Zeitreihen. Die Vorhersagegeschwindigkeit misst, wie schnell ein ML-Modell in der Lage ist, Vorhersagen zu erstellen.
In Qlik Predict wird die Vorhersagegeschwindigkeit anhand der kombinierten Feature-Berechnungszeit und der Testdatensatz-Vorhersagezeit berechnet. Sie wird in Zeilen pro Sekunde angezeigt.
Die Vorhersagegeschwindigkeit kann in der Tabelle Modellmetriken analysiert werden, nachdem Sie die Experimentversion ausgeführt haben. Sie können auch Daten zur Vorhersagegeschwindigkeit anzeigen, wenn Sie Modelle mit eingebetteten Analysen analysieren. Weitere Informationen finden Sie unter:
Überlegungen
Die gemessene Vorhersagegeschwindigkeit basiert auf der Größe des Trainingsdatensatzes und nicht auf den Daten, für die Vorhersagen getroffen werden. Nachdem Sie ein Modell bereitgestellt haben, stellen Sie möglicherweise Unterschiede in der Vorhersagegeschwindigkeit fest, wenn sich die Trainings- und Vorhersagedaten in ihrer Größe stark unterscheiden oder wenn Sie Echtzeitvorhersagen für eine oder wenige Datenzeilen erstellen.
Überanpassung
Eine Überanpassung liegt vor, wenn das Vorhersageverhalten eines Modells zu eng dem Trainingsdatensatz zugeordnet ist. Wenn ein Modell überangepasst ist, hat es sich wahrscheinlich nur Muster aus dem Trainingsdatensatz gemerkt und ist nicht in der Lage, zukünftige Werte genau vorherzusagen.
Die Überanpassung kann verschiedene Ursachen haben, darunter Probleme im Zusammenhang mit Trainingsalgorithmen und zu kurzen oder zu komplexen Trainingsdatensätzen.
In Qlik Predict wird eine Überanpassung automatisch durch eine Analyse der Test-Train-Ergebnisse für alle Metriken identifiziert, die bei der Auswahl der leistungsstärksten Modelle verwendet werden, mit Ausnahme der Vorhersagegeschwindigkeit:
-
Binäre Klassifizierungsmodelle: F1, Genauigkeit (ausgewogene Daten), Präzision (unausgewogene Daten)
-
Mehrklassen-Klassifizierungsmodelle: F1-Makro, Genauigkeit
Wenn beim Vergleich der Test- und Trainingsergebnisse eine mehr als zehnprozentige Differenz zwischen einer dieser Metriken besteht, besteht der Verdacht, dass das Modell überangepasst ist.
Wenn der Verdacht besteht, dass ein Modell überangepasst ist, wird es nie als empfohlenes Modell präsentiert, selbst wenn es gut abschneidet. Das Modell ist in der Tabelle Modellmetriken mit einer Warnung gekennzeichnet.
Wenn für alle Modelle Ihrer Filterauswahl der Verdacht einer Überanpassung besteht, werden keine Modellempfehlungen gegeben.
Umgang mit Überanpassung
Sie können der Überanpassung entgegenwirken, indem Sie:
-
keine Modelle bereitstellen, für die ein Verdacht der Überanpassung besteht.
-
Wenn Sie ein Problem mit Ihrem Trainingsdatensatz vermuten, finden Sie unter Vorbereiten Ihres Datensatzes für das Training Informationen darüber, wie Sie Ihre Trainingsdaten vorbereiten können, um eine Überanpassung zu vermeiden.