Bewerten von Regressionsmodellen
Regressionsmodelle sagen Ergebnisse als Zahl vorher und geben die beste Schätzung der Zielvariablen durch das Modell an. Es werden mehrere Metriken generiert, anhand derer Sie Regressionsmodelle auswerten können.
R2
R im Quadrat (R2) ist ein einheitenloses Maß der Korrelation der Features mit dem Ziel. Es kann wie folgt ausgedrückt werden: Um wie viel Prozent liegen die Modellvorhersagen näher am perfekten Ergebnis im Vergleich zur Nutzung des Durchschnittswerts für das Ziel?
R2 reicht von negativ unendlich bis 1. Je näher der Wert bei 1 liegt, desto mehr Varianz im Zielwert kann durch die Featurevariablen erklärt werden. Umso wahrscheinlicher ist es also, dass Sie featurerelevante Variablen haben, die zu genauen Vorhersagen führen würden.
Die Diagramme zeigen ein Beispiel für Größe, die gegen Alter aufgetragen ist. Die Größe hat im ersten Diagramm, in dem R2 0,97 beträgt, eine engere Korrelation zum Alter als im zweiten Diagramm, wo R2 0,56 ist.
Beachten Sie, dass ein niedrigerer R2-Wert nicht automatisch bedeutet, dass es sich um ein schlechtes Modell handelt. Wie der R2 interpretiert wird, hängt vom Anwendungsfall und den Daten ab. Beim Betrachten der Bewertung eines Regressionsmodells muss berücksichtigt werden, dass eine lineare Beziehung nicht immer von entscheidender Bedeutung ist. Wenn lineare Regression schlechte Ergebnisse erbringt, während andere Algorithmen besser abschneiden, kann das einfach bedeuten, dass Ihre Daten durch eine lineare Beziehung nicht gut genug modelliert werden können.
RMSE
Die mittlere quadratische Gesamtabweichung (Root Mean Squared Error, RMSE) kann als Durchschnitt der erwarteten +/- Differenz zwischen einem vorhergesagten Wert und dem tatsächlichen Wert interpretiert werden. Es ist die Standardabweichung von Restwerten (der Differenz zwischen dem beobachteten Wert und dem vorhergesagten Wert für ein Feature). RMSE wird in der gleichen Einheit wie der Zielwert gemessen.
Nehmen wir beispielsweise an, unser Ziel besteht im Vorhersagen des Vertragswerts und wir erhalten eine RMSE = 1250 Das bedeutet, dass im Durchschnitt der vorhergesagte Wert um +/- $1.250 vom tatsächlichen Wert abweicht.
MSE
Die mittlere quadratische Abweichung (Mean Squared Error, MSE) kann als Quadrat der +/- Differenz zwischen einem vorhergesagten Wert und dem tatsächlichen Wert, den wir im Durchschnitt erwarten können, interpretiert werden. Sie wird in der gleichen Einheit wie der Zielwert im Quadrat gemessen.
Im Beispiel mit der Vertragswertvorhersage wurde eine MSE von 1562500 bedeuten, dass das Modell um +/- 1.562.500 $2 abweicht. Beachten Sie, dass die Einheit Dollar im Quadrat ist.
MAE
Die mittlere absolute Abweichung (Mean Absolute Error, MAE) ist der Durchschnitt aller absoluten Vorhersagefehler, wobei der Vorhersagefehler die Differenz zwischen dem tatsächlichen und dem vorhergesagten Wert ist. Wenn Sie den absoluten Wert für Vorhersagefehler verwenden, wird vermieden, dass +/- Fehler einander ausgleichen. MAE wird in der gleichen Einheit wie der Zielwert gemessen.