Ocena modeli regresji
Modele regresji przewidują wyniki w postaci liczb, wskazując najlepsze oszacowanie zmiennej celu przez model. Generowanych jest kilka wskaźników do oceny modeli regresji.
R2
R do kwadratu (R2) to niejednostkowa miara korelacji cech z wartością celu. Można to wyrazić w następujący sposób: o ile procent bliższe ideału są predykcje modelu w porównaniu z użyciem średniej wartości celu?
R2 mieści się w zakresie od ujemnej nieskończoności do 1. Im bliżej 1, tym bardziej wariancję wartości celu można wyjaśnić wpływem zmiennych cech. Innymi słowy, tym bardziej prawdopodobne jest, że masz zmienne ważne dla cech, które doprowadzą do dokładnych predykcji.
Na wykresach pokazano przykład wzrostu w funkcji wieku. Wzrost jest ściślej skorelowany z wiekiem na pierwszym wykresie, gdzie R2 wynosi 0,97, niż na drugim wykresie, gdzie R2 wynosi 0,56.
Należy pamiętać, że niższa wartość R2 niekoniecznie oznacza, że jest to zły model. Sposób interpretacji R2 zależy od przypadku i danych. Rozważając ocenę modelu regresji, należy pamiętać, że zależność liniowa nie zawsze jest krytyczna. Jeśli regresja liniowa daje słabe wyniki, podczas gdy inne algorytmy mają lepszą skuteczność, może to po prostu oznaczać, że danych nie można modelować wystarczająco dobrze za pomocą zależności liniowej.
RMSE
Średnią kwadratową błędu (root mean squared error, RMSE) można interpretować jako średnią oczekiwaną różnicę +/- między wartością przewidywaną a rzeczywistą. Jest to odchylenie standardowe reszt (różnica między wartością obserwowaną a wartością przewidywaną dla cechy). RMSE mierzy się w tej samej jednostce co wartość celu.
Na przykład załóżmy, że naszym celem jest przewidzenie wartości kontraktu i otrzymujemy RMSE = 1250. Oznacza to, że średnio przewidywana wartość różni się o +/- 1250 USD od wartości rzeczywistej.
MSE
Błąd średniokwadratowy (MSE) można interpretować jako różnicę +/- do kwadratu między wartością przewidywaną a rzeczywistą, której spodziewalibyśmy się średnio. Jest mierzony w tej samej jednostce co wartość docelowa, podniesionej do kwadratu.
W przykładzie z przewidywaniem wartości kontraktu wartość MSE równa 1562500 oznaczałaby, że model myli się o +/- 1 562 500 USD^2. Zauważ, że jednostką są dolary do kwadratu.
MAE
Średni błąd bezwzględny (MAE) to średnia wszystkich bezwzględnych błędów predykcji, gdzie błąd predykcji jest różnicą między wartością rzeczywistą a przewidywaną. Użycie wartości bezwzględnej błędów predykcji zapobiega wzajemnemu znoszeniu się błędów +/-. MAE mierzy się w tej samej jednostce co wartość celu.