Poängsättning av regressionsmodeller
Regressionsmodeller förutsäger resultaten som ett tal, vilket anger modellens bästa uppskattning av målvariabeln. Flera mätvärden genereras för att du ska kunna utvärdera regressionsmodeller.
R2
R-kvadrat (R2) är ett dimensionslöst mått på korrelationen mellan funktionerna och målet. Det kan uttryckas som: hur mycket närmare perfekt är modellens prognoser jämfört med att använda målets medelvärde?
R2 sträcker sig från negativ oändlighet till 1. Ju närmare 1, desto mer varians i målvärdet kan förklaras av funktionsvariablerna. Med andra ord, ju mer troligt det är att du har funktionsmässigt betydelsefulla variabler som skulle leda till korrekta prognoser.
Diagrammen visar ett exempel på längd i förhållande till ålder. Längden är närmare korrelerad med åldern i det första diagrammet, där R2 är 0,97, än i det andra diagrammet, där R2 är 0,56.
Observera att ett lägre R2-värde inte nödvändigtvis betyder att det är en dålig modell. Hur du tolkar R2 beror på användningsområde och data. När man överväger poängsättning av regressionsmodeller är det viktigt att komma ihåg att ett linjärt förhållande inte alltid är avgörande. Om linjär regression ger dåliga resultat medan andra algoritmer har bättre prestanda kan det helt enkelt betyda att dina data inte kan modelleras tillräckligt bra med ett linjärt förhållande.
RMSE
RMSE (root mean squared error) kan tolkas som den genomsnittliga skillnaden i +/- som förväntas mellan ett förutsagt värde och det faktiska värdet. Det är standardavvikelsen för residualer (skillnaden mellan det observerade värdet och det förutsagda värdet för en funktion). RMSE mäts i samma enhet som målvärdet.
Som exempel kan vi säga att vårt mål är att förutsäga kontraktsvärdet och att vi får RMSE = 1 250. Detta innebär att det förutspådda värdet i genomsnitt skiljer sig +/- 1 250 dollar från det faktiska värdet.
MSE
MSE (medelkvadratfel) kan tolkas som den kvadrerade skillnaden i +/- mellan det förutspådda värdet och det faktiska värdet som vi förväntar oss att se i genomsnitt. Det mäts i samma enhet som målvärdet i kvadrat.
I exemplet med prognos av kontraktsvärdet skulle ett MSE-värde på 1 562 500 innebära att modellen ligger fel med +/- 1 562 500 $2. Observera att enheten är dollar i kvadrat.
MAE
MAE (genomsnittligt absolut fel) är genomsnittet av alla absoluta prognosfel, där prognosfelet är skillnaden mellan det faktiska och det förutspådda värdet. Genom att använda det absoluta värdet av prognosfelen förhindrar man att plus- och minusfelen upphäver varandra. MAE mäts i samma enhet som målvärdet.