Gå till huvudinnehåll Gå till ytterligare innehåll

Poängsättning av regressionsmodeller

Regressionsmodeller förutsäger resultaten som ett tal, vilket anger modellens bästa uppskattning av målvariabeln. Flera mätvärden genereras för att du ska kunna utvärdera regressionsmodeller.

Under träningen av ett regressionsexperiment autogenereras följande diagram för snabbanalys av de genererade modellerna:

  • Permutationsbetydelse: Ett diagram i vilket funktionerna visas i ordning från högsta inflytande (största inverkan på modellens prestanda) till lägsta inflytande (minsta inverkan på modellens prestanda). Mer information finns i Permutationsbetydelse.

  • SHAP-betydelse: Ett diagram som anger hur mycket varje funktion påverkar det förutspådda resultatet. Mer information finns i SHAP-betydelse vid experimentträning.

R2

R-kvadrat (R2) är ett dimensionslöst mått på korrelationen mellan funktionerna och målet. Det kan uttryckas som: hur mycket närmare perfekt är modellens prognoser jämfört med att använda målets medelvärde?

R2 sträcker sig från negativ oändlighet till 1. Ju närmare 1, desto mer varians i målvärdet kan förklaras av funktionsvariablerna. Med andra ord, ju mer troligt det är att du har funktionsmässigt betydelsefulla variabler som skulle leda till korrekta prognoser.

Diagrammen visar ett exempel på längd i förhållande till ålder. Längden är närmare korrelerad med åldern i det första diagrammet, där R2 är 0,97, än i det andra diagrammet, där R2 är 0,56.

Två diagram som visar längd i förhållande till ålder med olika R2-värden

Två diagram med olika R2-värden.

Observera att ett lägre R2-värde inte nödvändigtvis betyder att det är en dålig modell. Hur du tolkar R2 beror på användningsområde och data. När man överväger poängsättning av regressionsmodeller är det viktigt att komma ihåg att ett linjärt förhållande inte alltid är avgörande. Om linjär regression ger dåliga resultat medan andra algoritmer har bättre prestanda kan det helt enkelt betyda att dina data inte kan modelleras tillräckligt bra med ett linjärt förhållande.

RMSE

RMSE (root mean squared error) kan tolkas som den genomsnittliga skillnaden i +/- som förväntas mellan ett förutsagt värde och det faktiska värdet. Det är standardavvikelsen för residualer (skillnaden mellan det observerade värdet och det förutsagda värdet för en funktion). RMSE mäts i samma enhet som målvärdet.

Som exempel kan vi säga att vårt mål är att förutsäga kontraktsvärdet och att vi får RMSE = 1 250. Detta innebär att det förutspådda värdet i genomsnitt skiljer sig +/- 1 250 dollar från det faktiska värdet.

MSE

MSE (medelkvadratfel) kan tolkas som den kvadrerade skillnaden i +/- mellan det förutspådda värdet och det faktiska värdet som vi förväntar oss att se i genomsnitt. Det mäts i samma enhet som målvärdet i kvadrat.

I exemplet med prognos av kontraktsvärdet skulle ett MSE-värde på 1 562 500 innebära att modellen ligger fel med +/- 1 562 500 $2. Observera att enheten är dollar i kvadrat.

MAE

MAE (genomsnittligt absolut fel) är genomsnittet av alla absoluta prognosfel, där prognosfelet är skillnaden mellan det faktiska och det förutspådda värdet. Genom att använda det absoluta värdet av prognosfelen förhindrar man att plus- och minusfelen upphäver varandra. MAE mäts i samma enhet som målvärdet.

Mer information

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!