Gå till huvudinnehåll Gå till ytterligare innehåll

Poängsättning av regressionsmodeller

Regressionsmodeller förutsäger resultaten som ett tal, vilket anger modellens bästa uppskattning av målvariabeln. Flera mätvärden genereras för att du ska kunna utvärdera regressionsmodeller.

R2

R-kvadrat (R2) är ett dimensionslöst mått på korrelationen mellan funktionerna och målet. Det kan uttryckas som: hur mycket närmare perfekt är modellens prognoser jämfört med att använda målets medelvärde?

R2 sträcker sig från negativ oändlighet till 1. Ju närmare 1, desto mer varians i målvärdet kan förklaras av funktionsvariablerna. Med andra ord, ju mer troligt det är att du har funktionsmässigt betydelsefulla variabler som skulle leda till korrekta prognoser.

Diagrammen visar ett exempel på längd i förhållande till ålder. Längden är närmare korrelerad med åldern i det första diagrammet, där R2 är 0,97, än i det andra diagrammet, där R2 är 0,56.

Två diagram som visar längd i förhållande till ålder med olika R2-värden

Två diagram med olika R2-värden.

Observera att ett lägre R2-värde inte nödvändigtvis betyder att det är en dålig modell. Hur du tolkar R2 beror på användningsområde och data. När man överväger poängsättning av regressionsmodeller är det viktigt att komma ihåg att ett linjärt förhållande inte alltid är avgörande. Om linjär regression ger dåliga resultat medan andra algoritmer har bättre prestanda kan det helt enkelt betyda att dina data inte kan modelleras tillräckligt bra med ett linjärt förhållande.

RMSE

RMSE (root mean squared error) kan tolkas som den genomsnittliga skillnaden i +/- som förväntas mellan ett förutsagt värde och det faktiska värdet. Det är standardavvikelsen för residualer (skillnaden mellan det observerade värdet och det förutsagda värdet för en funktion). RMSE mäts i samma enhet som målvärdet.

Som exempel kan vi säga att vårt mål är att förutsäga kontraktsvärdet och att vi får RMSE = 1 250. Detta innebär att det förutspådda värdet i genomsnitt skiljer sig +/- 1 250 dollar från det faktiska värdet.

MSE

MSE (medelkvadratfel) kan tolkas som den kvadrerade skillnaden i +/- mellan det förutspådda värdet och det faktiska värdet som vi förväntar oss att se i genomsnitt. Det mäts i samma enhet som målvärdet i kvadrat.

I exemplet med prognos av kontraktsvärdet skulle ett MSE-värde på 1 562 500 innebära att modellen ligger fel med +/- 1 562 500 $2. Observera att enheten är dollar i kvadrat.

MAE

MAE (genomsnittligt absolut fel) är genomsnittet av alla absoluta prognosfel, där prognosfelet är skillnaden mellan det faktiska och det förutspådda värdet. Genom att använda det absoluta värdet av prognosfelen förhindrar man att plus- och minusfelen upphäver varandra. MAE mäts i samma enhet som målvärdet.

Förutsägelsehastighet

Prognoshastighet är ett modellmått som gäller för alla modelltyper: binär klassificering, flerklassig klassificering och regression. Prognoshastighet mäter hur snabbt en maskininlärningsmodell kan generera prognoser.

Qlik Predict beräknas prognoshastigheten med hjälp av den kombinerade beräkningstiden för funktioner och prognostiden för testdatauppsättning. Det visas i rader per sekund.

Prognoshastigheten kan analyseras i tabellen Modellmätvärden efter att du har kört din experimentversion. Du kan också visa data om prognoshastighet när du analyserar modeller med inbäddad analys. Mer information finns här:

Överväganden

Den uppmätta prognoshastigheten baseras på storleken på träningsdatauppsättningen snarare än på de data som prognoserna görs på. När du har distribuerat en modell kan du märka skillnader mellan hur snabbt prognoser skapas om tränings- och prognosdata skiljer sig mycket åt i storlek, eller när du skapar prognoser i realtid på en eller en handfull datarader.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!