Score toekennen aan regressiemodellen
Regressiemodellen voorspellen uitkomsten in de vorm van een getal dat de beste schatting van het model van de doelvariabele aangeeft. Er worden verschillende metrische gegevens gegenereerd waarmee u regressiemodellen kunt evalueren.
R2
R kwadraat (R2) is een eenheidloze meting van correlatie van de kenmerken ten opzichte van het doel. Het kan worden uitgedrukt als: hoeveel procent dichter bij perfect zijn de voorspellingen van het model in vergelijking met het gebruik van de gemiddelde waarde van het doel?
R2 varieert van negatieve oneindigheid tot 1. Hoe dichter bij 1, des te meer de variatie in de doelwaarde kan worden uitgelegd door de kenmerkvariabelen. Met andere woorden, hoe groter de kans dat u belangrijke kenmerken hebt die zouden leiden tot nauwkeurige voorspellingen.
De diagrammen geven een voorbeeld weer van lengte ten opzichte van leeftijd. Lengte heeft in het eerste diagram meer te maken met leeftijd, waar R2 0,97 is, dan in het tweede diagram, waar R2 0,56 is.
Merk op dat de lagere R2-waarde niet noodzakelijkerwijs betekent dat het een slecht model is. Hoe u de R2-waarde interpreteert, hangt af van de use case en de gegevens. Wanneer u nadenkt over de score voor een regressiemodel, is het belangrijk om te onthouden dat een lineaire relatie niet altijd cruciaal is. Als lineaire regressie resultaten van slechte kwaliteit genereert, terwijl andere algoritmen beter presteren, kan dat erop duiden dat uw gegevens niet goed genoeg in een model kunnen worden gebracht door een lineaire relatie.
RMSE
Root Mean Squared Error (RMSE, wortel van de gemiddelde kwadratische fout) kan worden geïnterpreteerd als het gemiddelde +/- verschil dat wordt verwacht tussen een voorspelde waarde en de werkelijke waarde. Het is de standaardafwijking van overige waarden (het verschil tussen de waargenomen waarde en de voorspelde waarde voor een kenmerk). RMSE wordt gemeten in dezelfde eenheid als de doelwaarde.
Voorbeeld: stel dat het ons doel is om de waarde van een contract te voorspellen en we RMSE = 1250 krijgen. Dit houdt in dat de voorspelde waarde gemiddeld +/- USD 1250 afwijkt van de werkelijke waarde.
MSE
Mean Squared Error (MSE, gemiddelde kwadratische fout) kan worden geïnterpreteerd als het kwadratische +/- verschil tussen de voorspelde waarde en de werkelijke waarde dat we gemiddeld zouden verwachten. MSE wordt gemeten in dezelfde eenheid als de doelwaarde in kwadraat.
In het voorbeeld met de voorspelling van de contractwaarde, zou een MSE-waarde van 1562500 betekenen dat het model een afwijking heeft van +/- 1,562,500 $2. De eenheid is dollars in kwadraat.
MAE
De Mean Absolute Error (MAE, gemiddelde absolute fout) is het gemiddelde van alle absolute voorspellingsfouten waarbij de voorspellingsfout het verschil is tussen de werkelijke en de voorspelde waarde. Door de absolute waarde van voorspellingsfouten te gebruiken wordt voorkomen dat +/- fouten elkaar opheffen. MSE wordt gemeten in dezelfde eenheid als de doelwaarde.