Ga naar hoofdinhoud Ga naar aanvullende inhoud

Score toekennen aan regressiemodellen

Regressiemodellen voorspellen uitkomsten in de vorm van een getal dat de beste schatting van het model van de doelvariabele aangeeft. Er worden verschillende metrische gegevens gegenereerd waarmee u regressiemodellen kunt evalueren.

Tijdens de training van een regressie-experiment, worden automatisch de volgende diagrammen gegenereerd voor een snelle analyse van de gegenereerde modellen:

  • Permutatie-urgentie: een diagram waarin kenmerken weergegeven op volgorde van meeste invloed (grootste impact op de prestatie van het model) tot de minste invloed (kleinste impact op de prestatie van het model). Ga voor meer informatie naar Permutatie-urgentie.

  • SHAP importance: een diagram dat weergeeft in welke mate elk kenmerk invloed heeft op de voorspelde uitkomst. Ga voor meer informatie naar SHAP importance in experimenttrainingen.

R2

R kwadraat (R2) is een eenheidloze meting van correlatie van de kenmerken ten opzichte van het doel. Het kan worden uitgedrukt als: hoeveel procent dichter bij perfect zijn de voorspellingen van het model in vergelijking met het gebruik van de gemiddelde waarde van het doel?

R2 varieert van negatieve oneindigheid tot 1. Hoe dichter bij 1, des te meer de variatie in de doelwaarde kan worden uitgelegd door de kenmerkvariabelen. Met andere woorden, hoe groter de kans dat u belangrijke kenmerken hebt die zouden leiden tot nauwkeurige voorspellingen.

De diagrammen geven een voorbeeld weer van lengte ten opzichte van leeftijd. Lengte heeft in het eerste diagram meer te maken met leeftijd, waar R2 0,97 is, dan in het tweede diagram, waar R2 0,56 is.

Twee diagrammen waarin lengte wordt afgezet tegen leeftijd met verschillende R2-waarden

Twee grafieken met verschillende R2-waarden.

Merk op dat de lagere R2-waarde niet noodzakelijkerwijs betekent dat het een slecht model is. Hoe u de R2-waarde interpreteert, hangt af van de use case en de gegevens. Wanneer u nadenkt over de score voor een regressiemodel, is het belangrijk om te onthouden dat een lineaire relatie niet altijd cruciaal is. Als lineaire regressie resultaten van slechte kwaliteit genereert, terwijl andere algoritmen beter presteren, kan dat erop duiden dat uw gegevens niet goed genoeg in een model kunnen worden gebracht door een lineaire relatie.

RMSE

Root Mean Squared Error (RMSE, wortel van de gemiddelde kwadratische fout) kan worden geïnterpreteerd als het gemiddelde +/- verschil dat wordt verwacht tussen een voorspelde waarde en de werkelijke waarde. Het is de standaardafwijking van overige waarden (het verschil tussen de waargenomen waarde en de voorspelde waarde voor een kenmerk). RMSE wordt gemeten in dezelfde eenheid als de doelwaarde.

Voorbeeld: stel dat het ons doel is om de waarde van een contract te voorspellen en we RMSE = 1250 krijgen. Dit houdt in dat de voorspelde waarde gemiddeld +/- USD 1250 afwijkt van de werkelijke waarde.

MSE

Mean Squared Error (MSE, gemiddelde kwadratische fout) kan worden geïnterpreteerd als het kwadratische +/- verschil tussen de voorspelde waarde en de werkelijke waarde dat we gemiddeld zouden verwachten. MSE wordt gemeten in dezelfde eenheid als de doelwaarde in kwadraat.

In het voorbeeld met de voorspelling van de contractwaarde, zou een MSE-waarde van 1562500 betekenen dat het model een afwijking heeft van +/- 1,562,500 $2. De eenheid is dollars in kwadraat.

MAE

De Mean Absolute Error (MAE, gemiddelde absolute fout) is het gemiddelde van alle absolute voorspellingsfouten waarbij de voorspellingsfout het verschil is tussen de werkelijke en de voorspelde waarde. Door de absolute waarde van voorspellingsfouten te gebruiken wordt voorkomen dat +/- fouten elkaar opheffen. MSE wordt gemeten in dezelfde eenheid als de doelwaarde.

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!