Score toekennen aan binaire classificatie-modellen

Binaire classificatiemodellen verdelen uitkomsten in twee categorieën, zoals Ja of Nee. Hoe nauwkeurig een model de uitkomsten verdeelt, kan worden beoordeeld voor diverse metrische scoregegevens.

De metrische gegevens leggen verschillende sterke en zwakke punten van het model bloot. Geen van de gegevens kan zelfstandig een ware meting van goede aansluiting op de use case zijn. Het is belangrijk om op te merken dat een score van algehele fantastische nauwkeurigheid, niet per definitie betekent dat het model fantastisch is. Wat als een bedrijf bijvoorbeeld een conversie van slechts 10 procent zou hebben? Het model zou een nauwkeurigheidsscore kunnen krijgen van 90 procent door simpelweg te stellen dat geen enkele lead ooit wordt omgezet in een deal. Dit is waar F1, recall en precisie een rol kunnen spelen om de balans tussen de sterke en zwakke punten van een model te bepalen. Als het model ervan zou uitgaan dat 100 procent van de leads niet zou converteren, zou F1 0 zijn.

Tijdens de training van een binaire-classificatie-experiment, worden automatisch de volgende diagrammen gegenereerd voor een snelle analyse van de modelscores:

Verwarringsmatrix: een diagram dat een samenvatting biedt van de juistheid van de resultaten in een classificatiemodel. Zie: Verwarringsmatrix.
ROC‑curve: een diagram dat laat zien hoe goed een machine-learningmodel de positieve klasse kan voorspellen als het daadwerkelijke resultaat positief is.Zie AUC- en ROC-curve.

Verwarringsmatrix

De meeste metrische gegevens voor binaire classificatieproblemen worden gegenereerd door verschillende berekeningen van de waarden van de verwarringsmatrix. De verwarringsmatrix is een van de visualisaties die wordt getoond op het tabblad Modellen. Het toont hoeveel van de werkelijk ware en werkelijk onware waarden juist zijn voorspeld, met een totaal per klasse. De in het diagram weergegeven waarden worden gebaseerd op de automatische evaluatiegegevens die worden gebruikt om de modelprestatie na training te valideren. Iedere record in de gegevensverzameling wordt gesorteerd in een van de kwadranten:

Waar-positief (WP): de werkelijke ware waarden die correct zijn voorspeld als waar.
Fout-positief (FP): de werkelijke foute waarden die incorrect zijn voorspeld als waar.
Fout-negatief (FN): de werkelijke ware waarden die incorrect zijn voorspeld als fout.
Waar-negatief (WN): de werkelijke foute waarden die juist zijn voorspeld als fout.

Onder de cijfers in ieder kwadrant ziet u de percentagewaarden voor de recall (WP), fallout (FP), miss rate (FN) en specificity (WN) van de metrische gegevens. Plaats uw muisaanwijzer boven een waarde om een knopinfo met de metrische gegevens te zien.

Verwarringsmatrix met kwadranten. — Verwarringsmatrix voor een binair classificatiemodel

Iedere realistische case toont fout-positieve en fout-negatieve waarden in de verwarringsmatrix. Perfecte voorspellingen voor de trainingsgegevens zouden erop duiden dat het model de antwoorden heeft onthouden en in een werkelijke situatie slecht zou presteren. Controleer of u voldoende waar-positieve en waar-negatieve gegevens hebt vastgelegd.

In sommige gevallen zou een regressie de juiste keuze zijn voor uw machine learning-probleem, maar wilt u toch graag de eenvoudige uitgebreide versie in de verwarringsmatrix. Wat u dan kunt doen, is met dezelfde gegevens (met uitzondering van de doelkolom) één model als een regressie uitvoeren en één model als een binaire classificatie. Dit zou het gemak van uitleg in een binaire classificatie bieden in combinatie met de robuustheid van een regressie.

F1

De F1-score is een metrisch gegeven dat de nauwkeurigheid in overweging probeert te nemen wanneer klassen uit balans zijn door de focus op de nauwkeurigheid van positieve voorspellingen en werkelijke positieve records te leggen. Het kan worden gezien als hoe nauwkeurig het model uitkomsten vastlegt die ertoe doen. Dit metrische gegeven probeert recall en precisie te balanceren om iets te vinden wat ergens in het midden ligt. Let wel dat hoe minder een gegevensverzameling in balans is, des te lager de F1-score is, zelfs met dezelfde algehele nauwkeurigheid.

Als de F1-waarde hoog is, zijn alle overige metrische scoregegevens hoog. Als de waarde laag is, is dat een teken dat u een nadere analyse moet uitvoeren. Als de score daarentegen erg hoog is, of als de score van de evaluatiegegevens veel lager is dan de kruisvalidatiescore, dan kan dat duiden op gegevenslekken.

F1 wordt berekend als: 2x ((precisie x recall)/(precisie + recall))

Terugroepen

Recall is de waar-positieve waarde. Dit meet hoe vaak het model iets correct als waar heeft voorspeld wanneer iets daadwerkelijk waar is. Dat wil zeggen: hoe nauwkeurig heeft het model de werkelijk ware cases in een gegevensverzameling gevonden? Recall is de meetwaarde van hoe goed de positieve klassen zijn onthouden. Deze waarde wordt berekend als: TP / (TP + FN)

Precisie

Precisie is de positief voorspellende waarde. Dit meet wat de waarschijnlijkheid is dat het model een juiste voorspelling zou doen wanneer iets waar is. Deze waarde wordt berekend als: TP / (TP + FP)

Compromis tussen recall en precisie

Recall kan worden omschreven als hoe breed het net is dat het model uitwerpt: zijn alle ware waarden vastgelegd, zelfs als er fout-positieve voorspellingen zijn gemaakt? Heeft het zo veel mogelijk ware waarden vastgelegd? Precisie is een deel van de omgekeerde waarde van recall. Hier willen we er zeker van zijn dat wanneer het model 'waar' voorspelt, het zeer precies is in het voorspellen van 'waar'. Maar met hoge precisie eindigen we met meer fout-negatieve waarden waarbij het model 'fout' voorspelt, zelfs als iets waar is.

Er moet een compromis worden gemaakt tussen geen ware uitkomsten missen en er zeker van zijn dat geen van de als 'waar' voorspelde resultaten, in werkelijkheid 'fout' waren. Of een tendens richting hogere precisie of hogere recall raadzaam is, is afhankelijk van uw use case. Bijvoorbeeld: bij de voorspelling van een diagnose van een ziekte, wilt u er zeker van zijn dat u geen patiënten mist die de ziekte daadwerkelijk hadden, u wilt dus geen fout-negatieve waarden.

Als de 'kosten' van een fout-negatieve waarde hoog zijn, zou een tendens richting hoge recall mogelijk gerechtvaardigd zijn.
Als de 'kosten' van een fout-positieve waarde hoog zijn, zou een tendens richting hoge precisie mogelijk gerechtvaardigd zijn.

Nauwkeurigheid

Nauwkeurigheid meet hoe vaak het model gemiddeld een juiste voorspelling heeft gedaan. Dit wordt berekend als: (TP + TN) / (alle voorspellingen)

Specificatie

Specificity is de waar-negatieve waarde. Dit meet hoe vaak het model iets correct als fout heeft voorspeld wanneer iets daadwerkelijk fout is. Deze waarde wordt berekend als: TN / (FP + TN)

MCC

De Matthews collelatiecoëfficient (MCC) varieert van -1 tot 1, waarbij 1 betekent dat het model iedere steekproef correct heeft voorspeld. MCC wordt berekend als: ((WP x WN) - (FP x FN))/[(WP + FP) x (FN + WN) x (FP + WN) x (WP + FN)]^(1/2)

Aantal mislukt

Miss rate is de fout-negatieve waarde. Het is de verhouding tussen het aantal fout-negatieve waarden en het totaalaantal daadwerkelijk positieve gebeurtenissen. Deze waarde wordt berekend als: FN / (TP + FN)

Uitval

Fallout is de fout-positieve waarde. Het is de verhouding tussen het aantal fout-positieve waarden en het totaalaantal daadwerkelijk negatieve gebeurtenissen. Deze waarde wordt berekend als: FP / (FP + TN)

NPV

De negatief voorspellende waarde (NPV) meet wat de waarschijnlijkheid is dat het model een juiste voorspelling zou doen wanneer iets fout is. Deze waarde wordt berekend als: TN / (FN + TN)

Log loss

Log loss is een veelgebruikte waarde voor nauwkeurigheid in logistieke regressie. Een lagere log loss-waarde betekent betere voorspellingen. Een perfect model zou een log loss van 0 hebben.

AUC- en ROC-curve

De gebied onder de curve (area under de curve AUC) is een complexer metrisch nauwkeurigheidsgegeven dat u kan helpen begrijpen hoe deterministisch een model is. Het beschrijft hoe goed het model is in het voorspellen van de positieve klasse wanneer de werkelijke uitkomst positief is.

AUC wordt gedefinieerd als het gebied onder een ROC-curve. De ROC-curve zet de fout-positieve waarde (x-as) af tegen de waar-positieve waarde (y-as) voor een aantal verschillende drempelwaarden tussen 0,0 en 1,0. Met andere woorden, het zet de loosalarmwaarde af tegen de hitwaarde. Deze curve is handig om te begrijpen of scheiding tussen klassen mogelijk is en geeft daarbij aan of de gegevens goed genoeg zijn om nauwkeurig onderscheid te maken tussen voorspelde uitkomsten.

De waar-positieve waarde wordt berekend als: TP / (TP + FN)

Hoe dichter de waar-positieve waarde bij 1,0 ligt, het maximaal mogelijke gebied onder de curve, des te deterministischer het model is.
Hoe dichter de waar-positieve waarde bij 0,5 ligt, hoe minder deterministisch het model is.

De onderstaande afbeelding toont een goede ROC-curve. Dit is een goede curve omdat de curve zo dicht mogelijk bij 1 zou moeten liggen, wat een hoge AUC oplevert. De stippellijn is willekeurig, 50:50. Als de AUC laag is, wordt de curve gezien als een slechte curve.

Drempel

De drempel is de waarschijnlijkheid dat een voorspelling waar is. Het vertegenwoordigt het compromis tussen fout-positieve en fout-negatieve waarden. De drempelwaarde wordt per algoritme bepaald en er is waarschijnlijk voor ieder algoritme in uw model een andere drempelwaarde.

Drempelafstemming

Drempelafstemming is een effectieve manier om er zeker van te zijn dat de juiste drempelwaarde wordt geselecteerd om de F1-scores van binaire classificatie-modellen te optimaliseren. AutoML berekent de precisie en recall voor honderden verschillende mogelijke drempelwaarden van 0 tot 1. De drempel die de hoogste F1-score bereikt, wordt geselecteerd.

Door de drempel te kiezen, in plaats van op de standaarddrempel van 0,5 te vertrouwen, worden voorspellingen gegenereerd die robuuster zijn voor gegevensverzamelingen met een onbalans tussen het aantal positieve en het aantal negatieve cases.

In het diagram is de drempel ingesteld op 0,5. In dit geval hebben de records die daadwerkelijk waar waren en minder dan 0,5 hebben voorspeld, het voorspellabel fout (fout-negatief) gekregen.

Grafiek met drempel gemarkeerd op 0,5. — Drempelwaarde op 0,5

Door de drempel te veranderen die bepaalt of een record als waar of fout wordt voorspeld, krijgen we een tendens richting hogere recall of hogere precisie.

Grafiek met daarin twee alternatieve drempelwaarden gemarkeerd. — Alternatieve drempelwaarden resulteren in ofwel hogere recall ofwel grotere precisie

GERELATEERD LESMATERIAAL:

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!

Geef hier uw feedback