Ga naar hoofdinhoud Ga naar aanvullende inhoud

Modellen evalueren

Om uw machine learning-modellen te evalueren moet u snappen hoe de scores en metrische gegevens van het model in elkaar steken. In sommige gevallen kan begrijpen hoe elk veld en elke waarde het voorspelde resultaat beïnvloedt, dus waarom iets gebeurt, belangrijker zijn dan voorspellingen.

Waarom zijn modelscores zo belangrijk?

Het doel van de verschillende modelscores is om de sterke punten van het model te leren kennen. Dit vergroot uw vertrouwen in de bruikbaarheid van het model en toont welke verbeteringen kunnen worden gemaakt. Als de score erg hoog of erg laag is, kan dat erop duiden dat er een probleem is met de gegevens die in het model worden ingevoerd.

Een model een score geven is een uitdagende taak omdat er verschillende cijfers zijn die verschillende dingen over het model beschrijven. Als u wilt weten of het een goed model is, moet u kennis uit het zakelijke domein combineren met een inzicht in de verschillende metrische en andere gegevens waarmee het model is getraind. Wat er misschien als een vreselijke score uitziet in de ene use case, is wellicht een fantastische score met een hoog rendement in een andere.

Het belangrijkste metrische gegeven: Een autovergelijking

Welk metrische gegeven is het belangrijkste? Dat is afhankelijk van hoe u van plan bent het model te gebruiken. Er is niet één enkel metrisch gegeven dat u alles kan vertellen wat u wilt weten.

Ter vergelijking: stel dat u een auto wilt kopen. Er zijn talloze verschillende metrische gegevens die u dan in overweging neemt: brandstofverbruik, pk, koppel, gewicht en acceleratie. We willen misschien dat ze allemaal geweldig zijn, maar we zullen compromissen moeten maken op basis van hoe we van plan zijn de auto te gebruiken. Gebruikt u de auto om dagelijks naar uw werk te rijden, dan wilt u een auto die zuinig is in brandstofverbruik, ook al betekent dat lage koppel. Iemand die daarentegen een boot heeft, kiest misschien voor een hoge koppel, ook al betekent dat een minder zuinig brandstofverbruik.

Een model moet op dezelfde manier worden benaderd. We willen dat alle cijfers goed zijn, en we kunnen ze misschien ook wel verbeteren met meer gegevens en betere kenmerken, maar er zullen altijd beperkingen zijn en er zullen altijd compromissen moeten worden gemaakt. Sommige scores doen er meer toe, afhankelijk van wat u met het model wilt doen.

Sluit het model goed aan op uw beoogde gebruik?

Om vast te stellen of een model goed aansluit op de use case en in productie kan worden genomen, komt uiteindelijk neer op de volgende vraag: "Is het model nauwkeurig genoeg om een positief rendement op te leveren zonder onacceptabele consequenties?" De volgende vier vragen kunnen u helpen tot het antwoord te komen.

Biedt het model informatie voor een beslissing door een persoon of automatiseert het beslissingen?

De vereiste nauwkeurigheid is afhankelijk van of u het model wilt gebruiken om beslissingen te automatiseren of te informeren. Bijvoorbeeld: een model kan worden getraind om te bepalen hoeveel geld werknemers zouden moeten verdienen. In dit geval moet de nauwkeurigheid waarschijnlijk hoger zijn als het model de beslissing automatiseert ten opzichte van wanneer het model alleen maar informatie hoeft te verschaffen voor een beslissing door een mens. Als managers het model nodig hebben om te weten of een medewerker te veel of te weinig salaris krijgt, kunnen ze hun eigen inzicht gebruiken om te bepalen of het model ernaast zit of niet.

Zijn er kwantificeerbare kosten voor een fout-positieve of fout-negatieve uitkomst?

Kunt u de kosten van een foute uitkomst kwantificeren? Houd rekening met deze kosten wanneer u de mate van nauwkeurigheid bepaalt die nodig is om te vast te stellen of het model al dan niet aansluit op de use case.

We gebruiken hetzelfde voorbeeld als hierboven en stellen dat het model alleen bedoeld is ter informatie. De manager vertrouwt het model echter en geeft een medewerker geen loonsverhoging omdat het model aangeeft dat de medewerker overbetaald zou worden bij een loonsverhoging. De medewerker neemt ontslag en gaat ergens anders werken. Wat waren de kosten van het verliezen van die medewerker? Wat als het omgekeerde was gebeurd? Wat hadden de kosten geweest als er onterecht een loonsverhoging was gegeven?

Hoeveel beter is het model dan willekeurig?

Bepaal voor regressieproblemen wat de fout zou zijn als u altijd zou uitgaan van de gemiddelde waarde in de doelkolom. Hoeveel beter is het model in vergelijking hiermee?

Neem voor classificatieproblemen het aandeel van de positieve klasse in het kwadraat en voeg dit toe aan het aandeel van de negatieve klasse in het kwadraat om willekeurige nauwkeurigheid te krijgen. Hoeveel beter is het model dan dat?

Is het model beter dan een uitgangspunt?

Overweeg afhankelijk van of er kosten gepaard gaan met fouten, of het model beter is dan een uitgangspunt. Stel dat een firma gratis consulten biedt die duur en tijdrovend zijn (USD 6000), maar veel geld opleveren wanneer er een deal wordt gemaakt (USD 60.000). De firma gaat er op dit moment vanuit dat 100 procent van de consulten ook zal leiden tot een gesloten deal. De firma zou echter meer winst boeken als men zou bepalen welke consulten ze wel zouden moeten doen en welke niet. Bij welke modelnauwkeurigheid zou de firma de uitkomsten van het model moeten gebruiken in plaats van het uitgangspunt dat 100 procent van de deals succesvol is?

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!