Ga naar hoofdinhoud Ga naar aanvullende inhoud

Evaluatiegegevens en kruisvalidatie

Een van de grootste uitdagingen in voorspellende analyses is om te weten hoe een getraind model zal presteren met gegevens die het model nog niet eerder heeft gezien. Om het anders te stellen: hoe goed het model de ware patronen heeft geleerd versus gewoon trainingsgegevens onthouden. Evaluatiegegevens en kruisvalidatie zijn effectieve technieken om ervoor te zorgen dat uw model gegevens niet alleen onthoudt, maar daadwerkelijk algemene patronen leert.

Modellen testen op herinneren versus generaliseren

Vragen hoe goed een model in het echte leven gaat werken, is eigenlijk vragen of het model gebeurtenissen onthoudt of generaliseert. Onthouden is het vermogen om perfect te herinneren wat er in het verleden is gebeurd. Een model dat gegevens onthoudt, heeft mogelijk hogere scores wanneer het aanvankelijk wordt getraind, maar de nauwkeurigheid van de voorspellingen zal drastisch dalen zodra het wordt toegepast op nieuwe gegevens. In plaats daarvan willen we een model dat generaliseert. Generalisatie is het vermogen om algemene patronen te leren en toe te passen. Door de werkelijke, bredere patronen te leren uit de trainingsgegevens, kan een generaliserend model voorspellingen doen die ook voor nieuwe gegevens die het nog niet eerder heeft gezien dezelfde kwaliteit hebben.

Automatische evaluatiegegevens

Evaluatiegegevens zijn willekeurig geselecteerde gegevens die tijdens de training worden verborgen van het model en vervolgens worden gebruikt om het model te scoren. Met de evaluatiegegevens wordt gesimuleerd hoe het model zal presteren bij toekomstige voorspellingen door nauwkeurigheidsstatistieken te genereren voor gegevens die niet zijn gebruikt voor training. Het is alsof we een model hebben opgezet, het hebben geïmplementeerd en de voorspellingen kunnen monitoren ten opzichte van wat er daadwerkelijk is gebeurd, zonder te hoeven wachten om die voorspellingen te observeren.

De gegevensverzameling wordt verdeeld in trainingsgegevens en evaluatiegegevens

Verhouding van trainingsgegevens en evaluatiegegevens.

Kruisvalidatie

Kruisvalidatie neemt een gegevensverzameling en verdeeld deze willekeurg in een gelijk aantal segmenten. Dit zijn de 'folds'. Het machine learning-algoritme wordt getraind op alle folds op één na. Kruisvalidatie test vervolgens iedere fold ten opzichte van een model dat is getraind met alle overige folds. Dit betekent dat ieder getraind model wordt getest op een segment van de gegevens dat nog niet eerder is gezien. Het proces wordt herhaald met een andere fold die tijdens de training is verborgen. Vervolgens wordt er getest tot alle folds één keer als test en voor iedere iteratie voor training zijn gebruikt.

De trainingsgegevens worden verdeeld in vijf folds. Tijdens iedere iteratie wordt er een andere fold opzij gezet om als testgegevens te worden gebruikt.

De trainingsgegevens worden verdeeld in vijf folds en worden vijf keer gebruikt.

De uitkomst van de kruisvalidatie is een reeks teststatistieken die een redelijk idee bieden van hoe nauwkeurig het getrainde model voorspellingen kan doen voor gegevens die het nog niet eerder heeft gezien.

Hoe werken automatische evaluatiegegevens en kruisvalidatie

AutoML gebruikt kruisvalidatie met vijf folds tijdens de training van het model om de prestaties van het model te simuleren. Het model wordt vervolgens opnieuw getest met een groep evaluatiegegevens die buiten de trainingsgegevens is gehouden. Dit genereert scorestatistieken waarmee u kunt evalueren en vergelijken om te zien hoe goed verschillende algoritmen presteren.

  1. Voordat de training van uw experiment begint, worden alle gegevens in uw gegevensverzameling met een niet-null-doel willekeurig gehusseld. Twintig procent van uw gegevensverzameling wordt geëxtraheerd als trainingsgegevens. De resterende tachtig procent van de gegevensverzameling wordt gebruikt om het model te trainen met kruisvalidatie.

  2. Ter voorbereiding op de kruisvalidatie wordt de gegevensverzameling verdeeld in vijf, willekeurige delen, folds. Het model wordt vervolgens vijf keer getraind, en elke keer wordt een ander vijfde deel van de gegevens 'verborgen' om te testen hoe het model presteert. Trainingsstatistieken worden gegenereerd gedurende de kruisvalidatie en zijn het gemiddelde van de berekende waarden.

  3. Na de training wordt het model toegepast op de apart gehouden evaluatiegegevens. Het voordeel van evaluatiegegevens is dat deze tijdens de training niet door het model worden gezien (in tegenstelling tot kruisvalidatiegegevens), waardoor ze geschikt zijn voor het valideren van de prestaties van het model. Evaluatiegegevens worden gegenereerd tijdens deze laatste modelevaluatie.

Voor meer informatie over meetwaarden die worden gebruikt om de prestaties van het model te analyseren, raadpleegt u Modellen evalueren.

De trainingsgegevens worden gebruikt tijdens de kruisvalidatie met vijf folds om een model te genereren.Na de training wordt het model toegepast op de apart gehouden evaluatiegegevens.

Trainingsgegevens worden gebruikt voor kruisvalidatie en evaluatiegegevens voor de definitieve modelevaluatie.

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!