Ga naar hoofdinhoud Ga naar aanvullende inhoud

Gegevensdrift

Na verloop van tijd kan de juistheid van uw model afnemen omdat de gegevens in een of meer functies veranderen wat betreft distributie, magnitude en andere eigenschappen. Omdat het oorspronkelijke model getraind werd met functies die specifieke patronen en verdelingen bevatten, zullen toekomstige veranderingen in deze verdelingen de precisie en kwaliteit van de voorspellingen beïnvloeden.

Gegevensdrift kan gekwantificeerd en op een aantal manieren berekend worden. In  Qlik AutoML wordt de gegevensdrift berekend met de formule voor de populatiestabiliteitsindex. Zie: Gegevensdrift in geïmplementeerde modellen bewaken.

Een goede manier om uw model te controleren op gegevensdrift is door de oorspronkelijke trainingsgegevensverzameling te vergelijken met de meest recente toe te passen gegevensverzameling waarop u voorspellingen genereert. Wanneer de gegevensdrift een specifieke drempel bereikt, traint u het model opnieuw, of configureert u een nieuw model als uw oorspronkelijke machine learning-probleem aanzienlijk is veranderd.

Zie De prestaties van het model in de loop van de tijd evalueren voor meer informatie over het beoordelen van de modelprestaties in de loop van de tijd.

Voorbeeld

Stel dat een bedrijf een reeks producten heeft waarvan is vastgesteld dat ze vooral populair zijn bij consumenten van 45 jaar en ouder. De waardeverdeling voor een functie Age kan er als volgt uitzien.

Staafdiagram dat laat zien dat de verkoop van het bedrijf aantrekkelijker is voor consumenten die ouder zijn dan 45 jaar.

Staafdiagram met de verdeling van productaankopen naar leeftijd voordat het bedrijf een nieuw product heeft geïntroduceerd.

Onlangs heeft het bedrijf een nieuw product geïntroduceerd dat ook jongere consumenten moet aanspreken. Als het product verkoopt zoals verwacht, zien we een aanzienlijke functieverschuiving voor de functie Age.

Staafdiagram dat de verkoop van het bedrijf gelijkmatiger verdeelt, waarbij de verkopen van het bedrijf consumenten van alle leeftijden gelijkmatiger aanspreekt.

Staafdiagram met de verdeling van productaankopen naar leeftijd nadat het bedrijf een nieuw product heeft geïntroduceerd.

Gegevensdrift in AutoML

AutoML heeft ingebouwde hulpmiddelen om u te helpen gegevensdrift per functie te detecteren binnen uw geïmplementeerde modellen. Ga voor meer informatie naar Gegevensdrift in geïmplementeerde modellen bewaken.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!