Datadrift
Med tiden kan din modells noggrannhet minska eftersom data i en eller flera funktioner förändras i distribution, magnitud och andra egenskaper. Eftersom den ursprungliga modellen tränades med funktioner som innehåller specifika mönster och fördelningar, kommer framtida förändringar av dessa fördelningar att påverka precisionen och kvaliteten på prognoserna.
Datadrift kan kvantifieras och kan beräknas på ett antal olika sätt. I Qlik AutoML beräknas datadrift med formeln för populationsstabilitetsindex. Se Övervakning av datadrift i distribuerade datamodeller.
En bästa praxis är att övervaka din modell för datadrift genom att jämföra den ursprungliga träningsdatasetet med den mest uppdaterade tillämpade datasetet som du genererar förutsägelser på. När datadriften når en specifikt threshold, träna om modellen, eller konfigurera en ny modell om ditt ursprungliga maskininlärningsproblem har förändrats väsentligt.
Mer information om hur du utvärderar modellens prestanda över tid finns på Utvärdering av modellens prestanda över tid.
Exempel
Anta att ett företag har en uppsättning produkter som har visat sig vara populära främst bland konsumenter i åldern 45 år och äldre. Värdefördelningen för en funktion Ålder kan se ut på följande sätt.
Nyligen har bolaget lanserat en ny produkt som marknadsförs för att även tilltala yngre konsumenter. När produkten säljer som förväntat ser vi en betydande funktionsförskjutning för funktionen Ålder.
Övervakning av datadrift i AutoML
AutoML har inbyggda verktyg som hjälper dig att upptäcka datadrift per funktion i dina distribuerade datamodeller. Mer information finns i Övervakning av datadrift i distribuerade datamodeller.