Gå till huvudinnehåll Gå till ytterligare innehåll

Datadrift

Med tiden kan din modells noggrannhet minska eftersom data i en eller flera funktioner förändras i distribution, magnitud och andra egenskaper. Eftersom den ursprungliga modellen tränades med funktioner som innehåller specifika mönster och fördelningar, kommer framtida förändringar av dessa fördelningar att påverka precisionen och kvaliteten på prognoserna.

Datadrift kan kvantifieras och kan beräknas på ett antal olika sätt. I Qlik AutoML beräknas datadrift med formeln för populationsstabilitetsindex. Se Övervakning av datadrift i distribuerade datamodeller.

En bästa praxis är att övervaka din modell för datadrift genom att jämföra den ursprungliga träningsdatasetet med den mest uppdaterade tillämpade datasetet som du genererar förutsägelser på. När datadriften når en specifikt threshold, träna om modellen, eller konfigurera en ny modell om ditt ursprungliga maskininlärningsproblem har förändrats väsentligt.

Mer information om hur du utvärderar modellens prestanda över tid finns på Utvärdering av modellens prestanda över tid.

Exempel

Anta att ett företag har en uppsättning produkter som har visat sig vara populära främst bland konsumenter i åldern 45 år och äldre. Värdefördelningen för en funktion Ålder kan se ut på följande sätt.

Stapeldiagram som visar att företagets försäljning i högre grad tilltalar konsumenter över 45 år.

Stapeldiagram som visar fördelningen av produktinköp efter ålder innan företaget har introducerat en ny produkt.

Nyligen har bolaget lanserat en ny produkt som marknadsförs för att även tilltala yngre konsumenter. När produkten säljer som förväntat ser vi en betydande funktionsförskjutning för funktionen Ålder.

Stapeldiagram som visar att företagets försäljning är mer jämnt fördelad och att företagets försäljning i högre grad tilltalar konsumenter i alla åldrar.

Stapeldiagram som visar fördelningen av produktinköp efter ålder efter företaget har introducerat en ny produkt.

Övervakning av datadrift i AutoML

AutoML har inbyggda verktyg som hjälper dig att upptäcka datadrift per funktion i dina distribuerade datamodeller. Mer information finns i Övervakning av datadrift i distribuerade datamodeller.

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!