Övervakning av datadrift i distribuerade datamodeller

I rutan Övervakning av datadrift i din ML-distribution kan du analysera datadrift för den distribuerade källmodellen. Med övervakning av datadrift kan du identifiera förändringar i fördelningen av en eller flera funktioner som används för att träna modellen.

När den beräknade förändringen för en funktion överstiger ett värde på 0,25 rekommenderas att du tränar om modellen med de senaste datamodellerna eller konfigurerar en ny modell om den ursprungliga maskininlärningsfrågan har ändrats avsevärt.

Analys av datadrift är endast tillgänglig på engelska.

Inbäddad analys som visar beräkningar av funktionsförändringar för en distribuerad modell. — Analys av datadrift i AutoML

Beräkningar av datadrift i AutoML

I Qlik AutoML beräknas datadrift som populationsstabilitetsindex (PSI).

Du kan identifiera betydande datadrift för en funktion genom att titta på dess PSI-värde. Om PSI-värdet är större än eller lika med 0,25 bör du överväga att träna om modellen eller skapa ett nytt experiment.

Värden och indikationer för populationsstabilitetsindex (PSI)
PSI-värde	Beskrivning
Under 0,1	Liten förändring
Större än 0,1 men mindre än 0,25	Mindre förändring
Större än eller lika med 0,25	Betydande förändring

Starta en analys av datadrift

Gör följande:

Öppna ML-distribution
I den vänstra panelen väljer du Övervakning av datadrift.

En inbäddad analys genereras.

Tillgänglighet för analysen

Nya beräkningar för datadrift genereras inte omedelbart när du öppnar en analys. Beräkningar av datadrift genereras en gång dagligen kl. 16.30 UTC.

Navigera inbäddade analyser

Med hjälp av det interaktiva gränssnittet kan du analysera den distribuerade modellen med inbäddad analys.

Göra val

Använd urval för att förfina data. Du kan välja funktioner och deras specifika värden eller intervall, och filtrera efter specifika datum och betydelseintervall. I vissa fall kan du behöva göra ett eller flera val för att visualiseringar ska visas. Klicka på datavärden i visualiseringar för att göra urval.

Du kan arbeta med urval genom att:

Välja värden genom att klicka på innehåll, definiera intervall och rita.
Söka i diagram för att välja värden.
Klicka på ett markerat fält i verktygsfältet högst upp i den inbäddade analysen. Det gör att du kan söka i befintliga urval, låsa och låsa upp dem samt modifiera dem ytterligare.
I verktygsfältet högst upp i den inbäddade analysen klickar du på för att ta bort ett urval. Radera alla urval genom att klicka på ikonen .
Gå framåt eller bakåt i urvalen genom att klicka på och .

Analysera funktionsförändringar tillsammans med betydelse

Använd diagrammet Feature drift vs importance för att analysera funktionsförändringar och permutationsbetydelse tillsammans. Du kan identifiera när förändringar i drift sker parallellt med förändrade mönster i betydelse. Om du tittar på de här två mätvärdena tillsammans kan du upptäcka nya mönster och få en djupare förståelse för de trender som påverkar dina data.

För att förstå vad driftpoängen betyder för din modells prestanda, se Beräkningar av datadrift i AutoML.

Övervakning av funktionens drift över tid

I diagrammet Feature drift over time kan du se tidslinjen för varje driftberäkning och analysera förändringar som har skett över tid när nya prognoser genereras.

En referenslinje har lagts till vid ett PSI-värde på 0,25 för att ange när en funktion uppvisar betydande drift. För mer information om vad driftpoängen betyder för din modells prestanda, se Beräkningar av datadrift i AutoML.

Visa funktionsfördelning

Diagrammet Value distribution är användbart för att jämföra värdefördelningen för en funktion mellan träningsdatasetet och det dataset som används för den senaste prognosen som genereras med modellen. Du kan identifiera vilka områden i en funktion som påverkas mest respektive minst av drift.

De blå staplarna anger hur stor andel av värdena i den senast tillämpade datauppsättningen som faller inom varje intervall. De lila cirkelformade markörerna visar hur stor procent av värdena i träningsdatasetet som faller inom respektive intervall. Om du märker en stor skillnad mellan staplarnas höjd och markörernas position är det troligt att räckvidden påverkas av drift.

Mer information

Datadrift

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!

Lämna din feedback här