Övervakning av datadrift i distribuerade datamodeller
I rutan Övervakning av datadrift i din ML-distribution kan du analysera datadrift för den distribuerade källmodellen. Med övervakning av datadrift kan du identifiera förändringar i fördelningen av en eller flera funktioner som används för att träna modellen.
När den beräknade förändringen för en funktion överstiger ett värde på 0,25 rekommenderas att du tränar om modellen med de senaste datamodellerna eller konfigurerar en ny modell om den ursprungliga maskininlärningsfrågan har ändrats avsevärt.
Beräkningar av datadrift i AutoML
I Qlik AutoML beräknas datadrift som populationsstabilitetsindex (PSI).
Du kan identifiera betydande datadrift för en funktion genom att titta på dess PSI-värde. Om PSI-värdet är större än eller lika med 0,25 bör du överväga att träna om modellen eller skapa ett nytt experiment.
PSI-värde | Beskrivning |
---|---|
Under 0,1 | Liten förändring |
Större än 0,1 men mindre än 0,25 | Mindre förändring |
Större än eller lika med 0,25 | Betydande förändring |
Starta en analys av datadrift
Gör följande:
-
Öppna ML-distribution
-
I den vänstra panelen väljer du Övervakning av datadrift.
-
En inbäddad analys genereras. Stanna kvar på Feature Drift-arket för att utföra datadriftsanalys.
Tillgänglighet för analysen
Nya beräkningar för datadrift genereras inte omedelbart när du öppnar en analys. Beräkningar av datadrift genereras en gång dagligen kl. 16.30 UTC.
Navigera inbäddade analyser
Med hjälp av det interaktiva gränssnittet kan du analysera den distribuerade modellen med inbäddad analys.
Växla mellan ark
I panelen Ark kan du växla mellan arken i analysen. Varje ark har ett specifikt fokus. Panelen kan expanderas och komprimeras efter behov.
Arket Feature Drift innehåller all information om datadrift. Om du byter till arket Operations kan du övervaka användningen av din ML-distribution. Mer information finns i Övervakning av distribuerad modelldrift.
Göra val
Använd urval för att förfina data. Du kan välja funktioner och deras specifika värden eller intervall, och filtrera efter specifika datum och betydelseintervall. I vissa fall kan du behöva göra ett eller flera val för att visualiseringar ska visas. Klicka på datavärden i visualiseringar för att göra urval.
Du kan arbeta med urval genom att:
-
Välja värden genom att klicka på innehåll, definiera intervall och rita.
-
Söka i diagram för att välja värden.
-
Klicka på ett markerat fält i verktygsfältet högst upp i den inbäddade analysen. Det gör att du kan söka i befintliga urval, låsa och låsa upp dem samt modifiera dem ytterligare.
-
I verktygsfältet högst upp i den inbäddade analysen klickar du på för att ta bort ett urval. Radera alla urval genom att klicka på ikonen .
-
Gå framåt eller bakåt i urvalen genom att klicka på och .
Analysera funktionsförändringar tillsammans med betydelse
Använd diagrammet Feature drift vs importance för att analysera funktionsförändringar och permutationsbetydelse tillsammans. Du kan identifiera när förändringar i drift sker parallellt med förändrade mönster i betydelse. Om du tittar på de här två mätvärdena tillsammans kan du upptäcka nya mönster och få en djupare förståelse för de trender som påverkar dina data.
För att förstå vad driftpoängen betyder för din modells prestanda, se Beräkningar av datadrift i AutoML.
Övervakning av funktionens drift över tid
I diagrammet Feature drift over time kan du se tidslinjen för varje driftberäkning och analysera förändringar som har skett över tid när nya prognoser genereras.
En referenslinje har lagts till vid ett PSI-värde på 0,25 för att ange när en funktion uppvisar betydande drift. För mer information om vad driftpoängen betyder för din modells prestanda, se Beräkningar av datadrift i AutoML.
Visa funktionsfördelning
Diagrammet Value distribution är användbart för att jämföra värdefördelningen för en funktion mellan träningsdatasetet och det dataset som används för den senaste prognosen som genereras med modellen. Du kan identifiera vilka områden i en funktion som påverkas mest respektive minst av drift.
De blå staplarna anger hur stor andel av värdena i den senast tillämpade datauppsättningen som faller inom varje intervall. De lila cirkelformade markörerna visar hur stor procent av värdena i träningsdatasetet som faller inom respektive intervall. Om du märker en stor skillnad mellan staplarnas höjd och markörernas position är det troligt att räckvidden påverkas av drift.