Gegevensdrift in geïmplementeerde modellen bewaken
In het venster Gegevensdrift monitoren in uw ML-implementatie kunt u gegevensdrift analyseren voor de bron die voor het model is geïmplementeerd. Met de bewaking van gegevensdrift kunt u veranderingen identificeren in de verdelingen van een of meer functies die gebruikt zijn om het model te trainen.
Als de berekende drift voor een functie een waarde van 0,25 overschrijdt, wordt aanbevolen dat u het model opnieuw traint met de meest recente gegevens, of een nieuw model configureert als de oorspronkelijke machine learning-vraag aanzienlijk is veranderd.
Berekeningen voor gegevensdrift in AutoML
In Qlik AutoML wordt de gegevensdrift berekend met de formule voor de populatiestabiliteitsindex (PSI).
U kunt een aanzienlijke gegevensdrift voor een functie identificeren door naar de PSI-waarde te kijken. Als de PSI-waarde groter of gelijk is aan 0,25, overweeg dan om het model opnieuw te trainen of een nieuw experiment te maken.
PSI-waarde | Beschrijving |
---|---|
Onder 0,1 | Lage drift |
Groter dan 0,1 maar kleiner dan 0,25 | Kleine drift |
Groter dan of gelijk aan aan 0,25 | Aanzienlijke drift |
Een gegevensdriftanalyse starten
Doe het volgende:
-
Open een ML-implementatie.
-
Selecteer in het linkervenster Gegevensdrift monitoren.
-
Er wordt een ingesloten analyse gegenereerd. Blijf op het werkblad Feature Drift om de gegevensdriftanalyse uit te voeren.
Beschikbaarheid van de analyse
Nieuwe berekeningen voor gegevensdrift worden niet onmiddellijk gegenereerd wanneer u een analyse opent. Berekeningen voor gegevensdrift worden eenmaal daags om 16.30 uur UTC gegenereerd.
Navigeren door geïntegreerde analyses
Gebruik de interactieve interface om het geïmplementeerde model te analyseren met behulp van ingesloten analyses.
Schakelen tussen werkbladen
In het venster Werkbladen kunt u schakelen tussen de werkbladen in de analyse. Elk werkblad heeft een specifieke focus. Het venster kan naar wens worden uit- of samengevouwen.
Het werkblad Feature Drift bevat alle informatie over gegevensdrift. Als u overschakelt naar het werkblad Operations, kunt u het gebruik van uw ML-implementatie controleren. Ga voor meer informatie naar Bewerkingen van geïmplementeerde modellen monitoren.
Selecties uitvoeren
Gebruik selecties om de gegevens te verfijnen. U kunt functies en hun specifieke waarden of bereiken selecteren en filteren op specifieke bereiken voor datums en urgenties. In sommige gevallen wilt u mogelijk ook dat één of meer selecties van visualisaties worden getoond. Klik op gegevenswaarden in visualisaties om selecties te maken.
U kunt werken met selecties door het volgende te doen:
-
Selecteer waarden door te klikken op inhoud, bereiken te definiëren of door te tekenen.
-
Zoek binnen diagrammen om waarden te selecteren.
-
Klik op een geselecteerd veld in de werkbalk, bovenaan de geïntegreerde analyse. Hiermee kunt u zoeken in bestaande selecties, ze vergrendelen of ontgrendelen en ze verder aanpassen.
-
Klik op in de werkbalk bovenaan de geïntegreerde analyse om een selectie te verwijderen. Wis alle selecties door te klikken op het pictogram .
-
Stap vooruit en terug in uw selecties door te klikken op en .
Functiedrift naast urgentie analyseren
Gebruik het diagram Feature drift vs importance om functiedrift en permutatie-urgentie samen te analyseren. U kunt vaststellen wanneer veranderingen in drift parallel lopen met veranderende patronen in urgentie. Als u deze twee statistieken samen bekijkt, kunt u nieuwe patronen ontdekken en een beter begrip krijgen van de trends die uw gegevens beïnvloeden.
Om te begrijpen wat de driftscores betekenen voor de prestaties van uw model, raadpleegt u Berekeningen voor gegevensdrift in AutoML.
Functiedrift in de loop van de tijd bewaken
Bekijk in het diagram Feature drift over time de tijdlijn voor elke driftberekening en analyseer de veranderingen die in de loop der tijd zijn opgetreden terwijl er nieuwe voorspellingen worden gegenereerd.
Er is een referentielijn toegevoegd bij een PSI-waarde van 0,25 om aan te geven wanneer een functie een aanzienlijke drift vertoont. Om te begrijpen wat de driftscores betekenen voor de prestaties van uw model, raadpleegt u Berekeningen voor gegevensdrift in AutoML.
Functieverdeling weergeven
Het diagram Value distribution is nuttig voor het vergelijken van de waardeverdeling voor een functie tussen de trainingsgegevensverzameling en de gegevensverzameling die wordt gebruikt voor de laatste voorspelling die met het model wordt gegenereerd. U kunt bepalen welke bereiken in een functie het meest en het minst worden beïnvloed door drift.
De blauwe staven geven het percentage van de waarden in de laatste toe te passen gegevensverzameling aan die binnen elk bereik vallen. De paarse cirkelvormige markeringen tonen het percentage van de waarden in de trainingsgegevensverzameling die binnen elk bereik vallen. Als u een groot verschil ziet tussen de hoogte van de staven en de positie van de markeringen dan wordt het bereik waarschijnlijk beïnvloed door drift.