Modellen herzien en verfijnen

Als de eerste versie van de modeltraining klaar is, analyseert u de statistieken van het model en configureert u nieuwe versies van het experiment totdat u de gewenste resultaten bereikt.

Als u de experimentversie uitvoert, wordt u naar het tabblad Modellen geleid waar u kunt starten met het analyseren van de resulterende modelstatistieken. U kunt Schemaweergave en Gegevensweergave openen door terug te gaan naar het tabblad Gegevens. U kunt een gedetailleerdere analyse uitvoeren op de tabbladen Vergelijken en Analyseren.

U weet dat de eerste versie van de training is voltooid wanneer alle gegevens zijn ingevuld in de tabel Modelstatistieken en een trofee Trofee -pictogram naast het beste model verschijnt.

AutoML verbetert voortdurend de processen voor modeltraining. U merkt daardoor mogelijk dat de modelstatieken en andere details die op de afbeeldingen op deze pagina worden getoond mogelijk niet overeenkomen met uw statistieken nadat u deze oefeningen hebt voltooid.

De modellen van v1 analyseren

Ga terug naar het tabblad Modellen. In de tabel Modelstatistieken wordt het topmodel voorzien van een trofeepictogram Trofee . Dit houdt in dat het best presterende model is gebaseerd op de F1-score.

De tabel Modelstatistieken toont de belangrijkste modelstatistieken. — Tabel Modelstatistieken met het presterende v1-model

Ga terug naar het tabblad Modellen. In de tabel Modelstatistieken wordt het topmodel voorzien van een trofeepictogram Trofee . Dit houdt in dat het best presterende model is gebaseerd op de F1-score.

Sorteer de modellen per performance, van hoog naar laag, door op de kolomkop F1 te klikken. We kunnen ervoor kiezen de slecht presterende algoritmen uit te sluiten of alleen te focussen op het beste algoritme om sneller resultaten te krijgen wanneer de training opnieuw wordt uitgevoerd. We behandelen dit probleem in de volgende sectie als we v3 gaan configureren.

Lekkage van gegevens identificeren

Kijk naar de diagrammen Modelinzichten aan de rechterkant van de pagina. Deze diagrammen geven u een indicatie van de relatieve urgentie van elk functie en van de modelprestaties.

In het diagram Permutatie-urgentie en in de lijst Functies in het venster Experimentconfiguratie ziet u dat de eerste iteratie van het model vooral gebruikmaakt van het functie DaysSinceLastService, terwijl de andere functies bijna niet van belang zijn.

Diagram Permutatie-urgentie voor het best presterende v1-model toont dat de functie 'DaysSinceLastService' vrijwel volledig invloed heeft op het gehele model — Diagram Permutatie-urgentie op het tabblad Modellen toont een gegevenslek

Dit verschil, en de uiterst hoge F1-prestatiescore van de modellen, moet worden gezien als een teken dat er een fout is opgetreden. In dit voorbeeld was er tijdens het verzamelen van gegevens geen logica vastgelegd voor het stopzetten van het tellen van het aantal dagen sinds het laatste serviceticket van klanten die hun abonnement hebben opgezegd. Daardoor leerde het model om het grote aantal dagen sinds het laatste serviceticket (voor klanten die jaren geleden al hebben opgezegd) te associëren met een waarde van yes in het veld Churned.

Dit is een voorbeeld van het lekken van gegevens, omdat een model in een echt scenario alleen toegang zou hebben tot informatie totdat de voorspelling wordt gedaan, en het aantal dagen in dit veld is verzameld in een periode na dat meetpunt. Dit probleem staat bekend als een doellek, wat een vorm van een gegevenslek is. Meer informatie over het lekken van gegevens vindt u in Lekken van gegevens.

We moeten de lekkende functie DaysSinceLastService verwijderen uit de experimentconfiguratie omdat dit de resulterende modellen vertekent. Vergeet niet dat bij echte toepassingen de kwaliteit en logica van de gegevens grondig moet worden onderzocht voordat een model wordt aangemaakt, om ervoor te zorgen dat het model correct is getraind.

We behandelen dit probleem als we v2 gaan configureren.

Versie 2 configureren en laten draaien

Laten we een nieuwe versie configureren om het gegevenslek aan te pakken.

Doe het volgende:

Klik op Configuratie weergeven om het venster voor experimentconfiguratie uit te vouwen.
Klik op Nieuwe versie.
In het venster, onder Functies schakelt u het selectievakje DaysSinceLastService uit.
Klik op v2 draaien.

Venster Experimentconfiguratie toont de configuratie van v2. — DaysSinceLastService voor v2 verwijderen

De modellen van v2 analyseren

Na het uitvoeren van de tweede versie van het experiment, klikt u in het selectievakje naast het best presterende v2-model (gemarkeerd met een trofeepictogram Trofee ) in de tabel Modelstatistieken. Dit vernieuwt de pagina met de statistieken voor dat model.

Trainings- en evaluatiegegevens vergelijken

U kunt aanvullende statistieken bekijken en de statistieken van de kruisvalidatietraining en vergelijken met de evaluatiegegevens.

Doe het volgende:

Schakel in het experiment over naar het tabblad Vergelijken.
Er wordt een geïntegreerde analyse geopend. U kunt de interactieve interface gebruiken om dieper in te gaan op uw vergelijkende modelanalyse en nieuwe inzichten op te doen.
In het venster Werkbladen aan de rechterkant van de analyse gaat u naar het werkblad Details.
Kijk naar de tabel Model Metrics. Deze toont statistieken van modelscores, zoals F1 en andere informatie.
Versie 1 van de training is getroffen door een doellek, dus laten we ons alleen focussen op v2. Gebruik het filtervak Version aan de rechterkant van het werkblad om de waarde 1 te selecteren.
Gebruik het filtervak in de sectie Columns to show om kolommen toe te voegen of te verwijderen uit de tabel.
Voeg aanvullende meeteenheden toe via de vervolgkeuzelijst. Trainingsscores voor elke meeteenheid worden getoond als waarden die eindigen op Train. Voeg nog wat trainingsstatistieken toe aan de tabel.

U kunt nu de F1-statistieken zien uit de kruisvalidatietraining en ze vergelijken met de evaluatiegegevens.

Gebruik het tabblad 'Vergelijken' in het experiment om de trainingsscores naast de evaluatiescores te bekijken — Trainingsscores toevoegen en bekijken voor vergelijking met de evaluatiescores

Functies met een lage urgentie identificeren

Hierna moeten we controleren of er functies zijn met een lage permutatie-urgentie. Functies die weinig tot geen invloed op het model hebben moeten verwijderd worden om de nauwkeurigheid van de voorspelling te verbeteren.

Doe het volgende:

Ga in het experiment terug naar het tabblad Modellen.
Kijk naar het Permutation importance-diagram. De laatste vier functies—StartMonth, DeviceType, CustomerTenure en Territory—hebben veel minder invloed op ons model dan de andere functies. Ze hebben weinig waarde voor deze toepassing en zijn statistisch onbelangrijk.

In v3 kunnen we deze functies verwijderen om te zien of de modelscores verbeteren.

Diagram Permutatie-urgentie voor geselecteerd v2-model toont een zeer lage permutatie-urgentie voor verschillende functies — Tabblad Modellen met het best presterende v2-model geselecteerd Het diagram Permutatie-urgentie toont dat er functies zijn die weinig tot geen invloed op het model uitoefenen.

Slecht presterende algoritmen identificeren

We kunnen ook kijken naar de tabel Modelstatistieken om te kijken of we algoritmen van de v3-training kunnen verwijderen. U kunt slecht presterende algoritmen verwijderen tijdens het verfijnen van modellen zodat de training sneller wordt uitgevoerd tijdens aansluitende iteraties.

Ga in het experiment terug naar het tabblad Modellen.
In de tabel Modelstatistieken gebruikt het filter Versie om alleen de modellen van v2 te tonen.
Kijk naar de F1-scores voor elk algoritme. Als bepaalde algoritmen modellen maken die aanzienlijk lager scoren dan anderen, kunnen we ze uit de volgende versie verwijderen.

Versie 3 configureren en uitvoeren

Doe het volgende:

Klik op Configuratie weergeven om het venster voor experimentconfiguratie uit te vouwen.
Klik op Nieuwe versie.
In het venster, onder Functies schakelt u de selectievakjes voor StartMonth, DeviceType, CustomerTenure en Territory uit.
U kunt ook Algoritmen uitvouwen en de selectievakjes voor Gaussian Naive Bayes en Logistische regressie uitschakelen.
Klik op v3 uitvoeren.

De modellen van v3 analyseren

Nadat v3 is uitgevoerd, kunt het filter Versie wissen in de tabel Modelstatistieken. Selecteer het best presterende model van v3.

Laten we snel de modellen binnen alle versies vergelijken.

De eerste versie van de training gaf de hoogste scores, maar die statistieken waren erg overdreven en waren onrealistische voorspellingen van de prestatie, een gevolg van het gegevenslek. In v3 was de F1-score van het beste model hoger dan dat van het beste v2-model.

De tabel Modelstatistieken wordt gebruikt om snel modellen te vergelijken die zijn getraind binnen elke versie van het experiment — De tabel Modelstatistieken toont de gesorteerde F1-scores voor modellen binnen alle drie versies. De F1-score is verbeterd in v3 na het verwijderen van functies met een laag belang.

Zoals u eerder hebt gezien, kunt u naar het tabblad Vergelijken gaan voor een diepgaandere vergelijking van de modelscores.

Focussen op een specifiek model

Op elk moment tijdens de modelanalyse kunt een diepgaande analyse uitvoeren voor een afzonderlijk model. Verken de nauwkeurigheid van voorspellingen, functie-urgentie en verdeling van functies met een interactieve Qlik Sense-ervaring.

Doe het volgende:

Zorg dat het best presterende v3-model is geselecteerd en klik op het tabblad Analyseren.
Er wordt een geïntegreerde analyse geopend.
Met het werkblad Model Overview kunt u nauwkeurigheid van de voorspelling van het model analyseren. De analyse wordt verbeterd door middel van selecties. Klik op een functie of voorgespelde waarde om een selectie te maken. De gegevens in de geïntegreerde analyse worden aangepast om de gegevens te filteren. U kunt inzoomen op specifieke waarden en bereiken van de functie om te kijken hoe de invloed van de functie en de nauwkeurigheid van de voorspellingen veranderen.
Als u overschakelt naar andere werkbladen, kunt u visualisaties bekijken voor de nauwkeurigheid van de voorspelling, de verdeling van functies en verdeling van de impact (SHAP). Deze analyse-inhoud kan u helpen om:
- Factoren te ontdekken die van invloed zijn op trends in de gegevens.
- Identificeer hoe specifieke functies en cohorten van invloed zijn op voorspelde waarden en de nauwkeurigheid van voorspellingen.
- Identificeer uitschieters binnen de gegevens.

Gebruik het tabblad 'Analyseren' om de analyse uit te breiden met selecties — Tabblad Analyseren in een ML-experiment

Volgende stappen

In de praktijk is het belangrijk om deze verfijningsstappen zo vaak als nodig uit te voeren voordat u uw model implemeteert, om ervoor te zorgen dat u het best mogelijke model voor uw toepassing gebruikt.

Ga in deze tuturial naar het volgende hoofdstuk over het implementeren van uw model.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!

Geef hier uw feedback