Modelversies herzien en verfijnen
Als de eerste versie van de modeltraining klaar is, analyseert u de statistieken van het model en configureert u nieuwe versies van het experiment totdat u de gewenste resultaten bereikt.
Als u de experimentversie uitvoert, wordt u naar de modelweergave geleid waar u de resulterende modelstatistieken kunt analyseren. U kunt op elk moment wisselen tussen de schema- of gegevensweergave. Klik op het pictogram van de modelweergave om terug te gaan naar de modelweergave.
U weet dat de eerste versie van de training is voltooid wanneer alle gegevens zijn ingevuld in de tabel Modelstatistieken en een trofee -pictogram naast het beste model verschijnt.
Het model analyseren
In de modelweergave kunnen we zien dat het algoritme een score heeft van een trofee -pictogram. Dit houdt in dat het best presterende model is gebaseerd op de F1-score.
Doe het volgende:
-
Klik rechts boven in de tabel op de kolomkiezer -knop. Hier kunt u alle beschikbare meetcriteria voor ons probleem bekijken en eventueel meetcriteria toevoegen of verwijderen. Selecteer de meetcriteria die u in de tabel wilt tonen of behoud de standaardmeetcriteria.
-
Klik in de tabel Modelstatistieken op de filterlijst Algoritme en selecteer het algoritme dat overeenkomt met het best presterende model.
-
Scshakel Metrische trainingsgegevens tonen in.
U kunt nu de statistieken zien uit de kruisvalidatietraining en ze vergelijken met de voorlopige statistieken. Voor elke kolom met voorlopige statistieken, bestaat er een overeenkomstige 'trainingskolom' voor de overeenkomstige statieken op basis van de trainingsgegevens.
-
Klik op Filters wissen en zet de wisselknop Statistieken op basis van trainingsgegevens tonen op uit.
-
Sorteer de modellen per performance, van hoog naar laag, door op de kolomkop F1 te klikken. We kunnen ervoor kiezen de slecht presterende algoritmen uit te sluiten of alleen te focussen op het beste algoritme om sneller resultaten te krijgen wanneer de training opnieuw wordt uitgevoerd. We behandelen dit probleem in de volgende sectie als we v3 gaan configureren.
-
Blader omlaag onder de tabel met metrische gegevens om visualisaties te bekijken voor het geselecteerde model.
-
Klik op of klik op Configuratie weergeven om het deelvenster Experimentconfiguratie uit te vouwen
-
Klik op Nieuwe versie om een concept van de nieuwe experimentversie te maken.
-
In het diagram Permutatiebelang en in de lijst Kenmerken in het venster Experimentconfiguratie ziet u dat de eerste iteratie van het model vooral gebruikmaakt van het kenmerk DaysSinceLastService, terwijl de andere kenmerken bijna niet van belang zijn.
Dit verschil, en de uiterst hoge performance van de modellen, moet worden gezien als een teken dat er een fout is opgetreden. In dit voorbeeld was er tijdens het verzamelen van gegevens geen logica vastgelegd voor het stopzetten van het tellen van het aantal dagen sinds het laatste serviceticket van klanten die hun abonnement hebben opgezegd. Daardoor leerde het model om het grote aantal dagen sinds het laatste serviceticket te associëren met een waarde van yes in het veld Churned.
Dit is een voorbeeld van het lekken van gegevens, omdat een model in een echt scenario alleen toegang zou hebben tot informatie totdat de voorspelling wordt gedaan, en het aantal dagen in dit veld is verzameld in een periode na dat meetpunt. Meer informatie over het lekken van gegevens vindt u in Lekken van gegevens.
We moeten het lekkende kenmerk DaysSinceLastService verwijderen uit de experimentconfiguratie omdat dit de resulterende modellen vertekent. Vergeet niet dat bij echte toepassingen de kwaliteit en logica van de gegevens grondig moet worden onderzocht voordat een model wordt aangemaakt, om ervoor te zorgen dat het model correct is getraind.
We behandelen dit probleem in de volgende sectie als we v2 gaan configureren.
Versie 2 configureren en laten draaien
Nadat deze gegevenslek is opgelost, zal een groot deel van de modeltraining veranderen; laten we daarom een nieuwe versie configureren voordat we het model verder verfijnen.
Doe het volgende:
-
In een vorige stap hebt u al het venster Experimentconfiguratie geopend voor het configureren van versie 2.
-
Ga naar Kenmerken in het venster Experimentconfiguratie en deselecteer het selectievakje DaysSinceLastService.
-
Klik op v2 draaien.
Versie 3 configureren en uitvoeren
Na het uitvoeren van de tweede versie van het experiment, klikt u in het selectievakje naast het best presterende v2-model (gemarkeerd met een trofee -pictogram) in de statistiekentabel. Dit vernieuwt de pagina met de statistieken voor dat model.
Klik boven de tabel Modelstatistieken op de filterlijst Versie en selecteer 2. Zo kunt u zich alleen focussen op de meetcriteria van het v2-model.
U ziet dat de lijst met belangrijke kenmerken aanzienlijk is veranderd sinds de gegevenslek is opgelost. Het best presterende model gebruikt mogelijk een ander algoritme dan het best presterende model van v1.
Doe het volgende:
-
Kijk naar het Permutation importance-diagram. Er kunnen kenmerken zijn die veel minder invloed op ons model hebben dan de andere kenmerken. Ze hebben weinig waarde voor deze toepassing en zijn statistisch onbelangrijk. U kunt proberen om enkele van deze kenmerken te verwijderen om te zien of dit de modelscores verbetert.
-
Klik op of klik op Configuratie weergeven om het deelvenster Experimentconfiguratie uit te vouwen
-
Klik op Nieuwe versie om een concept van de nieuwe experimentversie te maken.
-
In het deelvenster Experimentconfiguratie onder Kenmerken schakelt u de selectievakjes uit voor een of meer kenmerken die weinig tot geen invloed op het model hebben.
-
Kijk naar de tabel Modelstatistieken. We kunnen ervoor kiezen enkele slecht presterende algoritmen uit te sluiten of alleen te focussen op de beste algoritmen om sneller resultaten te krijgen wanneer de training opnieuw wordt uitgevoerd.
-
In het deelvenster Experimentconfiguratie, onder Algoritmen, kunt u eventueel de selectievakjes uitschakelen voor enkele van de slecht presterende algoritmen.
-
Klik op v3 uitvoeren.
Experimentversies vergelijken
Klik in de tabel Modelstatistieken op Filters wissen.
Nadat v3 is uitgevoerd, schakelt u het selectievakje naar het best presterende v3-model in om de meetcriteria te bekijken.
Klik op Meer modelfilters en selecteer het filter Toppresteerders. U ziet de statistieken voor de beste modellen van elke iteratie van het experiment.
De eerste versie van de training gaf de hoogste scores, maar die statistieken waren erg overdreven en waren onrealistische voorspellingen van de prestatie, een gevolg van de gegevenslek. In v3 was de F1-score van het beste model hoger dan dat van het beste v2-model.
In de praktijk is het belangrijk om deze verfijningsstappen zo vaak als nodig uit te voeren voordat u uw model implemeteert, om ervoor te zorgen dat u het best mogelijke model voor uw toepassing gebruikt.
Ga in deze tuturial naar het volgende hoofdstuk over het implementeren van uw model.