Ga naar hoofdinhoud Ga naar aanvullende inhoud

Modelversies herzien en verfijnen

Als de eerste versie van de modeltraining klaar is, analyseert u de statistieken van het model en configureert u nieuwe versies van het experiment totdat u de gewenste resultaten bereikt.

Als u de experimentversie uitvoert, wordt u naar de modelweergave geleid waar u de resulterende modelstatistieken kunt analyseren. U kunt op elk moment wisselen tussen de schema- of gegevensweergave. Klik op het pictogram van de modelweergave Object om terug te gaan naar de modelweergave.

U weet dat de eerste versie van de training is voltooid wanneer alle gegevens zijn ingevuld in de tabel Modelstatistieken en een trofee Trofee-pictogram naast het beste model verschijnt.

InformatieAutoML verbetert voortdurend de processen voor modeltraining. U merkt daardoor mogelijk dat de modelstatieken en andere details die op de afbeeldingen op deze pagina worden getoond mogelijk niet overeenkomen met uw statistieken nadat u deze oefeningen hebt voltooid.

Het model analyseren

In de modelweergave kunnen we zien dat het algoritme een score heeft van een trofee Trofee-pictogram. Dit houdt in dat het best presterende model is gebaseerd op de F1-score.

Modelweergave met beste v1-model.

Modelweergave met metrische modelgegevens.
  1. Klik rechts boven in de tabel op de kolomkiezer Kolommen-knop. Hier kunt u alle beschikbare meetcriteria voor ons probleem bekijken en eventueel meetcriteria toevoegen of verwijderen. Selecteer de meetcriteria die u in de tabel wilt tonen of behoud de standaardmeetcriteria.

    Gebruik de kolomkiezer om meetcriteria toe te voegen of verwijderen van de tabel Modelstatistieken

    Kolomkiezer in tabel Modelstatistieken
  2. Klik in de tabel Modelstatistieken op de filterlijst Algoritme en selecteer het algoritme dat overeenkomt met het best presterende model.

  3. Scshakel Metrische trainingsgegevens tonen in.

    U kunt nu de statistieken zien uit de kruisvalidatietraining en ze vergelijken met de voorlopige statistieken. Voor elke kolom met voorlopige statistieken, bestaat er een overeenkomstige 'trainingskolom' voor de overeenkomstige statieken op basis van de trainingsgegevens.

    Tabel Modelstatistieken met statistieken op basis van trainingsgegevens

    Metrische trainingsgegevens weergegeven onder de metrische evaluatiegegevens.
  4. Klik op Filters wissen en zet de wisselknop Statistieken op basis van trainingsgegevens tonen op uit.

  5. Sorteer de modellen per performance, van hoog naar laag, door op de kolomkop F1 te klikken. We kunnen ervoor kiezen de slecht presterende algoritmen uit te sluiten of alleen te focussen op het beste algoritme om sneller resultaten te krijgen wanneer de training opnieuw wordt uitgevoerd. We behandelen dit probleem in de volgende sectie als we v3 gaan configureren.

  6. Blader omlaag onder de tabel met metrische gegevens om visualisaties te bekijken voor het geselecteerde model.

    Tabel met modelstatistieken en diagrammen

    Tabel met metrische modelgegevens en visualisaties.
  7. Klik op Deelvenster Experimentconfiguratie of klik op Configuratie weergeven om het deelvenster Experimentconfiguratie uit te vouwen

  8. Klik op Nieuwe versie om een concept van de nieuwe experimentversie te maken.

  9. In het diagram Permutatiebelang en in de lijst Kenmerken in het venster Experimentconfiguratie ziet u dat de eerste iteratie van het model vooral gebruikmaakt van het kenmerk DaysSinceLastService, terwijl de andere kenmerken bijna niet van belang zijn.

    Statistieken over permutation importance in het venster Experimentconfiguratie, met de invloed van het kenmerk DaysSinceLastService

    De lijst met kenmerken in het venster Experimentconfiguratie, met het kenmerk 'DaysSinceLastService' dat een onredelijk groot effect heeft op het experiment.

    Dit verschil, en de uiterst hoge performance van de modellen, moet worden gezien als een teken dat er een fout is opgetreden. In dit voorbeeld was er tijdens het verzamelen van gegevens geen logica vastgelegd voor het stopzetten van het tellen van het aantal dagen sinds het laatste serviceticket van klanten die hun abonnement hebben opgezegd. Daardoor leerde het model om het grote aantal dagen sinds het laatste serviceticket te associëren met een waarde van yes in het veld Churned.

    Dit is een voorbeeld van het lekken van gegevens, omdat een model in een echt scenario alleen toegang zou hebben tot informatie totdat de voorspelling wordt gedaan, en het aantal dagen in dit veld is verzameld in een periode na dat meetpunt. Meer informatie over het lekken van gegevens vindt u in Lekken van gegevens.

    We moeten het lekkende kenmerk DaysSinceLastService verwijderen uit de experimentconfiguratie omdat dit de resulterende modellen vertekent. Vergeet niet dat bij echte toepassingen de kwaliteit en logica van de gegevens grondig moet worden onderzocht voordat een model wordt aangemaakt, om ervoor te zorgen dat het model correct is getraind.

    We behandelen dit probleem in de volgende sectie als we v2 gaan configureren.

Versie 2 configureren en laten draaien

Nadat deze gegevenslek is opgelost, zal een groot deel van de modeltraining veranderen; laten we daarom een nieuwe versie configureren voordat we het model verder verfijnen.

  1. In een vorige stap hebt u al het venster Experimentconfiguratie geopend voor het configureren van versie 2.

  2. Ga naar Kenmerken in het venster Experimentconfiguratie en deselecteer het selectievakje DaysSinceLastService.

  3. Klik op v2 draaien.

Versie 3 configureren en uitvoeren

Na het uitvoeren van de tweede versie van het experiment, klikt u in het selectievakje naast het best presterende v2-model (gemarkeerd met een trofee Trofee-pictogram) in de statistiekentabel. Dit vernieuwt de pagina met de statistieken voor dat model.

Klik boven de tabel Modelstatistieken op de filterlijst Versie en selecteer 2. Zo kunt u zich alleen focussen op de meetcriteria van het v2-model.

U ziet dat de lijst met belangrijke kenmerken aanzienlijk is veranderd sinds de gegevenslek is opgelost. Het best presterende model gebruikt mogelijk een ander algoritme dan het best presterende model van v1.

Tabel Modelstatistieken met beste modellen voor v2, gesorteerd op F1-score.

Tabel Modelstatistieken met versiefilter 'v2' toegepast na de training van v2.
  1. Kijk naar het Permutation importance-diagram. Er kunnen kenmerken zijn die veel minder invloed op ons model hebben dan de andere kenmerken. Ze hebben weinig waarde voor deze toepassing en zijn statistisch onbelangrijk. U kunt proberen om enkele van deze kenmerken te verwijderen om te zien of dit de modelscores verbetert.

    Diagram Permutatiebelang voor het beste v2-model

    Permutatiebelang-diagram na verwijdering van lekkend kenmerk DaysSinceLastService.
  2. Klik op Deelvenster Experimentconfiguratie of klik op Configuratie weergeven om het deelvenster Experimentconfiguratie uit te vouwen

  3. Klik op Nieuwe versie om een concept van de nieuwe experimentversie te maken.

  4. In het deelvenster Experimentconfiguratie onder Kenmerken schakelt u de selectievakjes uit voor een of meer kenmerken die weinig tot geen invloed op het model hebben.

  5. Kijk naar de tabel Modelstatistieken. We kunnen ervoor kiezen enkele slecht presterende algoritmen uit te sluiten of alleen te focussen op de beste algoritmen om sneller resultaten te krijgen wanneer de training opnieuw wordt uitgevoerd.

  6. In het deelvenster Experimentconfiguratie, onder Algoritmen, kunt u eventueel de selectievakjes uitschakelen voor enkele van de slecht presterende algoritmen.

  7. Klik op v3 uitvoeren.

Experimentversies vergelijken

Klik in de tabel Modelstatistieken op Filters wissen.

Nadat v3 is uitgevoerd, schakelt u het selectievakje naar het best presterende v3-model in om de meetcriteria te bekijken.

Klik op Meer modelfilters en selecteer het filter Toppresteerders. U ziet de statistieken voor de beste modellen van elke iteratie van het experiment.

De eerste versie van de training gaf de hoogste scores, maar die statistieken waren erg overdreven en waren onrealistische voorspellingen van de prestatie, een gevolg van de gegevenslek. In v3 was de F1-score van het beste model hoger dan dat van het beste v2-model.

Beste modellen

Tabel met modelstatistieken met de filter 'Toppresteerdes', om het beste model van v3 te tonen.

In de praktijk is het belangrijk om deze verfijningsstappen zo vaak als nodig uit te voeren voordat u uw model implemeteert, om ervoor te zorgen dat u het best mogelijke model voor uw toepassing gebruikt.

Ga in deze tuturial naar het volgende hoofdstuk over het implementeren van uw model.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!