Granska och förfina modellversioner
När den första versionen av modellträningen är klar analyserar du de modellmätetal som blev resultatet och konfigurerar nya versioner av experimentet tills du har fått de resultat du behöver.
När du kör experimentversionen förs du till modellvyn, där du kan analysera de resulterande modellmätvärdena. Du kan när som helst växla till schema- eller datavyn. När du behöver återgå till modellvyn klickar du på -ikonen för modellvyn.
Du kan se att den första versionen av träningen är klar när alla mätvärden fylls i i tabellen Mätvärden för modell och en -troféikon visas intill toppmodellen.
Analys av modellen
I modellvyn kan vi se att toppalgoritmen har fått poäng till en -troféikon. Detta innebär att det är den modell som presterar bäst baserat på F1-poängen.
Gör följande:
-
Högst upp till höger i tabellen klickar du på kolumnväljarknappen . Här kan du visa alla tillgängliga mätvärden för våra problem, och lägga till eller ta bort mätvärden efter behov. Välj de mätvärden du vill visa i tabellen, eller lämna kvar de förvalda mätvärdena.
-
I tabellen Mätvärden för modell klickar du på rullgardinsfiltret Algoritm och väljer den algoritm som motsvarar den bäst presterande modellen.
-
Aktivera Visa mätvärden för träningsdata.
Du kan nu se mätvärdena från korsvalideringsträningen och jämföra dem med mätvärdena för undantagna data. För varje kolumn med undantagna data finns det en motsvarande 'träna'-kolumn för motsvarande mätetal från träningsdata.
-
Klicka på Rensa filter och slå av växelreglaget Visa mått för träningsdata.
-
Sortera modellerna efter prestanda, från högsta till lägsta, genom att klicka på kolumnrubriken F1. Du kan välja att utesluta de algoritmer som presterar dåligt eller fokusera på den bästa algoritmen för att få snabbare resultat i nästa upprepning av träningen. Vi kommer att hantera detta när du konfigurerar v3 i ett senare avsnitt.
-
Bläddra nedåt under tabellen med mätvärden för att se visualiseringar för den valda modellen.
-
Klicka på , eller på Visa konfiguration för att expandera rutan Experimentkonfiguration.
-
Klicka på Ny version för att skapa ett utkast av nästa experimentversion.
-
I diagrammet Experimentkonfiguration, liksom i listan Funktioner i fönstret Experimentkonfiguration, ser du att den här första iterationen av modellen bygger mycket på funktionen DaysSinceLastService, och att alla andra funktioner nästan inte har någon betydelse jämfört med den.
Denna skillnad, och modellernas extremt höga resultat, bör ses som ett tecken på att något är fel. I det här fallet definierades ingen logik under datainsamlingen för att stoppa räkningen av antalet dagar sedan kundens senaste tjänstärende för kunder som sade upp sin prenumeration. Som ett resultat av detta lärde sig modellen att associera ett stort antal dagar sedan senaste tjänstärende med värdet yes i fältet Churned.
Detta är ett exempel på dataläckage, eftersom modellen i ett verkligt scenario endast skulle ha tillgång till information fram till dess att prognosen görs, och det antal dagar som finns i detta fält samlades in efter denna mätpunkt. Mer information om dataläckage finns i Dataläckage.
Vi måste ta bort den "läckande" funktionen DaysSinceLastService från experimentkonfigurationen, eftersom den snedvrider de resulterande modellerna. Observera att i ett verkligt användningsfall måste datakvaliteten och logiken undersökas grundligt innan modellen skapas, för att säkerställa att den resulterande modellen tränas korrekt.
Vi kommer att hantera det här problemet i nästa avsnitt när du konfigurerar v2.
Konfigurera och köra version 2
Eftersom det mesta av modellträningen kommer att ändras när detta dataläckageproblem har lösts, konfigurerar vi en ny version innan vi förfinar ytterligare.
Gör följande:
-
Från ett tidigare steg har du redan fönstret Experimentkonfiguration öppet för att konfigurera v2.
-
Under Funktioner i fönstret Experimentkonfiguration avmarkerar du kryssrutan DaysSinceLastService.
-
Klicka på Kör v2.
Konfigurera och köra version 3
När den andra versionen av experimentet har körts klart klickar du på kryssrutan bredvid v2-modellen med bäst prestanda i tabellen över mätvärden (markerad med en troféikon ). Detta uppdaterar sidan med mätetalen för denna modell.
Ovanför Tabellen med mätvärden klickar du på rullgardinsfiltret Version och väljer 2. Då kan du fokusera på mätvärdena för v2-modellen enbart.
Du ser att listan med viktiga funktioner har ändrats betydligt efter att dataläckaget hanterades. Den bäst presterande modellen kan också använda en annan algoritm än den bäst presterande modellen för v1.
Gör följande:
-
Titta på diagrammet Permutation importance. Det kan finnas funktioner som har mycket mindre påverkan på vår modell än de övriga funktionerna. De är av litet värde för detta användarfall och kan ses som statistiskt brus. Du kan testa med att ta bort några av dessa funktioner och se om modellpoängen förbättras.
-
Klicka på , eller på Visa konfiguration för att expandera rutan Experimentkonfiguration.
-
Klicka på Ny version för att skapa ett utkast av nästa experimentversion.
-
I rutan Experimentkonfiguration, under Funktioner avmarkerar du kryssrutorna för en eller flera funktioner som har liten till ingen påverkan på modellen.
-
Titta på tabellen Modellmätvärden. Du kan välja att utesluta vissa algoritmer som presterar dåligt eller fokusera på de bästa algoritmerna för att få snabbare resultat i nästa upprepning av träningen.
-
I rutan Experimentkonfiguration, under Algoritmer, kan du vid behov avmarkera kryssrutorna för några av de algoritmer som presterar dåligt.
-
Klicka på Kör v3.
Jämförelse av experimentversioner
I tabellen Modellmätvärden klickar du på Rensa filter.
När v3 har körts klickar du på kryssrutan intill den bäst presterande v3-modellen för att visa dess mätvärden.
Klicka på Fler modellfilter och välj filtret Bästa resultat. Du kan se mätvärden för de bästa resultaten för varje iteration av experimentet.
Den första versionen av träningen gav de högsta poängen, men dessa mätvärden var starkt överdrivna och orealistiska förutsägelser av prestanda, och detta orsakades av problemet med dataläckage. I v3 ökade F1-resultatet för den bästa modellen gentemot den bästa v2-modellen.
I ett verkligt scenario är det viktigt att upprepa dessa förfinande steg så många gånger det behövs innan du driftsätter modellen, för att säkerställa att du har bästa möjliga modell för ditt specifika användarfall.
I den här introduktionskursen går du till nästa delavsnitt, om att driftsätta din modell.