Modellen herzien en verfijnen
Als de eerste versie van de modeltraining klaar is, analyseert u de statistieken van het model en configureert u nieuwe versies van het experiment totdat u de gewenste resultaten bereikt.
Als u de experimentversie uitvoert, wordt u naar het tabblad Modellen geleid waar u kunt starten met het analyseren van de resulterende modelstatistieken. U kunt Schemaweergave en Gegevensweergave openen door terug te gaan naar het tabblad Gegevens. U kunt een gedetailleerdere analyse uitvoeren op de tabbladen Vergelijken en Analyseren.
U weet dat de eerste versie van de training is voltooid wanneer alle gegevens zijn ingevuld in de tabel Modelstatistieken en een trofee -pictogram naast het beste model verschijnt.
De modellen van v1 analyseren
Ga terug naar het tabblad Modellen. In de tabel Modelstatistieken wordt het topmodel voorzien van een trofeepictogram . Dit houdt in dat het best presterende model is gebaseerd op de F1-score.
Ga terug naar het tabblad Modellen. In de tabel Modelstatistieken wordt het topmodel voorzien van een trofeepictogram . Dit houdt in dat het best presterende model is gebaseerd op de F1-score.
Sorteer de modellen per performance, van hoog naar laag, door op de kolomkop F1 te klikken. We kunnen ervoor kiezen de slecht presterende algoritmen uit te sluiten of alleen te focussen op het beste algoritme om sneller resultaten te krijgen wanneer de training opnieuw wordt uitgevoerd. We behandelen dit probleem in de volgende sectie als we v3 gaan configureren.
Lekkage van gegevens identificeren
Kijk naar de diagrammen Modelinzichten aan de rechterkant van de pagina. Deze diagrammen geven u een indicatie van de relatieve urgentie van elk functie en van de modelprestaties.
In het diagram Permutatie-urgentie en in de lijst Functies in het venster Experimentconfiguratie ziet u dat de eerste iteratie van het model vooral gebruikmaakt van het functie DaysSinceLastService, terwijl de andere functies bijna niet van belang zijn.
Dit verschil, en de uiterst hoge F1-prestatiescore van de modellen, moet worden gezien als een teken dat er een fout is opgetreden. In dit voorbeeld was er tijdens het verzamelen van gegevens geen logica vastgelegd voor het stopzetten van het tellen van het aantal dagen sinds het laatste serviceticket van klanten die hun abonnement hebben opgezegd. Daardoor leerde het model om het grote aantal dagen sinds het laatste serviceticket (voor klanten die jaren geleden al hebben opgezegd) te associëren met een waarde van yes in het veld Churned.
Dit is een voorbeeld van het lekken van gegevens, omdat een model in een echt scenario alleen toegang zou hebben tot informatie totdat de voorspelling wordt gedaan, en het aantal dagen in dit veld is verzameld in een periode na dat meetpunt. Dit probleem staat bekend als een doellek, wat een vorm van een gegevenslek is. Meer informatie over het lekken van gegevens vindt u in Lekken van gegevens.
We moeten de lekkende functie DaysSinceLastService verwijderen uit de experimentconfiguratie omdat dit de resulterende modellen vertekent. Vergeet niet dat bij echte toepassingen de kwaliteit en logica van de gegevens grondig moet worden onderzocht voordat een model wordt aangemaakt, om ervoor te zorgen dat het model correct is getraind.
We behandelen dit probleem als we v2 gaan configureren.
Versie 2 configureren en laten draaien
Laten we een nieuwe versie configureren om het gegevenslek aan te pakken.
Doe het volgende:
Klik op Configuratie weergeven om het venster voor experimentconfiguratie uit te vouwen.
Klik op Nieuwe versie.
In het venster, onder Functies schakelt u het selectievakje DaysSinceLastService uit.
Klik op v2 draaien.
De modellen van v2 analyseren
Na het uitvoeren van de tweede versie van het experiment, klikt u in het selectievakje naast het best presterende v2-model (gemarkeerd met een trofeepictogram ) in de tabel Modelstatistieken. Dit vernieuwt de pagina met de statistieken voor dat model.
Trainings- en evaluatiegegevens vergelijken
U kunt aanvullende statistieken bekijken en de statistieken van de kruisvalidatietraining en vergelijken met de evaluatiegegevens.
Doe het volgende:
Schakel in het experiment over naar het tabblad Vergelijken.
Er wordt een geïntegreerde analyse geopend. U kunt de interactieve interface gebruiken om dieper in te gaan op uw vergelijkende modelanalyse en nieuwe inzichten op te doen.
In het venster Werkbladen aan de rechterkant van de analyse gaat u naar het werkblad Details.
Kijk naar de tabel Model Metrics. Deze toont statistieken van modelscores, zoals F1 en andere informatie.
Versie 1 van de training is getroffen door een doellek, dus laten we ons alleen focussen op v2. Gebruik het filtervak Version aan de rechterkant van het werkblad om de waarde 1 te selecteren.
Gebruik het filtervak in de sectie Columns to show om kolommen toe te voegen of te verwijderen uit de tabel.
Voeg aanvullende meeteenheden toe via de vervolgkeuzelijst. Trainingsscores voor elke meeteenheid worden getoond als waarden die eindigen op Train. Voeg nog wat trainingsstatistieken toe aan de tabel.
U kunt nu de F1-statistieken zien uit de kruisvalidatietraining en ze vergelijken met de evaluatiegegevens.
Functies met een lage urgentie identificeren
Hierna moeten we controleren of er functies zijn met een lage permutatie-urgentie. Functies die weinig tot geen invloed op het model hebben moeten verwijderd worden om de nauwkeurigheid van de voorspelling te verbeteren.
Doe het volgende:
Ga in het experiment terug naar het tabblad Modellen.
Kijk naar het Permutation importance-diagram. De laatste vier functies—StartMonth, DeviceType, CustomerTenure en Territory—hebben veel minder invloed op ons model dan de andere functies. Ze hebben weinig waarde voor deze toepassing en zijn statistisch onbelangrijk.
In v3 kunnen we deze functies verwijderen om te zien of de modelscores verbeteren.
Slecht presterende algoritmen identificeren
We kunnen ook kijken naar de tabel Modelstatistieken om te kijken of we algoritmen van de v3-training kunnen verwijderen. U kunt slecht presterende algoritmen verwijderen tijdens het verfijnen van modellen zodat de training sneller wordt uitgevoerd tijdens aansluitende iteraties.
Ga in het experiment terug naar het tabblad Modellen.
In de tabel Modelstatistieken gebruikt het filter Versie om alleen de modellen van v2 te tonen.
Kijk naar de F1-scores voor elk algoritme. Als bepaalde algoritmen modellen maken die aanzienlijk lager scoren dan anderen, kunnen we ze uit de volgende versie verwijderen.
Versie 3 configureren en uitvoeren
Doe het volgende:
Klik op Configuratie weergeven om het venster voor experimentconfiguratie uit te vouwen.
Klik op Nieuwe versie.
In het venster, onder Functies schakelt u de selectievakjes voor StartMonth, DeviceType, CustomerTenure en Territory uit.
U kunt ook Algoritmen uitvouwen en de selectievakjes voor Gaussian Naive Bayes en Logistische regressie uitschakelen.
Klik op v3 uitvoeren.
De modellen van v3 analyseren
Nadat v3 is uitgevoerd, kunt het filter Versie wissen in de tabel Modelstatistieken. Selecteer het best presterende model van v3.
Laten we snel de modellen binnen alle versies vergelijken.
De eerste versie van de training gaf de hoogste scores, maar die statistieken waren erg overdreven en waren onrealistische voorspellingen van de prestatie, een gevolg van het gegevenslek. In v3 was de F1-score van het beste model hoger dan dat van het beste v2-model.
Zoals u eerder hebt gezien, kunt u naar het tabblad Vergelijken gaan voor een diepgaandere vergelijking van de modelscores.
Focussen op een specifiek model
Op elk moment tijdens de modelanalyse kunt een diepgaande analyse uitvoeren voor een afzonderlijk model. Verken de nauwkeurigheid van voorspellingen, functie-urgentie en verdeling van functies met een interactieve Qlik Sense-ervaring.
Doe het volgende:
Zorg dat het best presterende v3-model is geselecteerd en klik op het tabblad Analyseren.
Er wordt een geïntegreerde analyse geopend.
Met het werkblad Model Overview kunt u nauwkeurigheid van de voorspelling van het model analyseren. De analyse wordt verbeterd door middel van selecties. Klik op een functie of voorgespelde waarde om een selectie te maken. De gegevens in de geïntegreerde analyse worden aangepast om de gegevens te filteren. U kunt inzoomen op specifieke waarden en bereiken van de functie om te kijken hoe de invloed van de functie en de nauwkeurigheid van de voorspellingen veranderen.
Als u overschakelt naar andere werkbladen, kunt u visualisaties bekijken voor de nauwkeurigheid van de voorspelling, de verdeling van functies en verdeling van de impact (SHAP). Deze analyse-inhoud kan u helpen om:
Factoren te ontdekken die van invloed zijn op trends in de gegevens.
Identificeer hoe specifieke functies en cohorten van invloed zijn op voorspelde waarden en de nauwkeurigheid van voorspellingen.
Identificeer uitschieters binnen de gegevens.
Volgende stappen
In de praktijk is het belangrijk om deze verfijningsstappen zo vaak als nodig uit te voeren voordat u uw model implemeteert, om ervoor te zorgen dat u het best mogelijke model voor uw toepassing gebruikt.
Ga in deze tuturial naar het volgende hoofdstuk over het implementeren van uw model.