Permutatie-urgentie begrijpen
Permutatie-urgentie meet hoe belangrijk een functie is voor het algehele voorspellingsvermogen van een model. Met andere woorden, hoe het model zou worden beïnvloed als u het vermogen van het model weghaalt om van die functie te leren. De meting kan u helpen een model te verfijnen door te veranderen welke functies en algoritmen moeten worden gebruikt.
Permutation importance wordt berekend met behulp van scikit-learn permutation importance. Het meet de afname in de modelscore nadat de functie wordt gepermuteerd.
-
Een functie wordt gezien als belangrijk als husselen van de waarden de modelscore doet afnemen, omdat het model in dit geval bij de voorspelling op de functie heeft gerekend.
-
Een functie wordt gezien als niet-belangrijk als husselen van de waarden de modelprestaties ongemoeid laat, omdat het model de functie in dit geval bij de voorspelling heeft genegeerd.
In het diagram Permutatie-urgentie worden functies weergegeven op volgorde van meeste invloed (grootste impact op de prestatie van het model) tot de minste invloed (kleinste impact op de prestatie van het model). De grootte van de staaf vertegenwoordigt de urgentie van elk functie.
Er wordt automatisch een permutatie-urgentiediagram gegenereerd voor elk model dat tijdens een experiment wordt getraind. Het diagram wordt weergegeven op het tabblad Modellen.
Permutatie-urgentie gebruiken om functiekolommen te kiezen
Wanneer u de training van het model herhaalt, kunt u de permutation importance in overweging nemen om te bepalen welke kolommen u moet behouden en welke u moet uitsluiten. Noteer welke functies de belangrijksten zijn voor verschillende modellen. Dit zijn hoogstwaarschijnlijk de functies met de grootste voorspellende waarde en goede kandidaten voor als u uw model verfijnt. Tegelijkertijd zullen functies die altijd onderaan in de lijst staan niet zulke grote voorspellende waarde hebben. Dit zijn goede kandidaten om uit te sluiten.
Als één algoritme aanzienlijk beter scoort dan de anderen, focus u dan op het permutation importance-diagram voor dat algoritme. Als meerdere algoritmen vergelijkbare scores hebben, kunt u de permutation importance-diagrammen vergelijken voor die algoritmen.
Permutation importance gebruiken om algoritmen te kiezen
Ieder algoritme heeft een unieke aanpak wat betreft het leren van patronen uit trainingsgegevens. Experimenten worden getraind met meerdere algoritmen om te kijken welke aanpak het beste werkt voor een specifieke gegevensverzameling. De verschillende benaderingen worden weerspiegeld door de variaties in permutation importance voor verschillende algoritmen. Bijvoorbeeld: functie A is mogelijk de belangrijkste functie voor het logistische regressiemodel en functie B het belangrijkste met de benadering van dezelfde gegevens door XGBoost-classificatie. Over het algemeen geldt dat functies met een groot voorspellend vermogen waarschijnlijk de topfuncties zijn voor de algoritmen. Maar het komt vaak voor dat er variatie is.
U kunt deze variatie in permutation importance gebruiken wanneer u tussen algoritmen met vergelijkbare scores moet kiezen. Selecteer het algoritme met de beste functies die intuïtiever zijn ten aanzien van uw specifieke bedrijfskennis.
Beschikbaarheid van permutation importance
Door vrije-tekstkenmerken toe te voegen aan uw experiment, wordt de complexiteit vergroot van het experiment en de processen die nodig zijn om dit experiment uit te voeren. Het is mogelijk dat Permutation importance-diagrammen niet beschikbaar zijn voor de resulterende modellen als uw vrijetekstgegevens complex genoeg zijn.