Ga naar hoofdinhoud Ga naar aanvullende inhoud

Permutatie-urgentie

Permutation importance meet hoe belangrijk een kenmerk is voor het algehele voorspellingsvermogen van een model. Met andere woorden, hoe het model zou worden beïnvloed als u het vermogen van het model weghaalt om van dat kenmerk te leren. De meting kan u helpen een model te verfijnen door te veranderen welke kenmerken en algoritmen moeten worden gebruikt.

Permutation importance wordt berekend met behulp van scikit-learn permutation importance. Het meet de afname in de modelscore nadat het kenmerk wordt gepermuteerd.

  • Een kenmerk wordt gezien als belangrijk als husselen van de waarden de modelscore doet afnemen, omdat het model in dit geval bij de voorspelling op het kenmerk heeft gerekend.

  • Een kenmerk wordt gezien als niet-belangrijk als husselen van de waarden de modelprestaties ongemoeid laat, omdat het model het kenmerk in dit geval bij de voorspelling heeft genegeerd.

In het permutation importance-diagram, worden kenmerken weergegeven op volgorde van meeste invloed (grootste impact op de prestatie van het model) tot de minste invloed (kleinste impact op de prestatie van het model). De grootte van de staaf vertegenwoordigt het belang van elk kenmerk.

Er wordt automatisch een permutation importance-diagram gegenereerd voor iedere binaire classificatie of multiclass-classificatie die of ieder regressiemodel dat tijdens een experiment wordt getraind. Het diagram wordt onder de tabel Modelstatistieken weergegeven.

Permutation importance-diagram

Permutation importance-diagram.

zijn.

Permutation importance gebruiken om kenmerkkolommen te kiezen

Wanneer u de training van het model herhaalt, kunt u de permutation importance in overweging nemen om te bepalen welke kolommen u moet behouden en welke u moet uitsluiten. Noteer welke kenmerken de belangrijksten zijn voor verschillende modellen. Dit zijn hoogstwaarschijnlijk de kenmerken met de grootste voorspellende waarde en goede kandidaten voor als u uw model verfijnt. Tegelijkertijd zullen kenmerken die altijd onderaan in de lijst staan niet zulke grote voorspellende waarde hebben. Dit zijn goede kandidaten om uit te sluiten.

Als één algoritme aanzienlijk beter scoort dan de anderen, focus u dan op het permutation importance-diagram voor dat algoritme. Als meerdere algoritmen vergelijkbare scores hebben, kunt u de permutation importance-diagrammen vergelijken voor die algoritmen.

Permutation importance gebruiken om algoritmen te kiezen

Ieder algoritme heeft een unieke aanpak wat betreft het leren van patronen uit trainingsgegevens. Experimenten worden getraind met meerdere algoritmen om te kijken welke aanpak het beste werkt voor een specifieke gegevensverzameling. De verschillende benaderingen worden weerspiegeld door de variaties in permutation importance voor verschillende algoritmen. Bijvoorbeeld: kenmerk A is mogelijk het belangrijkste kenmerk voor het logistische regressiemodel en kenmerk B het belangrijkste met de benadering van dezelfde gegevens door XGBoost-classificatie. Over het algemeen geldt dat kenmerken met een groot voorspellend vermogen waarschijnlijk de topkenmerken zijn voor de algoritmen. Maar het komt vaak voor dat er variatie is.

U kunt deze variatie in permutation importance gebruiken wanneer u tussen algoritmen met vergelijkbare scores moet kiezen. Selecteer het algoritme met de beste kenmerken die intuïtiever zijn ten aanzien van uw specifieke bedrijfskennis.

Beschikbaarheid van permutation importance

Door vrije-tekstkenmerken toe te voegen aan uw experiment, wordt de complexiteit vergroot van het experiment en de processen die nodig zijn om dit experiment uit te voeren. Het is mogelijk dat Permutation importance-diagrammen niet beschikbaar zijn voor de resulterende modellen als uw vrijetekstgegevens complex genoeg zijn.

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!