Förstå permutationsbetydelse
Permutationsbetydelse är ett mått på hur viktig en funktion är för en modells övergripande prognos. Med andra ord, hur modellen skulle påverkas om du tar bort dess förmåga att lära sig av den funktionen. Måttet kan hjälpa dig att förfina en modell genom att ändra vilka funktioner och algoritmer som ska inkluderas.
Permutationsbetydelsen beräknas med hjälp av scikit-learn-permutationsbetydelsen. Den mäter minskningen av modellpoängen efter att funktionen har permuterats.
-
En funktion är "betydelsefull" om omblandning av dess värden minskar modellens poäng, eftersom modellen i detta fall bygger på funktionen för prognosen.
-
En funktion är "betydelselös" om omblandning av dess värden lämnar modellens prestanda oförändrade, eftersom modellen i detta fall ignorerade funktionen för prognosen.
I permutationsbetydelsediagrammet visas funktionerna i ordning från högsta inflytande (största inverkan på modellens prestanda) till lägsta inflytande (minsta inverkan på modellens prestanda). Staplarna visar hur betydelsefulla de olika funktionerna är.
Ett diagram för permutationsbetydelse autogenereras för varje modell som tränas under ett experiment. Diagrammet visas på fliken Modeller.
Användning av permutationsbetydelse för att välja funktionskolumner
När du upprepar modellträningen kan du titta på permutationsbetydelsen för att avgöra vilka kolumner som ska behållas och vilka kolumner som ska uteslutas. Notera vilka funktioner som är viktigast för flera modeller. Det är troligen dessa funktioner som har det största förutsägande värdet och som är bra kandidater att behålla när du förfinar din modell. På liknande sätt har funktioner som konsekvent hamnar längst ned på listan sannolikt inte mycket prediktivt värde och är bra kandidater att utesluta.
Om en algoritm får betydligt bättre poäng än de andra ska du fokusera på permutationsbetydelsediagrammet för den algoritmen. Om flera algoritmer har liknande poäng kan du jämföra permutationsbetydelsesdiagrammen för dessa algoritmer.
Användning av permutationsbetydelse för att välja algoritmer
Varje algoritm har ett unikt tillvägagångssätt för att lära sig mönster från träningsdata. Experimenten tränas med flera algoritmer för att se vilket tillvägagångssätt som fungerar bäst för den specifika datauppsättningen. De olika tillvägagångssätten återspeglas i variationer i permutationsbetydelsen för olika algoritmer. Exempelvis kan funktion A ha störst betydelse för den logistiska regressionsmodellen, medan funktion B har störst betydelse för XGBoost-klassificeringsmodellen för samma data. I allmänhet förväntas funktioner med stor prediktiv effekt vara de bästa funktionerna i algoritmerna, men det är vanligt med variationer.
Du kan använda denna variation i permutationsbetydelse när du väljer mellan algoritmer med liknande poäng. Välj den algoritm som har de bästa funktionerna och som är mer intuitiv med tanke på dina specifika kunskaper om verksamheten.
Tillgänglighet för permutationsbetydelse
Att inkludera fritextfunktioner i ditt experiment ökar komplexiteten hos experimentet och de processer som krävs för att köra det. Det kan hända att Permutationsbetydelse-diagram inte är tillgängliga för de resulterande modellerna om dina fritextdata är tillräckligt komplexa.