Förstå funktionsbetydelse
Med hjälp av funktionernas betydelse mäts hur stor inverkan varje funktion har på målet. Det kan hjälpa dig att identifiera problem med datauppsättningen och förbättra modellen. Funktionsbetydelsen består av två olika visualiseringar: permutationsbetydelse och SHAP-betydelse.
Den förenklade tolkningen av funktionernas betydelse är att en ändring av den viktigaste variabeln kommer att förändra målvariabeln mer än en ändring av någon annan variabel. Att ändra två av de viktigaste variablerna kommer troligen att ha större effekt än att ändra en, men principen är att något som har mycket liten betydelse för funktionerna troligen inte har någon större prediktiv effekt. Att kontrollera eller ändra den kanske inte gör någon skillnad.
Användning av funktionernas betydelse
Funktionernas betydelse kan vara till hjälp för att identifiera problem med de data som används för att träna modellen. Anta till exempel att vi försöker förutsäga huruvida en försäljningsmöjlighet kommer att avslutas eller ej, och vi glömmer att utesluta en kolumn som innehåller slutdatumet för försäljningen. Det skulle förmodligen vara den mest förutsägande kolumnen och därför ha den högsta funktionsbetydelsen. Att inkludera den skulle leda till att modellen presterar bättre än den skulle göra i verkliga livet, eftersom när vi försöker förutsäga det binära resultatet av huruvida en försäljning avslutas eller inte kommer vi inte att ha tillgång till slutdatumet.
Funktionernas betydelse kan också hjälpa dig att hitta sätt att iterativt förbättra en modell. De viktigaste funktionella värdena kan ibland vara en bra grund för segmentering. Till exempel kan en flagga för autobetalning ha stor funktionsbetydelse. Vi kan använda den här funktionen för att segmentera data och träna en modell på kunder som har autobetalning och en annan modell på kunder utan autobetalning. De två modellerna skulle kunna göra ett bättre jobb än vår första modell.
I andra fall kan du kanske hitta eller utveckla funktioner som bättre representerar vad en funktionsmässigt viktigare variabel beskriver – utan att lägga till redundans. En funktionsmässigt mycket viktig variabel kan till exempel vara den produktfamilj som ett företag tillverkar. Att dela upp produktfamiljen i några mer beskrivande funktioner för produkterna kan vara mer signifikant.
Jämförelse av permutationsbetydelse och SHAP-betydelse
Permutationsbetydelse och SHAP-betydelse är alternativa sätt att mäta betydelsen av funktioner. Den största skillnaden är att permutationsbetydelsen baseras på minskningen av modellens prestanda, medan SHAP-betydelsen baseras på storleken på funktionstilldelningarna.
Hur man använder värdena
Permutationsbetydelse kan användas för att:
-
Förstå vilka funktioner som ska behållas och vilka som ska uteslutas.
-
Kontrollera om det finns dataläckage.
-
Förstå vilka funktioner som är viktigast för modellens noggrannhet.
-
Ge vägledning för ytterligare funktionsutveckling.
SHAP betydelse kan användas för att:
-
Förstå vilka funktioner som mest påverkar det förutsedda resultatet.
-
Analysera en funktion närmare och förstå hur de olika värdena för den funktionen påverkar prognosen.
-
Förstå vad som har störst inflytande på enskilda rader eller delmängder av data.
Datanivå
Permutationens betydelse beräknas på hela datauppsättningen. Närmare bestämt hur mycket noggrannheten för hela datauppsättningen förändras om en funktion tas bort. Den kan inte användas för att förstå inflytandet på enskilda rader.
SHAP-betydelsen beräknas på radnivå och kan användas för att förstå vad som är viktigt för en specifik rad. Värdena representerar hur en funktion påverkar prognosen för en enskild rad i förhållande till det genomsnittliga resultatet i datauppsättningen.
Funktionsvärdenas påverkan
Permutationsbetydelsen kan inte användas för att förstå vilka värden inom en funktion som är viktigast.
SHAP-betydelsevärden kan användas för att förstå hur värdena inom en specifik funktion påverkar resultatet.
Riktning
Permutationsbetydelsen omfattar ingen riktning.
SHAP-betydelsevärden är riktningsbestämda. De kan vara positiva eller negativa beroende på i vilken riktning de påverkar det förutsedda resultatet.
Storlek
Storleken på permutationsbetydelsen mäter hur viktig funktionen är för modellens övergripande prognos.
Storleken på SHAP-betydelsen är hur mycket en specifik funktion påverkar en rads prognos så att den skiljer sig från den genomsnittliga prognosen för datauppsättningen.