Förstå SHAP-betydelse vid experimentträning
SHAP-betydelsen ger viktiga insikter om de prognoser som skapas i experimenten. Den kan hjälpa dig att förstå vilka funktioner som är viktigast för prognosen.
SHAP-värden anger hur mycket varje funktion bidrar till det förutsagda värdet för målet, med hänsyn taget till alla andra funktioner på den raden.
När en experimentversion har tränats väljer du en modell. Diagrammet över SHAP-betydelse på fliken Modeller under tabellen visualiserar SHAP-data från de modellförutsägelser som skapats på reserverade (test-) data.
Detta hjälpämne fokuserar på SHAP-betydelse vid experimentträning. Information om datauppsättningar med SHAP-betydelse som genereras under en förutsägelse finns i Generera SHAP-datauppsättningar under förutsägelser.
Översikt
SHAP-betydelse mäts på radnivå. Den representerar hur en funktion påverkar prognosen för en enskild rad i förhållande till de andra funktionerna på den raden och till det genomsnittliga resultatet i datauppsättningen. Värdet har både riktning och storlek, men vid modellträning representeras SHAP-betydelse i absolut värdeform.
I diagrammet över SHAP-betydelse är värdena på radnivå aggregerade. På så sätt kan du förstå hur funktioner påverkar inom delmängder av data.
Experiment för binär klassificering och regression
I ett experiment för binär klassificering eller regression är SHAP importance-diagrammet för varje modellversion ett stapeldiagram som visar det genomsnittliga absoluta SHAP-värdet för varje funktion i experimentet SHAP importance sorteras från det högsta till det lägsta värdet. I diagrammet anges vilka funktioner som utövar störst och minst påverkan på det förutspådda resultatet för målet, oavsett av vad detta resultat fastställs bli.
Experiment för multiklassklassificering
I ett experiment för multiklassklassificering finns det flera alternativ för presentationen av SHAP importance-diagrammet. Följande alternativ är tillgängliga:
Visa SHAP presenterad som summa
Visa SHAP-värden uppdelade på klass
Enklassiga SHAP importance-diagram
Visa SHAP presenterad som summa
Som standard kommer SHAP importance-diagrammet att konfigureras med Alla klasser: genomsnitt funktion SHAP.
I den här konfigurationen visas SHAP importance för varje funktion, oavsett av det förutspådda resultatet för målet är. Funktionerna i diagrammet sorteras efter totalt genomsnittligt absolut SHAP-värde och separeras inte efter klass.
Visa SHAP-värden uppdelade på klass
För att visa hur stor påverkan varje funktion har på resultatet av målet, vilket är ett värde för varje klass i experimentet väljer du inställningen Visa SHAP-värden efter klass. Konfigurationen kan ställas in till antingen Grupperad eller Flervärdes. Genomsnittet för absoluta SHAP-värden för varje klass i experimentet visas med olika färger för att möjliggöra jämförelser efter klass.
Om målfältet exempelvis har fyra möjliga klsser eller resultat (lila plan, grönt plan, blått plan eller rött plan). Den multifärgade stapeln för varje funktion bryter ner hur stor påverkan som funktionen har haft över vart och ett av de fyra möjliga resultaten av experimentet. Om du tittar på stapelns totala längd ser du den totala påverkan som funktionen har haft på förutsägelsen av målet, oavsett av det förutspådda resultatet.
Enklassiga SHAP importance-diagram
Du har också möjlighet att visa ett SHAP importance-diagram för vart och ett av de möjliga resultaten av målförutsägelsen. Genomsnittliga absoluta SHAP-värden för förutspådda resultat för en enda klass visas.
Om målet för ditt experiment exempelvis har fyra möjliga resultat kan du visa fyra separata diagram som bryter ner de viktigaste funktionerna för förutsägelser vilket leder till ett av de fyra möjliga resultaten.
Beräkning av SHAP-värden
SHAP-värden beräknas för ett antal olika algoritmer. SHAP importance beräknas med hjälp av två olika metoder.
Träd-SHAP: En snabb och exakt metod för att uppskatta SHAP-värden för trädmodeller
Linjär SHAP: En metod för att beräkna SHAP-värden för linjära modeller
Algoritm | Modelltyper som stöds | SHAP-beräkningsmetod |
---|---|---|
Slumpskogsklassificering | Binär klassificering, multiklassklassificering | Träd-SHAP |
XGBoost-klassificering | Binär klassificering, multiklassklassificering | Träd-SHAP |
LightGBM-klassificering | Binär klassificering, multiklassklassificering | Träd-SHAP |
Catboost-klassificering | Binär klassificering, multiklassklassificering | Träd-SHAP |
Logistisk regression | Binär klassificering, multiklassklassificering | Linjär SHAP |
Lassoregression | Binär klassificering, multiklassklassificering | Linjär SHAP |
Elastiskt nät-regression | Binär klassificering, multiklassklassificering | Linjär SHAP |
Gaussisk Naive Bayes | Binär klassificering, multiklassklassificering | SHAP inte beräknad |
Catboost-regression | Regression | Träd-SHAP |
LightGBM-regression | Regression | Träd-SHAP |
Linjär regression | Regression | Linjär SHAP |
Slumpskogsregression | Regression | Träd-SHAP |
SGD-regression | Regression | Linjär SHAP |
XGBoost regression | Regression | Träd-SHAP |
Analys av viktiga drivkrafter
Du kan skapa analyser av viktiga drivkrafter direkt i Qlik Sense-appen för att jämföra betydelsen av specifika faktorer när man fastställer vilka data som har observerats för ett visst affärs- eller prestandavärde. Analys av de viktigaste drivkrafterna fungerar genom att beräkna SHAP-värden på radnivå för alla faktorer som beaktas, och visa dem i aggregerad form. Därigenom erhålls en högnivåvy av vad som driver trender och beteenden i dina appdata. Du kan använda resultaten från analyser av de viktigaste drivkrafterna för att förbättra din organisations datakompetens och fatta mer informerade och effektiva beslut.
Se Hitta de viktigaste drivkrafterna bakom dina data med analys av de viktigaste drivkrafterna för mer information.