SHAP importance in experimenttrainingen begrijpen
SHAP importance biedt belangrijk inzicht in de voorspellingen die in experimenten worden gemaakt. Het kan u helpen begrijpen welke functies de belangrijkste functies voor de voorspelling zijn.
SHAP-waarden vertegenwoordigen hoeveel elk functie bijdraagt aan de voorspelde waarde van het doel ten opzichte van alle andere functies op die rij.
Na het trainen van een experimentversie, selecteer u een model. Het diagram SHAP importance op het tabblad Modellen onder de tabel visualiseert de SHAP-gegevens van de modelvoorspellingen die zijn gemaakt met de evaluatiegegevens (test).
Dit Help-onderwerp richt zich op SHAP importance in experimenttrainingen. Raadpleeg SHAP-gegevensverzamelingen genereren tijdens voorspellingen voor informatie over SHAP importance-gegevensverzamelingen die tijdens een voorspelling zijn gegenereerd.
Overzicht
SHAP importance wordt gemeten op rijniveau. Het weerspiegelt hoe een functie de voorspelling van één rij beïnvloedt ten opzichte van de andere functies in die rij en de gemiddelde uitkomst in de gegevensverzameling. De waarde heeft zowel richting als magnitude, maar voor de modeltraining wordt de SHAP importance in een absolute vorm weergegeven.
In het SHAP importance-diagram worden de waarden op rijniveau geaggregeerd. Dit biedt inzicht in de invloed van functies in subsets van gegevens.
Binaireclassificatie- en regressie-experimenten
In een binaire classificatie- of regressie-experiment is het SHAP importance-diagram voor iedere modelversie een staafdiagram dat de gemiddelde absolute SHAP-waarde per functie in het experiment weergeeft. SHAP importance wordt gesorteerd van de hoogste naar de laagste waarde. Het diagram geeft aan welke functies de meeste en de minste invloed hebben op de voorspelde resultaten van het doel, ongeacht wat de uitkomst moet zijn.
Multiclass-classificatie-experimenten
In een multiclass-classificatie-experiment zijn er verschillende opties voor de presentatie van het SHAP importance-diagram. Er zijn verschillende opties:
Functie SHAP gepresenteerd als een totaal
Functie SHAP-waarden, verdeeld per klasse
Diagrammen met SHAP importance met één klasse
Functie SHAP gepresenteerd als een totaal
De SHAP importance-diagram wordt standaard geconfigureerd met de instelling Alle klassen: gemiddelde functie SHAP.
Deze configuratie toont de SHAP importance van iedere functie, ongeacht wat de voorspelde uitkomst van het doel is. De functies in het diagram worden gesorteerd op totale gemiddelde absolute SHAP-waarde en worden niet verdeeld per klasse.
Functie SHAP-waarden, verdeeld per klasse
Om weer te geven hoeveel invloed elk functie heeft op de uitkomst van het doel als waarde van iedere klasse in het experiment, selecteer u de instelling Functie SHAP per klasse. De configuratie kan ofwel worden ingesteld op Gegroepeerd of Gestapeld. De gemiddelde absolute SHAP-waarden per klasse in het experiment worden gepresenteerd met verschillende kleuren om vergelijking per klasse mogelijk te maken.
Stel bijvoorbeeld dat het doelveld in uw experiment vier mogelijk klassen of uitkomsten (paars plan, groen plan, blauw plan of rood plan) heeft. De meerkleurige staaf per functie specificeert hoeveel invloed die functie heeft op elk van de vier mogelijke uitkomsten van het experiment. Als u naar de totale lengte van de staaf kijkt, ziet u de totale invloed die de functie heeft uitgeoefend op de voorspelling van het doel, ongeacht de voorspelde uitkomst.
Diagrammen met SHAP importance met één klasse
U hebt tevens de mogelijkheid om een SHAP importance-diagram voor elk van de mogelijke uitkomsten van de doelvoorspelling te bekijken. Gemiddelde absolute SHAP-waarden voor voorspelde uitkomsten van één klasse worden weergegeven.
Bijvoorbeeld: als het doel van uw experiment vier mogelijke uitkomsten heeft, kunt u vier afzonderlijke diagrammen bekijken met een specificatie van de meest invloedrijke functies voor voorspellingen, resulterend in een van de vier mogelijke uitkomsten.
Berekening van SHAP-waarden
SHAP-waarden worden berekend voor verschillende algoritmen. SHAP importance wordt berekend met twee verschillende methoden:
SHAP-structuur: een snelle en precieze methode om SHAP-waarden te schatten voor structuurmodellen
Lineaire SHAP: een methode om SHAP-waarden te berekenen voor lineaire modellen
Algoritme | Ondersteunde modeltypen | SHAP-berekenmethode |
---|---|---|
Random Forest-classificatie | Binaire classificatie, multiclass-classificatie | SHAP-structuur |
XGBoost-classificatie | Binaire classificatie, multiclass-classificatie | SHAP-structuur |
LightGBM-classificatie | Binaire classificatie, multiclass-classificatie | SHAP-structuur |
Catboost-classificatie | Binaire classificatie, multiclass-classificatie | SHAP-structuur |
Logistische regressie | Binaire classificatie, multiclass-classificatie | Lineaire SHAP |
Lasso-regressie | Binaire classificatie, multiclass-classificatie | Lineaire SHAP |
Elastic Net-regressie | Binaire classificatie, multiclass-classificatie | Lineaire SHAP |
Gaussian Naive Bayes | Binaire classificatie, multiclass-classificatie | SHAP niet berekend |
Catboost-regressie | Regressie | SHAP-structuur |
LightGBM-regressie | Regressie | SHAP-structuur |
Lineaire regressie | Regressie | Lineaire SHAP |
Random Forest-regressie | Regressie | SHAP-structuur |
SGD-regressie | Regressie | Lineaire SHAP |
XGBoost-regressie | Regressie | SHAP-structuur |
Sleutelfactoranalyse
U kunt direct in een Qlik Sense-app factoranalyses maken om het belang van bepaalde factoren te vergelijken om gegevens die zijn waargenomen voor een specifieke bedrijfs- of prestatiemeetwaarde te bepalen. Factoranalyse werkt door SHAP-waarden te berekenen op het rijniveau per factor die in overweging wordt genomen, en geeft ze in geaggregeerde vorm weer. Dit levert een algemene weergave op van wat belangrijke trends en gedrag in uw app-gegevens zijn. U kunt de resultaten van een factoranalyse gebruiken om de datageletterdheid van uw organisatie te verbeteren en beter geïnformeerde, effectieve beslissingen te kunnen nemen.
Ga voor meer informatie naar Factoranalyse gebruiken om de belangrijkste invloeden achter uw gegevens te onthullen.