Verständnis der SHAP Importance im Experimenttraining
SHAP Importance bietet wichtige Einblicke für in Experimenten erstellte Vorhersagen. Sie unterstützt Sie beim Verständnis, welche Features für die Vorhersage am relevantesten sind.
SHAP-Werte stellen dar, wie viel ein Feature zum vorhergesagten Wert im Ziel im Hinblick auf alle anderen Features dieser Zeile beiträgt.
Wählen Sie nach dem Trainieren einer Experimentversion ein Modell aus. Das SHAP Importance-Diagramm auf der Registerkarte Modelle unter der Tabelle visualisiert die SHAP-Daten aus den Modellvorhersagen, die mithilfe der Holdout(-Test)-Daten erstellt wurden.
In diesem Hilfethema wird die SHAP Importance im Experimenttraining behandelt. Informationen zu SHAP Importance-Datensätzen, die während einer Vorhersage generiert werden, finden Sie unter Generieren von SHAP-Datensätzen während Vorhersagen.
Übersicht
SHAP Importance wird auf Zeilenebene gemessen. Sie stellt dar, wie ein Feature sich auf die Vorhersage einer einzelnen Zeile im Verhältnis zu den anderen Features in dieser Zeile und zum durchschnittlichen Ergebnis im Datensatz auswirkt. Der Wert hat sowohl eine Richtung als auch eine Größenordnung, aber für das Modelltraining wird SHAP Importance in Form eines absoluten Werts dargestellt.
Im SHAP Importance-Diagramm sind die Werte auf Zeilenebene aggregiert. So können Sie den Einfluss des Features innerhalb von Datenteilsätzen verstehen.
Binärklassifikations- und Regressionsexperimente
In einem Binärklassifikations- oder Regressionsexperiment ist das SHAP Importance-Diagramm für jede Modellversion ein Balkendiagramm, in dem der durchschnittliche absolute SHAP-Wert für jedes Feature im Experiment angezeigt wird. SHAP importance wird vom höchsten zum niedrigsten Wert sortiert. Das Diagramm gibt an, welche Features den stärksten bzw. den geringsten Einfluss auf das vorhergesagte Ergebnis des Ziels haben, unabhängig davon, welches Ergebnis ermittelt wird.
Experimente mit Mehrklassen-Klassifizierung
In einem Mehrklassen-Klassifikations-Experiment gibt es mehrere Optionen für die Präsentation des SHAP Importance-Diagramms. Folgende Optionen sind verfügbar:
Feature SHAP als Gesamtwert dargestellt
Feature SHAP-Werte nach Klasse getrennt
SHAP Importance-Diagramme mit einer Klasse
Feature SHAP als Gesamtwert dargestellt
Standardmäßig wird das SHAP Importance-Diagramm mit der Einstellung Alle Klassen: Durchschnittliche Feature-SHAP konfiguriert.
Diese Konfiguration zeigt die SHAP Importance für jedes Feature, unabhängig vom vorhergesagten Ergebnis des Ziels. Die Features im Diagramm werden nach dem gesamten durchschnittlichen absoluten SHAP-Wert sortiert und nicht nach Klasse getrennt.
Feature SHAP-Werte nach Klasse getrennt
Um anzuzeigen, wie viel Einfluss jedes Feature auf das Ergebnis des Ziels als Wert für jede Klasse im Experiment hat, wählen Sie die Einstellung Feature-SHAP nach Klasse. Die Konfiguration kann entweder auf Gruppiert oder auf Gestapelt festgelegt werden. Die durchschnittlichen absoluten SHAP-Werte für jede Klasse im Experiment werden mit unterschiedlichen Farben dargestellt, um den Vergleich nach Klasse zu ermöglichen.
Beispiel: Das Zielfeld in Ihrem Experiment hat vier mögliche Klassen bzw. Ergebnisse (violetter Plan, grüner Plan, blauer Plan oder roter Plan). Der mehrfarbige Balken für jedes Features wird entsprechend dem Einfluss unterteilt, den das Feature auf jedes der vier möglichen Ergebnisse des Experiments hatte. Wenn Sie die Gesamtlänge des Balkens betrachten, sehen Sie den Gesamteinfluss des Features auf die Vorhersage des Ziels, unabhängig vom vorhergesagten Ziel.
SHAP Importance-Diagramme mit einer Klasse
Sie haben auch die Option, ein SHAP Importance-Diagramm für jedes der möglichen Ergebnisse der Zielvorhersage anzuzeigen. Es werden durchschnittliche absolute SHAP-Werte für vorhergesagte Ergebnisse einer einzelnen Klasse angezeigt.
Wenn das Ziel Ihres Experiments beispielsweise vier mögliche Ergebnisse hat, können Sie vier getrennte Diagramme anzeigen, in denen die wichtigsten Features für Vorhersagen aufgeschlüsselt werden, die zu jedem der vier möglichen Ergebnisse führen.
Berechnung der SHAP-Werte
SHAP-Werte werden für eine Reihe von Algorithmen berechnet. SHAP Importance wird anhand zweier verschiedener Methoden berechnet:
Tree SHAP: Schnelle und genaue Methode zum Schätzen von SHAP-Werten für Baumstrukturmodelle
Linear SHAP: Eine Methode zum Berechnen von SHAP-Werten für lineare Modelle
Algorithmus | Unterstützte Modelltypen | SHAP-Berechnungsmethode |
---|---|---|
Random Forest-Klassifikation | Binärklassifikation, Mehrklassen-Klassifikation | Tree SHAP |
XGBoost-Klassifikation | Binärklassifikation, Mehrklassen-Klassifikation | Tree SHAP |
LightGBM-Klassifikation | Binärklassifikation, Mehrklassen-Klassifikation | Tree SHAP |
CatBoost-Klassifikation | Binärklassifikation, Mehrklassen-Klassifikation | Tree SHAP |
Logistische Regression | Binärklassifikation, Mehrklassen-Klassifikation | Linear SHAP |
Lasso-Regression | Binärklassifikation, Mehrklassen-Klassifikation | Linear SHAP |
Elastic Net-Regression | Binärklassifikation, Mehrklassen-Klassifikation | Linear SHAP |
Gaußsches Naive Bayes | Binärklassifikation, Mehrklassen-Klassifikation | SHAP nicht berechnet |
CatBoost-Regression | Regression | Tree SHAP |
LightGBM-Regression | Regression | Tree SHAP |
Lineare Regression | Regression | Linear SHAP |
Random Forest-Regression | Regression | Tree SHAP |
SGD-Regression | Regression | Linear SHAP |
XGBoost-Regression | Regression | Tree SHAP |
Haupttreiberanalyse
Sie können Haupttreiberanalysen direkt in einer Qlik Sense App erstellen, um die Wichtigkeit bestimmter Faktoren bei der Bestimmung von Daten zu bewerten, die für eine bestimmte Geschäfts- oder Leistungsmetrik beobachtet werden. Bei der Haupttreiberanalyse werden SHAP-Werte auf Zeilenebene für jeden berücksichtigten Faktor berechnet und in aggregierter Form angezeigt. So erhalten Sie eine allgemeine Übersicht darüber, was die Trends und das Verhalten Ihrer App-Daten beeinflusst. Sie können die Ergebnisse der Haupttreiberananlysen nutzen, um die Datenkompetenz in Ihrer Organisation zu steigern und besser informierte, effektivere Entscheidungen zu treffen.
Weitere Informationen finden Sie unter Aufdecken der wichtigsten Einflüsse auf Ihre Daten mit der Haupttreiberanalyse.