Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Verständnis der Funktionsrelevanz

Mit der Featurerelevanz wird gemessen, wie stark die Auswirkung jedes Features auf das Ziel ist. Das kann Sie dabei unterstützen, Datensatzprobleme zu erkennen und das Modell zu verbessern. Die Featurerelevanz besteht aus zwei verschiedenen Visualisierungen: Permutation Importance und SHAP Importance.

Die Featurerelevanz kann ganz einfach so interpretiert werden, dass die Änderung der Variablen mit der höchsten Featurerelevanz die Zielvariable stärker ändert als die Änderung jeder anderen Variablen. Wenn zwei der Variablen mit der höchsten Featurerelevanz geändert werden, hat das wahrscheinlich eine stärkere Auswirkung als die Änderung von nur einer, aber das Prinzip ist, dass eine Variable mit sehr niedriger Featurerelevanz wahrscheinlich nur wenig Vorhersageleistung aufweist. Es macht keinen Unterschied, ob sie geändert wird oder nicht.

Verwenden der Featurerelevanz

Die Featurerelevanz kann dazu beitragen, Probleme mit den Daten zu identifizieren, die zum Trainieren des Modells verwendet werden. Angenommen, wir möchten vorhersagen, ob eine Verkaufschance zum Abschluss kommt oder nicht, und haben vergessen, eine Spalte auszuschließen, die das Abschlussdatum für den Verkauf enthält. Das ist wohl die Spalte mit der höchsten Vorhersagekraft, die daher die höchste Featurerelevanz hat. Wenn sie eingeschlossen wird, verhält sich das Modell besser als in der Realität, denn wenn wir versuchen, das binäre Ergebnis vorherzusagen (Verkaufsabschluss ja oder nein), kennen wir das Abschlussdatum nicht.

Anhand der Featurerelevanz können Sie also auch Wege finden, um ein Modell iterativ zu verbessern. Die meisten Featurerelevanzwerte können unter Umständen eine gute Basis für die Segmentierung bieten. Beispielsweise hat eine Kennzeichnung für automatische Zahlung hohe Featurerelevanz. Wir könnten dieses Feature verwenden, um die Daten zu segmentieren und ein Modell mit Kunden zu trainieren, für die automatische Zahlung eingerichtet ist, und ein anderes Modell mit Kunden ohne automatische Zahlung. Die beiden Modelle können eine bessere Leistung erbringen als unser erstes Modell.

In anderen Fällen können Sie vielleicht Features erfassen oder erstellen, die besser darstellen, was eine Variable mit höherer Featurerelevanz beschreibt, ohne Redundanz hinzuzufügen. Beispielsweise kann eine Variable mit sehr hoher Featurerelevanz die Produktfamilie sein, die von einem Unternehmen hergestellt wird. Es kann signifikanter sein, die Produktfamilie in einige Features aufzuteilen, die die Produkte genauer beschreiben.

Vergleich zwischen Permutation Importance und SHAP Importance

Permutation Importance und SHAP Importance sind alternative Möglichkeiten zum Messen der Featurerelevanz. Der Hauptunterschied ist, dass Permutation Importance auf einer Abnahme der Modellleistung basiert, während sich SHAP Importance auf die Größe der Featurezuordnungen stützt.

Verwendung der Werte

Permutation Importance kann für Folgendes verwendet werden:

  • Verstehen, welche Features beibehalten bzw. ausgeschlossen werden sollen

  • Nach Datenlecks suchen

  • Verstehen, welche Features für die Modellgenauigkeit am wichtigsten sind.

  • Hilfestellung für zusätzliches Feature Engineering.

SHAP Importance kann für Folgendes verwendet werden:

  • Verstehen, welche Features das vorhergesagte Ergebnis am stärksten beeinflussen.

  • Ein Feature untersuchen und verstehen, wie die verschiedenen Werte dieses Features sich auf die Vorhersage auswirken.

  • Verstehen, was sich am stärksten auf einzelne Zeilen oder Teilsätze innerhalb der Daten auswirkt.

Datenebene

Permutation Importance wird für den ganzen Datensatz berechnet. Konkret wird berechnet, wie stark die Genauigkeit des ganzen Datensatzes sich durch das Entfernen eines Features ändert. Dieses Verfahren kann nicht zum Verstehen des Einflusses auf einzelne Zeilen verwendet werden.

SHAP Importance wird auf Zeilenebene berechnet und kann verwendet werden, um zu verstehen, was für eine bestimmte Zeile wichtig ist. Die Werte stellen dar, wie ein Feature sich auf die Vorhersage einer einzelnen Zeile im Verhältnis zum durchschnittlichen Ergebnis im Datensatz auswirkt.

Einfluss von Featurewerten

Permutation Importance kann nicht verwendet werden, um zu verstehen, welche Werte innerhalb eines Features am relevantesten sind.

SHAP Importance-Werte können verwendet werden, um zu verstehen, wie die Werte innerhalb eines bestimmten Features sich auf das Ergebnis auswirken.

Richtung

Permutation Importance enthält keine Richtung.

SHAP Importance-Werte sind direktional. Sie können positiv oder negativ sein, abhängig davon, in welche Richtung sie sich auf das vorhergesagte Ergebnis auswirken.

Größe

Die Größe der Permutation Importance misst, wie wichtig das Feature für die Vorhersageleistung des Modells insgesamt ist.

Die Größe der SHAP Importance gibt an, wie stark ein bestimmtes Feature beeinflusst, dass sich die Vorhersage einer Zeile von der durchschnittlichen Vorhersage für den Datensatz unterscheidet.

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!