Verständnis der Permutation Importance

Permutation Importance ist ein Maß dafür, wie relevant ein Feature für die Gesamtvorhersage eines Modells ist. In anderen Worten misst sie, welche Auswirkungen es auf das Modell hätte, wenn Sie die Möglichkeit entfernten, aus diesem Feature zu lernen. Die Metrik kann Ihnen helfen, ein Modell zu verfeinern, indem Sie ändern, welche Features und Algorithmen eingeschlossen werden.

Permutation Importance wird mithilfe der „Permutation Importance“ von scikit-learn berechnet. Sie misst die Verringerung des Modell-Score nach der Permutation des Features.

Ein Feature ist „relevant“, wenn beim Mischen seiner Werte der Modell-Score absinkt, weil sich in diesem Fall das Modell für die Vorhersage auf das Feature stützte.
Ein Feature ist „nicht relevant“, wenn beim Mischen seiner Werte der Modell-Score unverändert bleibt, weil in diesem Fall das Modell das Feature für die Vorhersage ignorierte.

Im Permutation Importance-Diagramm werden Features sortiert vom höchsten Einfluss (stärkste Auswirkung auf die Modellleistung) bis zum geringsten Einfluss (schwächste Auswirkung auf die Modellleistung) angezeigt. Die Balkengröße stellt die Relevanz jedes Features dar.

Ein Permutation Importance-Diagramm wird automatisch für jedes Modell erstellt, das während eines Experiments trainiert wird. Das Diagramm wird auf der Registerkarte Modelle angezeigt.

Verwenden von Permutation Importance für die Auswahl der Featurespalten

Wenn Sie Iterationen des Modelltrainings durchführen, können Sie die Permutation Importance betrachten, um zu entscheiden, welche Spalten beibehalten und welche Spalten ausgeschlossen werden sollten. Achten Sie darauf, welche Features für mehrere Modelle am relevantesten sind. Dies sind wahrscheinlich die Features mit dem höchsten Vorhersagewert, die beim Verfeinern des Modells beibehalten werden sollten. Dagegen haben Features, die durchgehend am Ende der Liste stehen, wohl nicht viel Vorhersagewert und können ausgeschlossen werden.

Wenn ein Algorithmus deutlich besser als die anderen abschneidet, konzentrieren Sie sich auf das Permutation Importance-Diagramm für diesen Algorithmus. Wenn mehrere Algorithmen vergleichbare Scores haben, können Sie die Permutation Importance-Diagramme für diese Algorithmen vergleichen.

Verwenden von Permutation Importance für die Auswahl von Algorithmen

Jeder Algorithmus verfolgt einen eigenen Ansatz zum Erlernen von Mustern aus den Trainingsdaten. Experimente werden mit mehreren Algorithmen trainiert, um zu sehen, welcher Ansatz für den spezifischen Datensatz am besten funktioniert. Die einzelnen Ansätze werden durch Variationen der Permutation Importance für verschiedene Algorithmen widergespiegelt. Beispielsweise kann Feature A im Modell für logistische Regression am relevantesten sein, während Feature B für XGBoost-Klassifikation der gleichen Daten am relevantesten ist. Im Allgemeinen wird von Features mit hoher Vorhersageleistung erwartet, dass sie über alle Algorithmen hinweg beste Leistung erbringen, aber häufig sind Variationen zu beobachten.

Sie können diese Variation in Permutation Importance nutzen, wenn Sie unter Algorithmen mit ähnlichen Scores wählen. Wählen Sie den Algorithmus mit guten Features, die intuitiver sind, anhand Ihrer spezifischen geschäftlichen Kenntnisse.

Verfügbarkeit von Permutation Importance

Wenn Sie Freitext-Features in das Experiment einschließen, erhöht sich die Komplexität des Experiments und der für die Ausführung erforderlichen Prozesse. Es kann vorkommen, dass für die daraus entstandenen Modelle keine Permutation Importance-Diagramme verfügbar sind, wenn Ihre Freitextdaten entsprechend komplex sind.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab