Interpretation von Modell-Scores
Modell-Scores sind technische Kennzahlen, wie gut Ihre Modelle die Trainingsdaten vorhersagen können. Zusätzlich zur Funktionsrelevanz sind Modell-Scores ein wichtiger Aspekt der Modellanalyse.
Modellbewertungsmetriken
Die wichtigen Metriken, die für die Modellbewertung verwendet werden sollen, variieren je nach Problemtyp. Der Problemtyp kann Binärklassifikation, Mehrklassen-Klassifikation oder Regression sein. Weitere Informationen finden Sie in den folgenden Hilfethemen:
-
Binärklassifikationsprobleme: Bewertung von Binärklassifikationsmodellen
-
Mehrklassen-Klassifizierungsprobleme: Bewertung von Mehrklassen-Klassifikationsmodellen
-
Regressionsprobleme: Bewerten von Regressionsmodellen
Bedeutung der Modellbewertung
Der Zweck der verschiedenen Modellbewertungen (Scores) besteht darin, die Stärken des Modells zu verstehen. Dadurch erhöht sich Ihr Vertrauen in die Brauchbarkeit des Modells, und es wird gezeigt, welche Verbesserungen vorgenommen werden können. Wenn ein Score sehr hoch oder sehr niedrig ist, kann dies darauf hinweisen, dass ein Problem mit den Daten vorliegt, die in das Modell eingelesen wurden.
Die Bewertung eines Modells ist eine herausfordernde Aufgabe, da mehrere Metriken zu berücksichtigen sind, die verschiedene Elemente des Modells beschreiben. Um festzustellen, ob das Modell gut ist, müssen Sie geschäftliche Fachkenntnisse mit einem Verständnis der verschiedenen Bewertungsmetriken und der Daten kombinieren, mit denen das Modell trainiert wurde. Was in einem Anwendungsfall wie ein extrem schlechter Score aussieht, könnte in einem anderen Anwendungsfall ein sehr guter Score sein und eine hohe Rendite erbringen.
Die wichtigste Metrik: Analogie zum Auto
Welche Metrik ist am relevantesten? Das hängt davon ab, wie Sie das Modell verwenden möchten. Es gibt keine einzelne Metrik, die Ihnen alles sagt, was Sie wissen müssen.
Stellen Sie sich als Analogie vor, Sie möchten ein Auto kaufen. Dabei ist eine Reihe verschiedener Metriken zu bedenken, beispielsweise sparsamer Kraftstoffverbrauch, PS-Zahl, Drehmoment, Gewicht und Beschleunigung. Sie sollen alle spitzenmäßig sein, aber wir müssen Abstriche machen, je nachdem, wofür Sie das Auto brauchen. Ein Pendler legt vielleicht besonderen Wert auf den sparsamen Verbrauch eines Autos, auch wenn dies mit einem niedrigen Drehmoment einhergeht, während ein Bootsbesitzer ein hohes Drehmoment bevorzugt, auch wenn der Kraftstoffverbrauch höher liegt.
Ein Modell können Sie sich ähnlich vorstellen. Wir möchten, dass alle Metriken hoch sind – und vielleicht können wir sie mit mehr Daten und besseren Features noch verbessern –, aber es werden immer Einschränkungen und Abstriche gemacht werden müssen. Manche Scores sind wichtiger als andere, abhängig davon, wie Sie das Modell einsetzen möchten.
Passt das Modell gut?
Die Entscheidung, ob ein Modell gut für den Anwendungsfall passt und in der Produktion eingesetzt werden kann, hängt letztlich von der Frage ab: „Ist das Modell genau genug, um eine positive Rendite zu erbringen, ohne dass dies zu inakzeptablen Konsequenzen führt?“ Mit den folgenden vier Fragen können Sie dies ermitteln.
Dient das Modell zur Information einer menschlichen Entscheidung oder zur Automatisierung?
Die erforderliche Genauigkeit hängt davon ab, ob Sie das Modell zum Automatisieren oder für informierte Entscheidungen einsetzen möchten. Beispielsweise kann ein Modell trainiert werden, um zu ermitteln, wie viel Geld Mitarbeiter verdienen sollten. In diesem Fall muss die Genauigkeit höher sein, wenn das Modell die Entscheidung automatisiert, anstatt nur Informationen für eine Entscheidung zu liefern. Wenn Manager es verwenden, um festzustellen, ob ein Mitarbeiter zu wenig oder zu viel verdient, können sie dann nach eigenem Ermessen entscheiden, ob das Modell einen Fehler gemacht hat oder nicht.
Hat ein falsches Positiv bzw. ein falsches Negativ quantifizierbare Folgen?
Können Sie die Kosten eines falschen Ergebnisses quantifizieren? Berücksichtigen Sie diese Kosten, wenn Sie den erforderlichen Genauigkeitsgrad bestimmen, mit dem ein Modell als gut passend gilt.
Nehmen wir im obigen Beispiel an, dass das Modell nur zur Information dient. Der Manager verlässt sich aber auf das Modell und gibt einem Mitarbeiter keine Lohnerhöhung, weil das Modell besagt, dass der Mitarbeiter dann überbezahlt wäre. Daraufhin kündigt der Mitarbeiter und sucht sich eine andere Stelle. Wie hoch waren die Kosten aufgrund des Verlusts dieses Mitarbeiters? Wie hoch wären im umgekehrten Fall die Kosten einer fälschlich gewährten Lohnerhöhung?
Wie viel besser als eine Zufallsentscheidung ist das Modell?
Bestimmen Sie im Fall von Regressionsaufgaben, wie der Fehler aussähe, wenn Sie immer den Durchschnittswert der Zielspalte annähmen. Wie viel besser ist das Modell im Vergleich dazu?
Nehmen Sie bei Klassifikationsaufgaben die Rate der positiven Klasse im Quadrat und addieren Sie sie mit der negativen Klasse im Quadrat, um die Zufallsgenauigkeit zu erhalten. Wie viel besser als dieser Wert ist die Modellgenauigkeit?
Ist das Modell besser als das Stellen eines Ultimatums?
Abhängig davon, ob Fehler mit Kosten verbunden sind, erwägen Sie, ob das Modell besser als ein Ultimatum ist. Beispiel: Eine Firma leistet kostenlose Beratungen, die teuer und zeitaufwändig sind ($6.000), verdient aber viel, wenn ein Geschäft abgeschlossen wird ($60.000). Die Firma arbeitet derzeit mit der Annahme, dass 100 Prozent der Beratungen zu einem Abschluss führen. Sie würde aber ihren Gewinn steigern, wenn sie ermitteln könnte, welche Beratungen durchgeführt werden sollten und welche nicht. Wie muss die Modellgenauigkeit aussehen, damit die Firma die Modellausgabe anstelle des Ultimatums, dass 100 Prozent der Geschäfte abgeschlossen werden, verwenden sollte?
Featurerelevanz
Auch wenn Funktionsrelevanzwerte technisch nicht als Modell-Scores angesehen werden, sind sie wichtige Metriken für die Auswertung der Vorhersageleistung Ihrer Modelle. Die Auswertung der Funktionsrelevanz kann auch dazu beitragen, Probleme mit Ihrer Experimentkonfiguration und Ihren Trainingsdaten zu identifizieren, wie beispielsweise Datenlecks.
Weitere Informationen finden Sie unter Verständnis der Funktionsrelevanz.