Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Überprüfen der Modelle

Um Ihre Modelle für maschinelles Lernen bewerten zu können, müssen Sie die Modell-Scores und -metriken verstehen können. In einigen Fällen ist es wichtiger zu verstehen, wie jedes Feld und jeder Wert sich auf das vorhergesagte Ergebnis auswirkt – also den Grund, aus dem etwas geschieht –, als Vorhersagen zu treffen.

Bedeutung der Modellbewertung

Der Zweck der verschiedenen Modellbewertungen (Scores) besteht darin, die Stärken des Modells zu verstehen. Dadurch erhöht sich Ihr Vertrauen in die Brauchbarkeit des Modells, und es wird gezeigt, welche Verbesserungen vorgenommen werden können. Wenn ein Score sehr hoch oder sehr niedrig ist, kann dies darauf hinweisen, dass ein Problem mit den Daten vorliegt, die in das Modell eingelesen wurden.

Die Bewertung eines Modells ist eine herausfordernde Aufgabe, da mehrere Metriken zu berücksichtigen sind, die verschiedene Elemente des Modells beschreiben. Um festzustellen, ob das Modell gut ist, müssen Sie geschäftliche Fachkenntnisse mit einem Verständnis der verschiedenen Bewertungsmetriken und der Daten kombinieren, mit denen das Modell trainiert wurde. Was in einem Anwendungsfall wie ein extrem schlechter Score aussieht, könnte in einem anderen Anwendungsfall ein sehr guter Score sein und eine hohe Rendite erbringen.

Die wichtigste Metrik: Analogie zum Auto

Welche Metrik ist am relevantesten? Das hängt davon ab, wie Sie das Modell verwenden möchten. Es gibt keine einzelne Metrik, die Ihnen alles sagt, was Sie wissen müssen.

Stellen Sie sich als Analogie vor, Sie möchten ein Auto kaufen. Dabei ist eine Reihe verschiedener Metriken zu bedenken, beispielsweise sparsamer Kraftstoffverbrauch, PS-Zahl, Drehmoment, Gewicht und Beschleunigung. Sie sollen alle spitzenmäßig sein, aber wir müssen Abstriche machen, je nachdem, wofür Sie das Auto brauchen. Ein Pendler legt vielleicht besonderen Wert auf den sparsamen Verbrauch eines Autos, auch wenn dies mit einem niedrigen Drehmoment einhergeht, während ein Bootsbesitzer ein hohes Drehmoment bevorzugt, auch wenn der Kraftstoffverbrauch höher liegt.

Ein Modell können Sie sich ähnlich vorstellen. Wir möchten, dass alle Metriken hoch sind – und vielleicht können wir sie mit mehr Daten und besseren Features noch verbessern –, aber es werden immer Einschränkungen und Abstriche gemacht werden müssen. Manche Scores sind wichtiger als andere, abhängig davon, wie Sie das Modell einsetzen möchten.

Passt das Modell gut?

Die Entscheidung, ob das Modell gut für den Anwendungsfall passt und in der Produktion eingesetzt werden kann, hängt letztlich von der Frage ab: „Ist das Modell genau genug, um eine positive Rendite zu erbringen, ohne dass dies zu inakzeptablen Konsequenzen führt?“ Mit den folgenden vier Fragen können Sie dies ermitteln.

Dient das Modell zur Information einer menschlichen Entscheidung oder zur Automatisierung?

Die erforderliche Genauigkeit hängt davon ab, ob Sie das Modell zum Automatisieren oder für informierte Entscheidungen einsetzen möchten. Beispielsweise kann ein Modell trainiert werden, um zu ermitteln, wie viel Geld Mitarbeiter verdienen sollten. In diesem Fall muss die Genauigkeit höher sein, wenn das Modell die Entscheidung automatisiert, anstatt nur Informationen für eine Entscheidung zu liefern. Wenn Manager es verwenden, um festzustellen, ob ein Mitarbeiter zu wenig oder zu viel verdient, können sie dann nach eigenem Ermessen entscheiden, ob das Modell einen Fehler gemacht hat oder nicht.

Hat ein falsches Positiv bzw. ein falsches Negativ quantifizierbare Folgen?

Können Sie die Kosten eines falschen Ergebnisses quantifizieren? Berücksichtigen Sie diese Kosten, wenn Sie den erforderlichen Genauigkeitsgrad bestimmen, mit dem ein Modell als gut passend gilt.

Nehmen wir im obigen Beispiel an, dass das Modell nur zur Information dient. Der Manager verlässt sich aber auf das Modell und gibt einem Mitarbeiter keine Lohnerhöhung, weil das Modell besagt, dass der Mitarbeiter dann überbezahlt wäre. Daraufhin kündigt der Mitarbeiter und sucht sich eine andere Stelle. Wie hoch waren die Kosten aufgrund des Verlusts dieses Mitarbeiters? Wie hoch wären im umgekehrten Fall die Kosten einer fälschlich gewährten Lohnerhöhung?

Wie viel besser als eine Zufallsentscheidung ist das Modell?

Bestimmen Sie im Fall von Regressionsaufgaben, wie der Fehler aussähe, wenn Sie immer den Durchschnittswert der Zielspalte annähmen. Wie viel besser ist das Modell im Vergleich dazu?

Nehmen Sie bei Klassifikationsaufgaben die Rate der positiven Klasse im Quadrat und addieren Sie sie mit der negativen Klasse im Quadrat, um die Zufallsgenauigkeit zu erhalten. Wie viel besser als dieser Wert ist die Modellgenauigkeit?

Ist das Modell besser als das Stellen eines Ultimatums?

Abhängig davon, ob Fehler mit Kosten verbunden sind, erwägen Sie, ob das Modell besser als ein Ultimatum ist. Beispiel: Eine Firma leistet kostenlose Beratungen, die teuer und zeitaufwändig sind ($6.000), verdient aber viel, wenn ein Geschäft abgeschlossen wird ($60.000). Die Firma arbeitet derzeit mit der Annahme, dass 100 Prozent der Beratungen zu einem Abschluss führen. Sie würde aber ihren Gewinn steigern, wenn sie ermitteln könnte, welche Beratungen durchgeführt werden sollten und welche nicht. Wie muss die Modellgenauigkeit aussehen, damit die Firma die Modellausgabe anstelle des Ultimatums, dass 100 Prozent der Geschäfte abgeschlossen werden, verwenden sollte?

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!