Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Bewertung von Binärklassifikationsmodellen

Binärklassifikationsmodelle teilen Ergebnisse in zwei Kategorien auf, z. B. Ja und Nein. Wie genau ein Modell Ergebnisse aufteilt, kann anhand einer Vielzahl von Bewertungsmetriken beurteilt werden.

Die Metriken legen die einzelnen Stärken und Schwächen des Modells offen. Keine von ihnen allein kann ein echtes Maß einer guten Eignung sein. Konkret muss darauf hingewiesen werden, dass ein hervorragender Gesamtgenauigkeitswert nicht unbedingt bedeutet, dass das Modell hervorragend ist. Ein Beispiel ist ein Unternehmen, das eine Konversionsrate von nur 10 Prozent hat. Das Modell könnte einen Genauigkeits-Score von 90 Prozent erzielen, indem man einfach sagt, dass keine Leads jemals konvertiert werden. An dieser Stelle kommen F1, Trefferquote und Präzision zum Einsatz, um die Stärken und Schwächen eines Modells abzuwägen. Wenn ein Modell davon ausgeht, dass 100 Prozent der Leads nicht konvertiert werden, hätte F1 den Wert 0.

Während des Trainings eines Binärklassifikations-Experiments werden die folgenden Diagramme automatisch generiert, um rasche Analysen der Modell-Scores bereitzustellen:

  • Konfusionsmatrix: Ein Diagramm, das die Genauigkeit der Vorhersageergebnisse in einem Klassifikationsmodell zusammenfasst. Weitere Informationen finden Sie unter Konfusionsmatrix.

  • ROC-Kurve: Ein Diagramm, das zeigt, wie gut ein ML-Modell die positive Klasse vorhersagen kann, wenn das tatsächliche Ergebnis positiv ist. Weitere Informationen finden Sie unter AUC und ROC-Kurve.

Konfusionsmatrix

Die meisten Metriken für Binärklassifikationsaufgaben werden durch verschiedene Berechnungen der Werte in der Konfusionsmatrix generiert. Die Konfusionsmatrix ist eine der Visualisierungen, die auf der Registerkarte Modelle zu sehen ist. Sie zeigt, wie viele der tatsächlich wahren und der tatsächlich falschen Werte korrekt vorhergesagt werden, und gibt einen Gesamtwert für jede Klasse an. Die im Diagramm angezeigten Werte basieren auf den automatischen Holdout-Daten, die zum Validieren der Modellleistung nach dem Training verwendet werden. Jeder Eintrag im Datensatz wird in einen der Quadranten sortiert:

  • Wahr positive Werte (true positive, TP) sind tatsächlich wahre Werte, die korrekt als wahr vorhergesagt wurden.

  • Falsch positive Werte (false positive, FP) sind tatsächlich falsche Werte, die fälschlicherweise als wahr vorhergesagt wurden.

  • Falsch negative Werte (false negative, FN) sind tatsächlich wahre Werte, die fälschlicherweise als falsch vorhergesagt wurden.

  • Wahr negative Werte (true negative, TN) sind tatsächlich falsche Werte, die korrekt als falsch vorhergesagt wurden.

Unter den Zahlen in jedem Quadranten sehen Sie auch die Prozentwerte für die Metriken Trefferquote (TP), Ausfallquote (FP), Fehlerrate (FN) und Spezifität (TN). Halten Sie den Mauszeiger über einen Wert, um eine Quickinfo zur Metrik anzuzeigen.

Konfusionsmatrix für ein Binärklassifikationsmodell

Konfusionsmatrix mit Quadranten.

Für jeden realistischen Fall werden falsch positive und falsch negative Werte in der Konfusionsmatrix angezeigt. Perfekte Vorhersagen anhand der Trainingsdaten weisen darauf hin, dass das Modell die Antworten auswendig gelernt hat und in der Realität schlechte Leistungen erbringen wird. Sie müssen dafür sorgen, dass genügend wahre positive und negative Werte erfasst wurden.

TipphinweisIn manchen Fällen wäre eine Regression die angemessene Wahl für Ihre Aufgabe für maschinelles Lernen, aber auch dann kann eine einfach verständliche Konfusionsmatrix erwünscht sein. In diesem Fall können Sie ein Modell als Regression und ein Modell als Binärklassifikation mit den gleichen Daten mit Ausnahme der Zielspalte ausführen. So erhalten Sie die einfache Verständlichkeit einer Binärklassifikation zusammen mit der Robustheit einer Regression.

F1

Der F1-Score ist eine Metrik, die die Genauigkeit zu erfassen versucht, wenn Klassen unausgeglichen sind, indem sie sich auf die Genauigkeit positiver Vorhersagen und tatsächlicher positiver Datensatzeinträge konzentriert. Sie gibt an, wie genau das Modell relevante Ergebnisse erfasst. Die Metrik versucht, Trefferquote und Präzision auszugleichen, um im Idealfall eine mittlere Position zwischen beiden zu finden. Je unausgeglichener ein Datensatz ist, desto geringer ist voraussichtlich der F1-Score, selbst bei gleicher Gesamtgenauigkeit

Wenn der F1-Wert hoch ist, sind auch alle anderen Bewertungsmetriken hoch. Wenn der Wert niedrig ist, bedeutet das, dass Sie eine weitere Analyse durchführen müssen. Wenn aber der Score sehr hoch ist oder der Holdout-Score wesentlich niedriger als der Kreuzvalidierungs-Score ist, könnte dies ein Anzeichen für Datenlecks sein.

F1 wird wie folgt berechnet: 2 x ((Präzision x Trefferquote) / (Präzision +Trefferquote))

Trefferquote

Die Trefferquote ist die Wahr-positiv-Rate. Sie misst, wie oft das Modell korrekt wahr vorhergesagt hat, wenn etwas tatsächlich wahr war. Sie besagt also, wie genau das Modell alle tatsächlich wahren Fälle innerhalb eines Datensatzes gefunden hat. Die Trefferquote ist das Maß der guten Erinnerung der positiven Klasse. Sie wird wie folgt berechnet: TP / (TP + FN)

Präzision

Präzision wird auch als positiver Vorhersagewert bezeichnet. Sie misst, mit welcher Wahrscheinlichkeit das Modell richtig lag, wenn es eine Vorhersage zu etwas Wahrem traf. Sie wird wie folgt berechnet: TP / (TP + FP)

Abwägen zwischen Trefferquote und Präzision

Die Trefferquote beschreibt, wie weit das vom Modell geworfene Netz ist: Hat es alle wahren Werte erfasst, auch wenn es einige falsch positive Vorhersagen gemacht hat? Wurden so viele wahre Werte wie möglich erfasst? Die Präzision verhält sich umgekehrt zur Trefferquote. Hiermit möchten wir uns vergewissern, dass das Modell beim Vorhersagen von wahren Werten sehr präzise vorgeht. Mit hoher Präzision werden wir aber am Ende mehr falsch negative Ergebnisse erhalten, bei denen das Modell „falsch“ vorhersagt, selbst wenn etwas wahr ist.

Es muss abgewogen werden: Einerseits möchten wir keine wahren Ergebnisse verpassen, andererseits aber sicher sein, das keines der als wahr vorhergesagten Ergebnisse tatsächlich falsch war. Ob eine höhere Präzision oder eine höhere Trefferquote bevorzugt werden sollte, hängt von Ihrem geschäftlichen Anwendungsfall ab. Beispielsweise möchten Sie bei der Vorhersage einer Krankheitsdiagnose sicher sein, dass Sie keine Patienten übersehen, die die Krankheit tatsächlich hatten, also falsch negative Werte.

  • Wenn die „Kosten“ falsch negativer Werte hoch sind, kann ein Modell mit Schwerpunkt auf einer hohen Trefferquote gerechtfertigt sein.

  • Wenn die „Kosten“ falsch positiver Werte hoch sind, kann dagegen ein Modell mit Schwerpunkt auf einer hohen Präzision gerechtfertigt sein.

Genauigkeit

Genauigkeit misst, wie oft das Modell im Durchschnitt eine korrekte Vorhersage getroffen hat. Sie wird wie folgt berechnet: (TP + TN) / (Alle Vorhersagen)

Spezifität

Spezifität ist die Wahr-negativ-Rate. Sie misst, wie oft das Modell korrekt falsch vorhergesagt hat, wenn etwas tatsächlich falsch war. Sie wird wie folgt berechnet: TN / (FP + TN)

MCC

Der Matthews-Korrelationskoeffizient (MCC) reicht von -1 bis 1, wobei 1 bedeutet, dass das Modell jede Stichprobe korrekt vorhergesagt hat. MCC wird wie folgt berechnet: ((TP x TN) - (FP x FN)) / [(TP + FP) x (FN + TN) x (FP + TN) x (TP + FN)]^(1/2)

Fehlerrate

Die Fehlerrate ist die Falsch-negativ-Rate. Sie ist das Verhältnis zwischen der Anzahl falsch negativer Werte und der Gesamtzahl der tatsächlich positiven Werte. Sie wird wie folgt berechnet: FN / (TP + FN)

Ausfallquote

Die Ausfallquote ist die Falsch-positiv-Rate. Sie ist das Verhältnis zwischen der Anzahl falsch positiver Werte und der Gesamtzahl der tatsächlich negativen Werte. Sie wird wie folgt berechnet: FP / (FP + TN)

NPV

Der negative Vorhersagewert (negative predictive value, NPV) misst, mit welcher Wahrscheinlichkeit das Modell richtig lag, wenn es eine Vorhersage zu etwas Falschem traf. Sie wird wie folgt berechnet: TN / (FN + TN)

Log-Verlust

Log-Verlust ist ein allgemeines Maß für die Genauigkeit in der logistischen Regression. Ein geringerer Log-Verlustwert bedeutet bessere Vorhersagen – ein perfektes Modell hätte einen Log-Verlust von 0.

AUC und ROC-Kurve

Die Fläche unter der Kurve (Area under the curve, AUC) ist eine komplexere Genauigkeitsmetrik, die besser zeigt, wie deterministisch ein Modell ist. Sie beschreibt, wie gut das Modell die positive Klasse vorhersagen kann, wenn das tatsächliche Ergebnis positiv ist.

AUC ist als der Bereich unter einer ROC-Kurve (Receiver Operation Characteristic) definiert. Mit der ROC-Kurve wird die Falsch-positiv-Rate (x-Achse) gegen die Wahr-positiv-Rate (y-Achse) für eine Anzahl verschiedener Schwellenwerte zwischen 0,0 und 1,0 aufgetragen. Anders ausgedrückt, wird die Fehlalarmrate gegen die Trefferrate aufgetragen. Die Kurve ist nützlich für das Verständnis, ob die Trennung zwischen Klassen möglich ist und gibt an, ob die Daten gut genug sind, um zwischen vorhergesagten Ergebnissen zu unterscheiden.

Die Wahr-positiv-Rate wird wie folgt berechnet: TP / (TP + FN)

  • Je näher die Wahr-positiv-Rate bei 1,0 liegt – der maximal möglichen Fläche unter der Kurve –, desto deterministischer ist das Modell.

  • Je näher die Wahr-positiv-Rate bei 0,5 liegt, desto weniger deterministisch ist das Modell.

Die Abbildung unten zeigt eine gute ROC-Kurve. Sie ist gut, weil die Kurve so nah wie möglich bei 1 liegen sollte, was eine große AUC ergibt. Die gestrichelte Linie ist die zufällige Chance, 50:50. Wenn die AUC klein ist, gilt die Kurve als schlecht.

Eine gute ROC-Kurve mit großer AUC

Eine gute ROC-Kurve

Schwellenwert

Der Schwellenwert ist die Wahrscheinlichkeit, dass die Vorhersage wahr ist. Er stellt die Abwägung zwischen falsch positiven und falsch negativen Werten dar. Der Schwellenwert wird per Algorithmus bestimmt, und wahrscheinlich wird es unterschiedliche Schwellenwerte für jeden Algorithmus in Ihrem Modell geben.

Feinabstimmung des Schwellenwerts

Mittels Feinabstimmung des Schwellenwerts („threshold tuning“) kann effektiv gewährleistet werden, dass der korrekte Schwellenwert ausgewählt wird, um die F1-Scores der Binärklassifikationsmodelle zu optimieren. AutoML berechnet die Präzision und die Trefferquote für Hunderte verschiedener möglicher Schwellenwerte von 0 bis 1. Der Schwellenwert, der den höchsten F1-Score erzielt, wird ausgewählt.

Wenn Sie den Schwellenwert auswählen, anstatt sich auf den Standardschwellenwert von 0,5 zu verlassen, werden Vorhersagen erstellt, die für Datensätze mit einem Ungleichgewicht zwischen positiven und negativen Fällen robuster sind.

Im Diagramm ist der Schwellenwert auf 0,5 festgelegt. In diesem Fall erhielten die Datensatzeinträge, die tatsächlich wahr waren und zu weniger als 0,5 vorhergesagt wurden, das Vorhersageetikett „falsch“ (falsch negativ).

Schwellenwert bei 0,5

Graph mit bei 0,5 markiertem Schwellenwert

Indem Sie den Schwellenwert ändern, der festlegt, ob ein Eintrag als wahr oder falsch vorhergesagt wird, können wir das Gewicht entweder zu einer höheren Trefferquote oder zu einer höheren Präzision verschieben.

Alternative Schwellenwerte führen entweder zu einer höheren Trefferquote oder zu einer höheren Präzision

Graph mit zwei markierten alternativen Schwellenwerten.

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!