Bewertung von Mehrklassen-Klassifikationsmodellen
Bei der Mehrklassen-Klassifikation versuchen Sie, wie bei der Binärklassifikation ein einzelnes diskretes Ergebnis vorherzusagen, aber mit mehr als zwei Klassen. Mehrklassen-Klassifikationsmodelle werden nach verschiedenen Durchschnitten von F1 bewertet.
Während des Trainings eines Mehrklassen-Klassifikations-Experiments werden die folgenden Diagramme automatisch generiert, um rasche Analysen des generierten Modells zu ermöglichen:
-
Permutation Importance: Ein Diagramm, in dem Features sortiert vom höchsten Einfluss (stärkste Auswirkung auf die Modellleistung) bis zum geringsten Einfluss (schwächste Auswirkung auf die Modellleistung) angezeigt werden. Weitere Informationen finden Sie unter Permutation Importance.
-
SHAP Importance: Ein Diagramm, das darstellt, wie stark jedes Feature das vorhergesagte Ergebnis beeinflusst. Weitere Informationen finden Sie unter SHAP Importance im Experimenttraining.
Macro F1
Macro F1 ist der durchschnittliche F1-Wert für jede Klasse ohne Gewichtung, d.h., alle Klassen werden gleich behandelt.
Micro F1
Micro F1 ist der F1-Wert, der über die ganze Konfusionsmatrix hinweg berechnet wird. Die gesamten Wahr-positiv-, Falsch-negativ- und Falsch-positiv-Werte werden gezählt. Die Berechnung des Micro F1-Score entspricht der Berechnung der globalen Präzision oder der globalen Trefferquote.
Gewichteter F1
Gewichteter F1 entspricht dem F1 der Binärklassifikation. Er wird für jede Klasse berechnet und dann als gewichteter Durchschnitt kombiniert, wobei die Anzahl der Datensatzeinträge für jede Klasse berücksichtigt wird.
Genauigkeit
Genauigkeit misst, wie oft das Modell im Durchschnitt eine korrekte Vorhersage getroffen hat. Sie wird als Anzahl der genau übereinstimmenden Vorhersagen geteilt durch die Stichprobenanzahl berechnet.