Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Klassenausgleich

In einer Aufgabe mit Binärklassifikation wurden möglicherweise für eine der zwei Klassen mehr Daten erfasst. Dieses Ungleichgewicht zwischen den Klassen führt dazu, dass das Modell mehr über die Mehrheitsklasse als über die Minderheitsklasse lernt. Sie können Klassenausgleich verwenden, um das Modell zu verbessern.

Was ist Klassenausgleich

Ein Datensatz für Binärklassifikation enthält zwei Klassen. Klassenausgleich ist die relative Häufigkeit dieser Klassen.

Wenn Sie eine Münze perfekt zufällig ausreichend oft werfen, erhalten Sie einen perfekt ausgeglichenen Satz von zwei Klassen (Kopf und Zahl). In einem perfekt ausgeglichenen Fall (bei dem eine Klasse 1 und die andere 0 ist), beträgt der durchschnittliche Klassenwert 0,5.

Zwei perfekt ausgeglichene Klassen

Balkendiagramm mit zwei ausgeglichenen Klassen.

In vielen Fällen sind Klassen unausgeglichen. Dies kann dazu führen, dass das Modell mehr über die Mehrheitsklasse als über die Minderheitsklasse lernt.

Beispiel für unausgeglichene Klassen

Balkendiagramm mit unausgeglichenen Klassen.

Proportionale Verzerrung

Ein Modell kann sehr genau sein, indem die Mehrheitsklasse in unausgeglichenen Daten erraten wird. Wenn beispielsweise 95 Prozent der Website-Besucher nichts kaufen, kann ein Modell zu 95 Prozent genau sein, das besagt, dass niemand etwas kauft. Das Modell lernt Informationen über die Mehrheitsklasse, aber es ist oft wichtiger, etwas über die Minderheitsklasse zu lernen. Das ist zum Beispiel die Frage, warum die anderen 5 Prozent der Website-Besucher doch etwas kaufen.

Auswirkungen des Klassenausgleichs

Durch den Klassenausgleich Ihrer Daten können Sie ein Modell erhalten, das stärker auf Features fokussiert ist und mehr über die Minderheitsklasse gelernt hat. Zu den möglichen Auswirkungen auf das Modell zählen:

  • Höherer F1-Score, da sich das Gewicht der Minderheitsklasse erhöht hat.

  • Geringfügig niedrigerer allgemeiner Genauigkeits-Score, da er sich nicht so stark auf die proportionale Verzerrung stützt.

  • Ein informativeres Modell, da es sich mehr auf Features stützt und zeigt, wie die Klassen als getrennt unterschieden werden. Die SHAP-Werte können in einem ausgeglichenen Klassenmodell informativer sein.

Beachten Sie, dass der Klassenausgleich in kleinen Datensätzen zu einem Verlust von Featuredaten führen kann. Durch das Ändern der Proportionen im Datensatz können auch Informationen verloren gehen, was die Modellvorhersagen verzerren kann.

Durchführen eines Klassenausgleichs

Für einen Klassenausgleich Ihrer Daten müssen Sie zunächst ermitteln, welcher Ausgleich für Ihren konkreten Geschäftsfall am besten geeignet ist. Das Verhältnis könnte in jedem Bereich von 80/20 bis 50/50 liegen. Gleichen Sie nur so viel wie nötig aus, denn ein zu starker Klassenausgleich kann zu einem überangepassten Modell führen. Testen Sie das Modell dann mit manuellen Holdouts.

Die häufigste Methode für den Klassenausgleich ist das Undersampling. Dabei werden zufällige Stichproben der Mehrheitsklasse genommen, sodass sie gegenüber der Minderheitsklasse ausgeglichener ist. Die Abbildung zeigt, wie Stichproben aus der Mehrheitsklasse im Originaldatensatz genommen werden, um einen Datensatz mit ausgeglichenen Klassen zu erhalten.

Undersampling der Mehrheitsklasse (blau), um einen Ausgleich mit der Minderheitsklasse (gelb) zu erzielen.

Darstellung des Undersampling.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!