Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Klassenausgleich

In einer Aufgabe mit Binärklassifikation wurden möglicherweise für eine der zwei Klassen mehr Daten erfasst. Dieses Ungleichgewicht zwischen den Klassen führt dazu, dass das Modell mehr über die Mehrheitsklasse als über die Minderheitsklasse lernt. Sie können Klassenausgleich verwenden, um das Modell zu verbessern.

Was ist Klassenausgleich

Ein Datensatz für Binärklassifikation enthält zwei Klassen. Klassenausgleich ist die relative Häufigkeit dieser Klassen.

Wenn Sie eine Münze perfekt zufällig ausreichend oft werfen, erhalten Sie einen perfekt ausgeglichenen Satz von zwei Klassen (Kopf und Zahl). In einem perfekt ausgeglichenen Fall (bei dem eine Klasse 1 und die andere 0 ist), beträgt der durchschnittliche Klassenwert 0,5.

Zwei perfekt ausgeglichene Klassen

Balkendiagramm mit zwei ausgeglichenen Klassen.

In vielen Fällen sind Klassen unausgeglichen. Dies kann dazu führen, dass das Modell mehr über die Mehrheitsklasse als über die Minderheitsklasse lernt.

Beispiel für unausgeglichene Klassen

Balkendiagramm mit unausgeglichenen Klassen.

Proportionale Verzerrung

Ein Modell kann sehr genau sein, indem die Mehrheitsklasse in unausgeglichenen Daten erraten wird. Wenn beispielsweise 95 Prozent der Website-Besucher nichts kaufen, kann ein Modell zu 95 Prozent genau sein, das besagt, dass niemand etwas kauft. Das Modell lernt Informationen über die Mehrheitsklasse, aber es ist oft wichtiger, etwas über die Minderheitsklasse zu lernen. Das ist zum Beispiel die Frage, warum die anderen 5 Prozent der Website-Besucher doch etwas kaufen.

Auswirkungen des Klassenausgleichs

Durch den Klassenausgleich Ihrer Daten können Sie ein Modell erhalten, das stärker auf Features fokussiert ist und mehr über die Minderheitsklasse gelernt hat. Zu den möglichen Auswirkungen auf das Modell zählen:

  • Höherer F1-Score, da sich das Gewicht der Minderheitsklasse erhöht hat.

  • Geringfügig niedrigerer allgemeiner Genauigkeits-Score, da er sich nicht so stark auf die proportionale Verzerrung stützt.

  • Ein informativeres Modell, da es sich mehr auf Features stützt und zeigt, wie die Klassen als getrennt unterschieden werden. Die SHAP-Werte können in einem ausgeglichenen Klassenmodell informativer sein.

Beachten Sie, dass der Klassenausgleich in kleinen Datensätzen zu einem Verlust von Featuredaten führen kann. Durch das Ändern der Proportionen im Datensatz können auch Informationen verloren gehen, was die Modellvorhersagen verzerren kann.

Durchführen eines Klassenausgleichs

Für einen Klassenausgleich Ihrer Daten müssen Sie zunächst ermitteln, welcher Ausgleich für Ihren konkreten Geschäftsfall am besten geeignet ist. Das Verhältnis könnte in jedem Bereich von 80/20 bis 50/50 liegen. Gleichen Sie nur so viel wie nötig aus, denn ein zu starker Klassenausgleich kann zu einem überangepassten Modell führen. Testen Sie das Modell dann mit manuellen Holdouts.

Oversampling

Oversampling ist oft erforderlich, wenn Ihre Minderheitenklasse nicht über genügend Daten verfügt.

Beim Oversampling werden Datensätze hinzugefügt, um die Minderheitsklasse darzustellen. Konkret geht es darum, mehrere Stichproben der Minderheitenklasse zu nehmen und sie dem ursprünglichen Datensatz hinzuzufügen.

Das Ergebnis ist ein Datensatz, in dem die Mehrheits- und Minderheitsklassen ausgewogener sind.

Oversampling der Minderheitsklasse (blau), um einen Ausgleich mit der Mehrheitsklasse (grün) zu erzielen

Darstellung des Oversamplings

Undersampling

Verwenden Sie Undersampling, wenn Sie zu viele Daten haben, insbesondere für die Mehrheitsklasse.

Beim Undersampling werden zufällige Stichproben der Mehrheitsklasse genommen, sodass sie gegenüber der Minderheitsklasse ausgeglichener ist. Die Abbildung zeigt, wie Stichproben aus der Mehrheitsklasse im Originaldatensatz genommen werden, um einen Datensatz mit ausgeglichenen Klassen zu erhalten.

Undersampling der Mehrheitsklasse (blau), um einen Ausgleich mit der Minderheitsklasse (grün) zu erzielen

Darstellung des Undersampling.

Automatischer Klassenausgleich in Qlik Predict

Dieses Hilfethema beschreibt vor allem, wie Sie bei Bedarf manuell einen Klassenausgleich durchführen können. Wenn Sie Modelle mit intelligenter Modelloptimierung trainieren (standardmäßig in neuen ML-Experimenten aktiviert), führt Qlik Predict während des Trainingsprozesses automatisch einen Klassenausgleich durch.

Weitere Informationen über die Erkennung von Ungleichgewichten und die verwendete spezifische Verarbeitung finden Sie unter Klassenausgleich.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!