Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Featureskalierung

Features sind die Spalten in Ihrem Datensatz, die zum Vorhersagen eines Zielwerts verwendet werden. Die Datenwerte der Features haben oft unterschiedliche Bereiche. Durch die Featureskalierung wird der Wertebereich in numerischen Spalten standardisiert, um die Werte gleichmäßig zu verteilen. Dadurch wird es möglich, ansonsten nicht zuordenbare Werte zuzuordnen.

Beispiel: Wir möchten vorhersagen, ob ein Hausbesitzer seine Hypothek nicht bezahlen wird. In diesem Fall haben der Zinssatz und der Wert des Hauses sehr unterschiedliche Bereiche und Größen. Wenn diese Werte relativ zueinander standardisiert werden, können sie mathematisch auf der gleichen Ebene dargestellt werden. Dadurch können sich sowohl die Genauigkeit als auch die Geschwindigkeit des Modelltrainings erhöhen.

So funktioniert Featureskalierung

Häufig werden zur Featureskalierung der Mittelwert und die Standardabweichung für jede Spalte berechnet. Dann werden für jede Zeile die Anzahl der Standardabweichungen vom Mittelwert berechnet.

Um dieses Konzept zu erläutern und zu üben, nutzen wir eine Tabelle mit den Spalten „InitialOrderValue“ und „DaysToConvert“.

Tabelle mit Originaldaten. Es besteht ein großer Unterschied zwischen den Bereichen in den beiden Spalten.

Tabelle mit Beispieldaten.

Der Mittelwert und die Standardabweichung werden für die Spalten berechnet. Wir können diese Werte verwenden, um eine Featureskalierung der Originalwerte vorzunehmen. Der Wert mit Featureskalierung ist der Unterschied zwischen dem Originalwert und dem Mittelwert geteilt durch die Standardabweichung.

Mittelwert und Standardabweichung

Tabelle mit dem Mittelwert und der Standardabweichung für die Spalten „Initial_order_value“ und „Days_to_convert“.

Für den ersten Eintrag in unserer Tabelle, „Person_1“, beträgt der anfängliche Bestellwert $45.37. Das Mittel für den anfänglichen Bestellwert ist $32.81 und die Standardabweichung ist $13.58. Somit erhalten wir den folgenden Wert mit Featureskalierung: ($45.37 - $32.81)/$13.58 = 0.925

Beachten Sie, dass die Einheiten ($) aufgrund der Division entfallen. Das bedeutet, dass 0.925 nicht mehr in Dollar gemessen wird, sondern in relativen Standardabweichungen vom Mittel. Wenn wir dies auf beide Spalten anwenden, befinden sie sich jetzt auf der gleichen beschreibenden Ebene. Die folgende Tabelle zeigt die Werte mit Featureskalierung.

Tabelle mit Daten mit Featureskalierung

Tabelle mit Beispieldaten.

Der Unterschied zwischen den Originalwerten und den Werten mit Featureskalierung wird in den folgenden Boxplots visualisiert.

Boxplots der Originaldaten

Boxplots.

Boxplots der Daten mit Featureskalierung

Boxplots.

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!