Featureskalierung
Features sind die Spalten in Ihrem Datensatz, die zum Vorhersagen eines Zielwerts verwendet werden. Die Datenwerte der Features haben oft unterschiedliche Bereiche. Durch die Featureskalierung wird der Wertebereich in numerischen Spalten standardisiert, um die Werte gleichmäßig zu verteilen. Dadurch wird es möglich, ansonsten nicht zuordenbare Werte zuzuordnen.
Beispiel: Wir möchten vorhersagen, ob ein Hausbesitzer seine Hypothek nicht bezahlen wird. In diesem Fall haben der Zinssatz und der Wert des Hauses sehr unterschiedliche Bereiche und Größen. Wenn diese Werte relativ zueinander standardisiert werden, können sie mathematisch auf der gleichen Ebene dargestellt werden. Dadurch können sich sowohl die Genauigkeit als auch die Geschwindigkeit des Modelltrainings erhöhen.
So funktioniert Featureskalierung
Häufig werden zur Featureskalierung der Mittelwert und die Standardabweichung für jede Spalte berechnet. Dann werden für jede Zeile die Anzahl der Standardabweichungen vom Mittelwert berechnet.
Um dieses Konzept zu erläutern und zu üben, nutzen wir eine Tabelle mit den Spalten „InitialOrderValue“ und „DaysToConvert“.
Der Mittelwert und die Standardabweichung werden für die Spalten berechnet. Wir können diese Werte verwenden, um eine Featureskalierung der Originalwerte vorzunehmen. Der Wert mit Featureskalierung ist der Unterschied zwischen dem Originalwert und dem Mittelwert geteilt durch die Standardabweichung.
Für den ersten Eintrag in unserer Tabelle, „Person_1“, beträgt der anfängliche Bestellwert $45.37. Das Mittel für den anfänglichen Bestellwert ist $32.81 und die Standardabweichung ist $13.58. Somit erhalten wir den folgenden Wert mit Featureskalierung: ($45.37 - $32.81)/$13.58 = 0.925
Beachten Sie, dass die Einheiten ($) aufgrund der Division entfallen. Das bedeutet, dass 0.925 nicht mehr in Dollar gemessen wird, sondern in relativen Standardabweichungen vom Mittel. Wenn wir dies auf beide Spalten anwenden, befinden sie sich jetzt auf der gleichen beschreibenden Ebene. Die folgende Tabelle zeigt die Werte mit Featureskalierung.
Der Unterschied zwischen den Originalwerten und den Werten mit Featureskalierung wird in den folgenden Boxplots visualisiert.