Skalowanie cechy
Cechy to kolumny w zestawie danych, które służą do predykcji wartości celu. Wartości danych cech często mają różne zakresy. Skalowanie cech umożliwia standaryzację zakresu wartości w kolumnach liczbowych, aby uzyskać równomierny rozkład wartości. Umożliwia to powiązanie wartości, których w inny sposób nie można powiązać.
Załóżmy, że próbujemy przewidzieć, czy właściciel domu nie spłaci kredytu hipotecznego. W tym przypadku stopa odsetek i wartość domu będą miały bardzo różne zakresy i wielkości. Standaryzacja każdej z tych wartości względem siebie pozwala na ich matematyczną reprezentację na tej samej płaszczyźnie. Może to zwiększyć zarówno dokładność, jak i szybkość uczenia modelu.
Jak działa skalowanie cech
Powszechną praktyką w przypadku skalowania cech jest obliczanie średniej i odchylenia standardowego dla każdej kolumny. Następnie dla każdego wiersza oblicza się liczbę odchyleń standardowych od średniej.
Tę koncepcję i praktykę ilustruje tabela z kolumnami InitialOrderValue i DaysToConvert.
Dla kolumn obliczana jest wartość średnia i odchylenie standardowe. Wartości tych możemy użyć do skalowania oryginalnych wartości pod kątem cechy. Wartość przeskalowana pod kątem cechy to różnica między wartością pierwotną a średnią podzieloną przez odchylenie standardowe.
W przypadku pierwszego rekordu w naszej tabeli, Person_1, wartość pierwszego zamówienia wynosi $45,37. Średnia dla wartości pierwszego zamówienia wynosi $32,81, a odchylenie standardowe $13,58. Daje nam to wartość przeskalowaną pod kątem cechy: ($45,37 - $32,81)/$13,58 = 0,925
Zauważ, że jednostki ($) są redukowane przez dzielenie. Oznacza to, że 0,925 nie jest już mierzone w dolarach, ale we względnych odchyleniach standardowych od średniej. Kiedy zastosujemy to do obu kolumn, znajdą się one teraz na tej samej płaszczyźnie opisowej. W poniższej tabeli przedstawiono wartości skalowane pod kątem cechy.
Różnica między pierwotnymi wartościami a wartościami skalowanymi pod kątem cechy została zwizualizowana na następujących wykresach pudełkowych.