Skalowanie cechy
Cechy to kolumny w zestawie danych, które służą do predykcji wartości celu. Wartości danych cech często mają różne zakresy. Skalowanie cech umożliwia standaryzację zakresu wartości w kolumnach liczbowych, aby uzyskać równomierny rozkład wartości. Umożliwia to powiązanie wartości, których w inny sposób nie można powiązać.
Załóżmy, że próbujemy przewidzieć, czy właściciel domu nie spłaci kredytu hipotecznego. W tym przypadku stopa odsetek i wartość domu będą miały bardzo różne zakresy i wielkości. Standaryzacja każdej z tych wartości względem siebie pozwala na ich matematyczną reprezentację na tej samej płaszczyźnie. Może to zwiększyć zarówno dokładność, jak i szybkość uczenia modelu.
Jak działa skalowanie cech
Powszechną praktyką w przypadku skalowania cech jest obliczanie średniej i odchylenia standardowego dla każdej kolumny. Następnie dla każdego wiersza oblicza się liczbę odchyleń standardowych od średniej.
Tę koncepcję i praktykę ilustruje tabela z kolumnami InitialOrderValue i DaysToConvert.
Tabela z oryginalnymi danymi. Istnieje duża różnica między zakresami w obydwu kolumnach.

Dla kolumn obliczana jest wartość średnia i odchylenie standardowe. Wartości tych możemy użyć do skalowania oryginalnych wartości pod kątem cechy. Wartość przeskalowana pod kątem cechy to różnica między wartością pierwotną a średnią podzieloną przez odchylenie standardowe.
Wartość średnia i odchylenie standardowe

W przypadku pierwszego rekordu w naszej tabeli, Person_1, wartość pierwszego zamówienia wynosi $45,37. Średnia dla wartości pierwszego zamówienia wynosi $32,81, a odchylenie standardowe $13,58. Daje nam to wartość przeskalowaną pod kątem cechy: ($45,37 - $32,81)/$13,58 = 0,925
Zauważ, że jednostki ($) są redukowane przez dzielenie. Oznacza to, że 0,925 nie jest już mierzone w dolarach, ale we względnych odchyleniach standardowych od średniej. Kiedy zastosujemy to do obu kolumn, znajdą się one teraz na tej samej płaszczyźnie opisowej. W poniższej tabeli przedstawiono wartości skalowane pod kątem cechy.
Tabela z danymi skalowanymi pod kątem cechy

Różnica między pierwotnymi wartościami a wartościami skalowanymi pod kątem cechy została zwizualizowana na następujących wykresach pudełkowych.
Wykresy pudełkowe pierwotnych danych

Wykresy pudełkowe danych skalowanych pod kątem cech
