Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Skalowanie cechy

Cechy to kolumny w zestawie danych, które służą do predykcji wartości celu. Wartości danych cech często mają różne zakresy. Skalowanie cech umożliwia standaryzację zakresu wartości w kolumnach liczbowych, aby uzyskać równomierny rozkład wartości. Umożliwia to powiązanie wartości, których w inny sposób nie można powiązać.

Załóżmy, że próbujemy przewidzieć, czy właściciel domu nie spłaci kredytu hipotecznego. W tym przypadku stopa odsetek i wartość domu będą miały bardzo różne zakresy i wielkości. Standaryzacja każdej z tych wartości względem siebie pozwala na ich matematyczną reprezentację na tej samej płaszczyźnie. Może to zwiększyć zarówno dokładność, jak i szybkość uczenia modelu.

Jak działa skalowanie cech

Powszechną praktyką w przypadku skalowania cech jest obliczanie średniej i odchylenia standardowego dla każdej kolumny. Następnie dla każdego wiersza oblicza się liczbę odchyleń standardowych od średniej.

Tę koncepcję i praktykę ilustruje tabela z kolumnami InitialOrderValue i DaysToConvert.

Tabela z oryginalnymi danymi. Istnieje duża różnica między zakresami w obydwu kolumnach.

Tabela z danymi przykładowymi.

Dla kolumn obliczana jest wartość średnia i odchylenie standardowe. Wartości tych możemy użyć do skalowania oryginalnych wartości pod kątem cechy. Wartość przeskalowana pod kątem cechy to różnica między wartością pierwotną a średnią podzieloną przez odchylenie standardowe.

Wartość średnia i odchylenie standardowe

Tabela ze średnią i odchyleniem standardowym dla kolumn Initial_order_value i Days_to_convert.

W przypadku pierwszego rekordu w naszej tabeli, Person_1, wartość pierwszego zamówienia wynosi $45,37. Średnia dla wartości pierwszego zamówienia wynosi $32,81, a odchylenie standardowe $13,58. Daje nam to wartość przeskalowaną pod kątem cechy: ($45,37 - $32,81)/$13,58 = 0,925

Zauważ, że jednostki ($) są redukowane przez dzielenie. Oznacza to, że 0,925 nie jest już mierzone w dolarach, ale we względnych odchyleniach standardowych od średniej. Kiedy zastosujemy to do obu kolumn, znajdą się one teraz na tej samej płaszczyźnie opisowej. W poniższej tabeli przedstawiono wartości skalowane pod kątem cechy.

Tabela z danymi skalowanymi pod kątem cechy

Tabela z danymi przykładowymi.

Różnica między pierwotnymi wartościami a wartościami skalowanymi pod kątem cechy została zwizualizowana na następujących wykresach pudełkowych.

Wykresy pudełkowe pierwotnych danych

Wykresy pudełkowe.

Wykresy pudełkowe danych skalowanych pod kątem cech

Wykresy pudełkowe.

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!