NA TEJ STRONIE

Przeskocz do zawartości głównej

CZY TA STRONA BYŁA POMOCNA?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Skalowanie cechy

Cechy to kolumny w zestawie danych, które służą do predykcji wartości celu. Wartości danych cech często mają różne zakresy. Skalowanie cech umożliwia standaryzację zakresu wartości w kolumnach liczbowych, aby uzyskać równomierny rozkład wartości. Umożliwia to powiązanie wartości, których w inny sposób nie można powiązać.

Załóżmy, że próbujemy przewidzieć, czy właściciel domu nie spłaci kredytu hipotecznego. W tym przypadku stopa odsetek i wartość domu będą miały bardzo różne zakresy i wielkości. Standaryzacja każdej z tych wartości względem siebie pozwala na ich matematyczną reprezentację na tej samej płaszczyźnie. Może to zwiększyć zarówno dokładność, jak i szybkość uczenia modelu.

Jak działa skalowanie cech

Powszechną praktyką w przypadku skalowania cech jest obliczanie średniej i odchylenia standardowego dla każdej kolumny. Następnie dla każdego wiersza oblicza się liczbę odchyleń standardowych od średniej.

Tę koncepcję i praktykę ilustruje tabela z kolumnami InitialOrderValue i DaysToConvert.

Tabela z danymi przykładowymi. — Tabela z oryginalnymi danymi. Istnieje duża różnica między zakresami w obydwu kolumnach.

Dla kolumn obliczana jest wartość średnia i odchylenie standardowe. Wartości tych możemy użyć do skalowania oryginalnych wartości pod kątem cechy. Wartość przeskalowana pod kątem cechy to różnica między wartością pierwotną a średnią podzieloną przez odchylenie standardowe.

Tabela ze średnią i odchyleniem standardowym dla kolumn Initial_order_value i Days_to_convert. — Wartość średnia i odchylenie standardowe

W przypadku pierwszego rekordu w naszej tabeli, Person_1, wartość pierwszego zamówienia wynosi $45,37. Średnia dla wartości pierwszego zamówienia wynosi $32,81, a odchylenie standardowe $13,58. Daje nam to wartość przeskalowaną pod kątem cechy: ($45,37 - $32,81)/$13,58 = 0,925

Zauważ, że jednostki ($) są redukowane przez dzielenie. Oznacza to, że 0,925 nie jest już mierzone w dolarach, ale we względnych odchyleniach standardowych od średniej. Kiedy zastosujemy to do obu kolumn, znajdą się one teraz na tej samej płaszczyźnie opisowej. W poniższej tabeli przedstawiono wartości skalowane pod kątem cechy.

Różnica między pierwotnymi wartościami a wartościami skalowanymi pod kątem cechy została zwizualizowana na następujących wykresach pudełkowych.

Wykresy pudełkowe. — Wykresy pudełkowe pierwotnych danych

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię