Egenskapsskalning

Funktioner är de kolumner i din datauppsättning som används för att förutsäga ett målvärde. Datavärdena för funktionerna har ofta varierande intervall. Med funktionsskalning standardiseras intervallet av värden i numeriska kolumner för att fördela värdena jämnt. Detta gör det möjligt att relatera värden som annars inte kan relateras till varandra.

Säg att vi försöker förutsäga om en husägare inte kommer att betala sitt lån. I det här fallet kommer räntan och bostadens värde att ha mycket olika intervall och storlekar. Genom att standardisera vart och ett av dessa värden i förhållande till sig själva kan de representeras matematiskt på samma plan. Detta kan öka både noggrannheten och hastigheten i modellträningen.

Hur fungerar skalning av funktioner?

En vanlig metod för skalning av funktioner är att beräkna medelvärde och standardavvikelse för varje kolumn. Beräkna sedan för varje rad antalet standardavvikelser från medelvärdet.

För att illustrera detta koncept och denna praxis har vi en tabell med kolumnerna InitialOrderValue och DaysToConvert.

Tabell med exempeldata. — Tabell med originaldata. Det är stor skillnad mellan intervallerna i de två kolumnerna.

Medelvärdet och standardavvikelsen beräknas för kolumnerna. Vi kan använda dessa värden för att funktionsskala de ursprungliga värdena. Det funktionsskalade värdet är skillnaden mellan det ursprungliga värdet och medelvärdet dividerat med standardavvikelsen.

Tabell med medelvärde och standardavvikelse för kolumnerna Initial_order_value och Days_to_convert. — Medelvärde och standardavvikelse

För den första posten i vår tabell, Person_1, är det initiala beställningsvärdet 45,37 dollar. Medelvärdet för det initiala beställningsvärdet är 32,81 dollar och standardavvikelsen är 13,58 dollar. På så sätt får vi det funktionsskalade värdet: (45,37 $ – 32,81 $) /13,58 $ = 0,925

Observera att enheterna ($) upphävs av divisionen. Detta innebär att 0,925 inte längre mäts i dollar utan i relativa standardavvikelser från medelvärdet. När vi tillämpar detta på båda kolumnerna befinner de sig nu på samma beskrivande plan. I följande tabell visas de funktionsskalade värdena.

Skillnaden mellan de ursprungliga värdena och de funktionsskalade värdena visualiseras i följande lådagram.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här