Gå till huvudinnehåll Gå till ytterligare innehåll

Skalning av funktioner

Funktioner är de kolumner i din datauppsättning som används för att förutsäga ett målvärde. Datavärdena för funktionerna har ofta varierande intervall. Med funktionsskalning standardiseras intervallet av värden i numeriska kolumner för att fördela värdena jämnt. Detta gör det möjligt att relatera värden som annars inte kan relateras till varandra.

Säg att vi försöker förutsäga om en husägare inte kommer att betala sitt lån. I det här fallet kommer räntan och bostadens värde att ha mycket olika intervall och storlekar. Genom att standardisera vart och ett av dessa värden i förhållande till sig själva kan de representeras matematiskt på samma plan. Detta kan öka både noggrannheten och hastigheten i modellträningen.

Hur fungerar skalning av funktioner?

En vanlig metod för skalning av funktioner är att beräkna medelvärde och standardavvikelse för varje kolumn. Beräkna sedan för varje rad antalet standardavvikelser från medelvärdet.

För att illustrera detta koncept och denna praxis har vi en tabell med kolumnerna InitialOrderValue och DaysToConvert.

Tabell med originaldata. Det är stor skillnad mellan intervallerna i de två kolumnerna.

Tabell med exempeldata.

Medelvärdet och standardavvikelsen beräknas för kolumnerna. Vi kan använda dessa värden för att funktionsskala de ursprungliga värdena. Det funktionsskalade värdet är skillnaden mellan det ursprungliga värdet och medelvärdet dividerat med standardavvikelsen.

Medelvärde och standardavvikelse

Tabell med medelvärde och standardavvikelse för kolumnerna Initial_order_value och Days_to_convert.

För den första posten i vår tabell, Person_1, är det initiala beställningsvärdet 45,37 dollar. Medelvärdet för det initiala beställningsvärdet är 32,81 dollar och standardavvikelsen är 13,58 dollar. På så sätt får vi det funktionsskalade värdet: (45,37 $ – 32,81 $) /13,58 $ = 0,925

Observera att enheterna ($) upphävs av divisionen. Detta innebär att 0,925 inte längre mäts i dollar utan i relativa standardavvikelser från medelvärdet. När vi tillämpar detta på båda kolumnerna befinner de sig nu på samma beskrivande plan. I följande tabell visas de funktionsskalade värdena.

Tabell med funktionsskalade data

Tabell med exempeldata.

Skillnaden mellan de ursprungliga värdena och de funktionsskalade värdena visualiseras i följande lådagram.

Lådagram för ursprungliga data

Lådagram.

Lådagram för funktionsskalade data

Lådagram.

Mer information

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!