Skalning av funktioner
Funktioner är de kolumner i din datauppsättning som används för att förutsäga ett målvärde. Datavärdena för funktionerna har ofta varierande intervall. Med funktionsskalning standardiseras intervallet av värden i numeriska kolumner för att fördela värdena jämnt. Detta gör det möjligt att relatera värden som annars inte kan relateras till varandra.
Säg att vi försöker förutsäga om en husägare inte kommer att betala sitt lån. I det här fallet kommer räntan och bostadens värde att ha mycket olika intervall och storlekar. Genom att standardisera vart och ett av dessa värden i förhållande till sig själva kan de representeras matematiskt på samma plan. Detta kan öka både noggrannheten och hastigheten i modellträningen.
Hur fungerar skalning av funktioner?
En vanlig metod för skalning av funktioner är att beräkna medelvärde och standardavvikelse för varje kolumn. Beräkna sedan för varje rad antalet standardavvikelser från medelvärdet.
För att illustrera detta koncept och denna praxis har vi en tabell med kolumnerna InitialOrderValue och DaysToConvert.
Medelvärdet och standardavvikelsen beräknas för kolumnerna. Vi kan använda dessa värden för att funktionsskala de ursprungliga värdena. Det funktionsskalade värdet är skillnaden mellan det ursprungliga värdet och medelvärdet dividerat med standardavvikelsen.
För den första posten i vår tabell, Person_1, är det initiala beställningsvärdet 45,37 dollar. Medelvärdet för det initiala beställningsvärdet är 32,81 dollar och standardavvikelsen är 13,58 dollar. På så sätt får vi det funktionsskalade värdet: (45,37 $ – 32,81 $) /13,58 $ = 0,925
Observera att enheterna ($) upphävs av divisionen. Detta innebär att 0,925 inte längre mäts i dollar utan i relativa standardavvikelser från medelvärdet. När vi tillämpar detta på båda kolumnerna befinner de sig nu på samma beskrivande plan. I följande tabell visas de funktionsskalade värdena.
Skillnaden mellan de ursprungliga värdena och de funktionsskalade värdena visualiseras i följande lådagram.