Schaalbaarheid kenmerk
Kenmerken zijn de kolommen in uw gegevensverzameling die worden gebruikt om een doelwaarde te voorspellen. De gegevenswaarden van de kenmerken hebben vaak variërende reeksen. De schaalbaarheid van een kenmerk standaardiseert de reeks waarden in numerieke kolommen om de waarden gelijk te verdelen. Dit maakt het mogelijk om verbanden te leggen tussen waarden waar dat anders niet mogelijk zou zijn.
Stel dat we proberen te voorspellen of een huiseigenaar zijn hypotheek niet meer kan betalen. In dat geval zullen het rentepercentage en de waarde van de woning een heel verschillend bereik en een heel andere omvang hebben. Door elk van deze waarden relatief ten opzichte van zichzelf te standaardiseren, kunnen ze mathematisch langs dezelfde lijn worden vertegenwoordigd. Dit kan zowel de nauwkeurigheid als de snelheid van de modeltraining vergroten.
Hoe werkt de schaalbaarheid van een kenmerk?
Het is gangbaar voor schaalbaarheid van een kenmerk om te berekenen wat de gemiddelde en de standaardafwijking per kolom zijn. Bereken vervolgens voor iedere rij het aantal standaardafwijkingen vanaf het gemiddelde.
Om dit concept en de werkwijze te illustreren, gebruiken we een tabel met de kolommen InitialOrderValue en DaysToConvert.
De gemiddelde waarde en de standaardafwijking worden voor de kolommen berekend. We kunnen deze waarden gebruiken om de schaal van het kenmerk af te stemmen op de oorspronkelijke waarden. De waarde van het geschaalde kenmerk is het verschil tussen de oorspronkelijke waarde en het gemiddelde, gedeeld door de standaardafwijking.
Voor de eerste record in onze tabel, Person_1, is de aanvankelijke bestelwaarde $ 45,37. De gemiddelde waarde van de aanvankelijke bestelwaarde is $ 32,81 en de standaardafwijking is $ 13,58. Dit levert een kenmerkgeschaalde waarde op van: ($ 45,37 - $ 32,81)/$ 13,58 = 0,925
Merk op dat de eenheden ($) worden opgeheven door de verdeling. Dit betekent dat 0,925 niet meer in dollars wordt gemeten, maar in relatieve standaardafwijkingen vanaf het gemiddelde. Wanneer we dit toepassen op beide kolommen, staan ze nu op hetzelfde beschrijvende niveau. De volgende tabel toont de kenmerkgeschaalde waarden.
Het verschil tussen de oorspronkelijke waarden en de kenmerkgeschaalde waarden wordt inzichtelijk gemaakt door de volgende boxplots.