Ga naar hoofdinhoud Ga naar aanvullende inhoud

Schaalbaarheid kenmerk

Kenmerken zijn de kolommen in uw gegevensverzameling die worden gebruikt om een doelwaarde te voorspellen. De gegevenswaarden van de kenmerken hebben vaak variërende reeksen. De schaalbaarheid van een kenmerk standaardiseert de reeks waarden in numerieke kolommen om de waarden gelijk te verdelen. Dit maakt het mogelijk om verbanden te leggen tussen waarden waar dat anders niet mogelijk zou zijn.

Stel dat we proberen te voorspellen of een huiseigenaar zijn hypotheek niet meer kan betalen. In dat geval zullen het rentepercentage en de waarde van de woning een heel verschillend bereik en een heel andere omvang hebben. Door elk van deze waarden relatief ten opzichte van zichzelf te standaardiseren, kunnen ze mathematisch langs dezelfde lijn worden vertegenwoordigd. Dit kan zowel de nauwkeurigheid als de snelheid van de modeltraining vergroten.

Hoe werkt de schaalbaarheid van een kenmerk?

Het is gangbaar voor schaalbaarheid van een kenmerk om te berekenen wat de gemiddelde en de standaardafwijking per kolom zijn. Bereken vervolgens voor iedere rij het aantal standaardafwijkingen vanaf het gemiddelde.

Om dit concept en de werkwijze te illustreren, gebruiken we een tabel met de kolommen InitialOrderValue en DaysToConvert.

Tabel met originele gegevens. Er is een groot verschil tussen de reeksen in de twee kolommen.

Tabel met voorbeeldgegevens.

De gemiddelde waarde en de standaardafwijking worden voor de kolommen berekend. We kunnen deze waarden gebruiken om de schaal van het kenmerk af te stemmen op de oorspronkelijke waarden. De waarde van het geschaalde kenmerk is het verschil tussen de oorspronkelijke waarde en het gemiddelde, gedeeld door de standaardafwijking.

Gemiddelde waarde en standaardafwijking

Tabel met de gemiddelde waarde en de standaardafwijking voor de kolommen Initial_order_value en Days_to_convert.

Voor de eerste record in onze tabel, Person_1, is de aanvankelijke bestelwaarde $ 45,37. De gemiddelde waarde van de aanvankelijke bestelwaarde is $ 32,81 en de standaardafwijking is $ 13,58. Dit levert een kenmerkgeschaalde waarde op van: ($ 45,37 - $ 32,81)/$ 13,58 = 0,925

Merk op dat de eenheden ($) worden opgeheven door de verdeling. Dit betekent dat 0,925 niet meer in dollars wordt gemeten, maar in relatieve standaardafwijkingen vanaf het gemiddelde. Wanneer we dit toepassen op beide kolommen, staan ze nu op hetzelfde beschrijvende niveau. De volgende tabel toont de kenmerkgeschaalde waarden.

Tabel met kenmerkgeschaalde gegevens

Tabel met voorbeeldgegevens.

Het verschil tussen de oorspronkelijke waarden en de kenmerkgeschaalde waarden wordt inzichtelijk gemaakt door de volgende boxplots.

Boxplots van oorspronkelijke gegevens

Boxplots.

Boxplots van kenmerkgeschaalde gegevens

Boxplots.

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!