Scaling delle caratteristiche
Le caratteristiche sono le colonne del set di dati utilizzate per prevedere un valore target. I valori dei dati delle caratteristiche hanno spesso intervalli variabili. Lo scaling delle caratteristiche standardizza l'intervallo di valori nelle colonne numeriche per distribuire i valori in modo uniforme. In questo modo è possibile mettere in relazione valori altrimenti non correlabili.
Supponiamo che stiamo cercando di prevedere se un proprietario di casa sarà inadempiente sul suo mutuo. In questo caso, il tasso di interesse e il valore della casa avranno intervalli e ampiezze molto diverse. La standardizzazione di ciascuno di questi valori rispetto a loro stessi consente di rappresentarli matematicamente lungo lo stesso piano. Ciò può aumentare sia l'accuratezza che la velocità di training del modello.
Come funziona lo scaling delle caratteristiche
Una pratica comune per lo scaling delle caratteristiche consiste nel calcolare la media e la deviazione standard per ogni colonna. Quindi, per ogni riga, si calcola il numero di deviazioni standard rispetto alla media.
Per illustrare questo concetto e la pratica, utilizziamo una tabella con le colonne InitialOrderValue e DaysToConvert.
Per le colonne vengono calcolati il valore medio e la deviazione standard. Possiamo usare questi valori per scalare i valori originali. Il valore con scaling delle caratteristiche è la differenza tra il valore originale e la media divisa per la deviazione standard.
Per il primo record della tabella, Person_1, il valore iniziale dell'ordine è di 45,37 dollari. La media del valore dell'ordine iniziale è di 32,81 dollari e la deviazione standard di 13,58 dollari. Questo ci dà il valore con scaling delle caratteristiche: ($45,37 - $32,81)/$13,58 = 0,925
Si noti che le unità ($) sono annullate dalla divisione. Ciò significa che il valore 0,925 non è più misurato in dollari, ma in deviazioni standard relative dalla media. Se applichiamo questo metodo a entrambe le colonne, esse si trovano ora sullo stesso piano descrittivo. La tabella seguente mostra i valori con scaling delle caratteristiche.
La differenza tra i valori originali e i valori con scaling delle caratteristiche è visualizzata nei seguenti box plot.