Vai al contenuto principale Passa a contenuto complementare

Scaling delle caratteristiche

Le caratteristiche sono le colonne del set di dati utilizzate per prevedere un valore target. I valori dei dati delle caratteristiche hanno spesso intervalli variabili. Lo scaling delle caratteristiche standardizza l'intervallo di valori nelle colonne numeriche per distribuire i valori in modo uniforme. In questo modo è possibile mettere in relazione valori altrimenti non correlabili.

Supponiamo che stiamo cercando di prevedere se un proprietario di casa sarà inadempiente sul suo mutuo. In questo caso, il tasso di interesse e il valore della casa avranno intervalli e ampiezze molto diverse. La standardizzazione di ciascuno di questi valori rispetto a loro stessi consente di rappresentarli matematicamente lungo lo stesso piano. Ciò può aumentare sia l'accuratezza che la velocità di training del modello.

Come funziona lo scaling delle caratteristiche

Una pratica comune per lo scaling delle caratteristiche consiste nel calcolare la media e la deviazione standard per ogni colonna. Quindi, per ogni riga, si calcola il numero di deviazioni standard rispetto alla media.

Per illustrare questo concetto e la pratica, utilizziamo una tabella con le colonne InitialOrderValue e DaysToConvert.

Tabella con i dati originali. C'è una grande differenza tra gli intervalli delle due colonne.

Tabella con dati campione.

Per le colonne vengono calcolati il valore medio e la deviazione standard. Possiamo usare questi valori per scalare i valori originali. Il valore con scaling delle caratteristiche è la differenza tra il valore originale e la media divisa per la deviazione standard.

Valore medio e deviazione standard

Tabella con la media e la deviazione standard per le colonne Initial_order_value e Days_to_convert.

Per il primo record della tabella, Person_1, il valore iniziale dell'ordine è di 45,37 dollari. La media del valore dell'ordine iniziale è di 32,81 dollari e la deviazione standard di 13,58 dollari. Questo ci dà il valore con scaling delle caratteristiche: ($45,37 - $32,81)/$13,58 = 0,925

Si noti che le unità ($) sono annullate dalla divisione. Ciò significa che il valore 0,925 non è più misurato in dollari, ma in deviazioni standard relative dalla media. Se applichiamo questo metodo a entrambe le colonne, esse si trovano ora sullo stesso piano descrittivo. La tabella seguente mostra i valori con scaling delle caratteristiche.

Tabella con i dati con scaling delle caratteristiche

Tabella con dati campione.

La differenza tra i valori originali e i valori con scaling delle caratteristiche è visualizzata nei seguenti box plot.

Box plot di dati originali

Box plot.

Box plot di dati con scaling delle caratteristiche

Box plot.

Ulteriori informazioni

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!