Codifica categoriale
La maggior parte degli algoritmi di machine learning richiede che le variabili siano numeriche. Poiché un valore categoriale non ha una relazione chiaramente misurabile con gli altri valori della stessa colonna, deve prima essere convertito in una rappresentazione numerica da misurare con la matematica. AutoML utilizza la codifica categoriale per trasformare i valori categoriali nelle colonne delle caratteristiche in valori numerici comprensibili agli algoritmi di machine learning.
AutoML utilizza due metodi di codifica: impact encoding e one-hot encoding. Il metodo utilizzato per una particolare caratteristica dipende dalle dimensioni del set di dati e dal numero di valori categoriali unici.
-
Per i set di dati con 100 o meno colonne:
-
Le caratteristiche categoriali con 13 o meno valori unici sono di tipo one-hot encoded.
-
Le caratteristiche categoriali con più di 13 valori unici sono di tipo impact encoded.
-
-
Per i set di dati con più di 100 colonne, tutte le colonne categoriali sono di tipo impact encoded.
È possibile vedere quali caratteristiche del set di dati vengono elaborate utilizzando la codifica categoriale consultando la vista schema durante la configurazione dell'esperimento ML. Per ulteriori informazioni, vedere Configurazione di esperimenti.
Come funziona la codifica categoriale
Una tecnica comune per fornire una rappresentazione matematica a una categoria è la one-hot encoding. La one-hot encoding inserisce la colonna categoriale nel numero di colonne n, in cui n equivale al numero di valori univoci nella colonna. Il numero 1 viene assegnato alla colonna appropriata per ogni riga e lo 0 alle altre colonne generate per la categoria. La codifica categoriale consente di valutare ogni variabile unica indipendentemente dalle altre, a differenza di un valore numerico che viene valutato in termini relativi rispetto agli altri valori della colonna.
L'esempio della tabella mostra come la colonna categoriale MarketingSource sia di tipo one-hot encoded. Il risultato è costituito da quattro nuove colonne, una per ogni singola fonte di marketing. Nella prima riga, Person_1 ha come fonte di marketing "Facebook". Questa è rappresentata da 1 nella nuova colonna Facebook e da 0 nelle altre colonne.