Preparazione e trasformazione automatica dei dati
Il set di dati selezionato per l'esperimento viene automaticamente preelaborato per prepararlo al training del modello. Le fasi di preelaborazione comprendono la preparazione e la trasformazione dei dati. In questo modo si aumenta la qualità dei dati e si ottiene un modello che produce risultati accurati.
Per preelaborare i dati vengono utilizzate diverse tecniche di data science. La maggior parte dei passaggi viene eseguita per impostazione predefinita e funziona bene in molti casi d'uso. Sapere quali sono queste fasi predefinite, insieme ai concetti sottostanti, può aiutare a capire cosa è necessario fare con i dati per il proprio caso d'uso specifico prima di utilizzarli per il training di un modello.
Configurazione dell'esperimento
Prima di iniziare la fase di pre-elaborazione, AutoML esegue diversi passaggi di preparazione e fornisce un'anteprima del modo in cui verranno gestiti i dati. Si applicano i seguenti passaggi:
-
Le colonne nel set di dati devono essere classificate come funzionalità di tipo categorico, numerico, data o testo libero.
-
I tipi di dati float, doppio e decimale sono sempre considerati numerici.
-
Le colonne con un tipo di dati stringa, contenenti una media di meno di 50 caratteri, sono classificate come categoriche.
-
Le colonne con un tipo di dati stringa, contenenti una media di 50 o più caratteri, sono classificate come testo libero. Tuttavia, a questo livello, non è possibile garantire che le colonne siano utilizzabili come funzioni di testo libero. Ulteriori requisiti vengono verificati durante la pre-elaborazione. Vedere Fasi di pre-elaborazione.
-
I tipi di dati interi sono sempre considerati di tipo numerico.
-
I tipi di dati data e timestamp sono sempre considerati come funzionalità di tipo data. Durante la configurazione dell'esperimento, AutoML visualizza un'anteprima delle funzionalità progettate automaticamente che è possibile derivare dalla funzionalità data padre.
-
-
Verificare la sparsità, le costanti e la cardinalità elevata in ogni colonna. Escludere la colonna se:
-
La colonna è nulla al 50% o più. L'eliminazione dei record che contengono un valore nullo per una funzione può portare all'eliminazione di esempi di training altrimenti utili. In alternativa, l'imputazione dei valori può salvare l'esempio, ma il record diventa solo un'approssimazione della realtà. Pertanto, spesso è meglio escludere le funzioni con un numero elevato (oltre il 50%) di valori nulli. Si noti che 0 non è mai considerato nullo.
-
La colonna ha lo stesso valore in ogni riga (costante); in altre parole, la colonna ha una bassa cardinalità. Le funzioni con un solo valore non hanno alcun valore di previsione.
-
La colonna è categorica e il 90% o più dei suoi valori sono univoci (cardinalità elevata). Un numero eccessivo di valori unici rende difficile la generalizzazione del modello al di là del set di dati di training.
-
È possibile regolare la modalità di gestione dei dati una volta iniziata la fase di pre-elaborazione.
Fasi di pre-elaborazione
Dopo aver selezionato una colonna di destinazione, le righe in cui il valore target è nullo vengono identificate e separate, lasciando le righe in cui il target è noto come set di training. Nelle fasi successive vengono utilizzati solo i dati del set di dati di training per prendere le decisioni. Le fasi, insieme ai metadati, saranno salvate e applicate a qualsiasi nuovo dato su cui il modello possa fare previsioni.
La pre-elaborazione viene eseguita sulle funzioni incluse ogni volta che si esegue una nuova versione dell'esperimento.
-
Calcolare e salvare la media per i valori numerici e la modalità per i valori di tipo categorico.
-
Imputare i valori mancanti. Per ulteriori informazioni, vedere Imputazione di valori nulli.
-
Codificare le variabili di tipo categorico.
-
Generare nuove funzionalità dalle colonne esistenti nel set di dati. Queste nuove funzionalità progettate automaticamente possono migliorare le prestazioni e le capacità predittive dei modelli creati.
Le colonne identificate come possibile testo libero vengono controllate per verificare la lunghezza media delle parole. Se la colonna ha una lunghezza media maggiore di cinque parole, può essere codificata come testo libero utilizzando l'ingegneria automatica delle funzioni. In caso contrario, viene visualizzato un avviso. Se non è utilizzabile come testo libero, la funzione non dovrebbe essere deselezionata se ha una cardinalità elevata.
-
Calcolare e salvare le statistiche di riepilogo per ogni colonna da utilizzare per lo scaling delle funzioni.
-
Standardizzare ogni colonna con lo scaling delle funzioni.
-
Utilizzare il controllo automatico dei dati di training e la convalida incrociata a cinque fold. Per ulteriori informazioni, vedere Dati di controllo e convalida incrociata.