Preparazione e trasformazione automatica dei dati

Il set di dati selezionato per l'esperimento viene automaticamente preelaborato per prepararlo all'addestramento del modello. Le fasi di preelaborazione comprendono la preparazione e la trasformazione dei dati. In questo modo si aumenta la qualità dei dati e si ottiene un modello che produce risultati accurati.

Per preelaborare i dati vengono utilizzate diverse tecniche di data science. La maggior parte dei passaggi viene eseguita per impostazione predefinita e funziona bene in molti casi d'uso. Sapere quali sono queste fasi predefinite, insieme ai concetti sottostanti, può aiutare a capire cosa è necessario fare con i dati per il proprio caso d'uso specifico prima di utilizzarli per l'addestramento di un modello.

Configurazione dell'esperimento

Prima di iniziare la fase di pre-elaborazione, Qlik Predict esegue diversi passaggi di preparazione e fornisce un'anteprima del modo in cui verranno gestiti i dati. Alcuni passaggi dipendono dal tipo di esperimento e da altri fattori. Potrebbero applicarsi i seguenti passaggi:

Le colonne nel set di dati devono essere classificate come funzionalità di tipo categorico, numerico, data o testo libero.
- I tipi di dati float, doppio e decimale sono sempre considerati numerici.
- Le colonne con un tipo di dati stringa, contenenti una media di meno di 50 caratteri, sono classificate come categoriche.
- Le colonne con un tipo di dati stringa, contenenti una media di 50 o più caratteri, sono classificate come testo libero. Tuttavia, a questo livello, non è possibile garantire che le colonne siano utilizzabili come funzioni di testo libero. Ulteriori requisiti vengono verificati durante la pre-elaborazione. Vedere Fasi di pre-elaborazione.
- I tipi di dati interi sono sempre considerati di tipo numerico.
- I tipi di dati data e timestamp sono sempre considerati come funzionalità di tipo data. Durante la configurazione dell'esperimento, Qlik Predict visualizza un'anteprima delle funzionalità progettate automaticamente che è possibile derivare dalla funzionalità data padre.
Verificare la sparsità, le costanti e la cardinalità elevata in ogni colonna. Escludere la colonna se:
- La colonna è nulla al 50% o più. L'eliminazione dei record che contengono un valore nullo per una funzione può portare all'eliminazione di esempi di addestramento altrimenti utili. In alternativa, l'imputazione dei valori può salvare l'esempio, ma il record diventa solo un'approssimazione della realtà. Pertanto, spesso è meglio escludere le funzioni con un numero elevato (oltre il 50%) di valori nulli. Si noti che 0 non è mai considerato nullo.
- La colonna ha lo stesso valore in ogni riga (costante); in altre parole, la colonna ha una bassa cardinalità. Le caratteristiche con un solo valore non hanno alcun valore di previsione.
- La colonna è categorica e il 90% o più dei suoi valori sono univoci (cardinalità elevata). Un numero eccessivo di valori unici rende difficile la generalizzazione del modello al di là del set di dati di addestramento.

È possibile regolare la modalità di gestione dei dati una volta iniziata la fase di pre-elaborazione.

Fasi di pre-elaborazione

Dopo aver selezionato una colonna di destinazione, i passaggi successivi dipendono dal tipo di esperimento. Per i modelli di classificazione e regressione, le righe in cui il valore di destinazione è nullo vengono identificate e separate, lasciando le righe in cui la destinazione è nota come set di addestramento. Per gli esperimenti di serie temporali, i valori di destinazione mancanti vengono interpolati.

Nelle fasi successive vengono utilizzati solo i dati del set di dati di addestramento per prendere le decisioni. Le fasi, insieme ai metadati, saranno salvate e applicate a qualsiasi nuovo dato su cui il modello possa fare previsioni.

La pre-elaborazione viene eseguita sulle funzioni incluse ogni volta che si esegue una nuova versione dell'esperimento. Alcuni passaggi dipendono dal tipo di esperimento e da altri fattori.

Calcolare e salvare la media per i valori numerici e la modalità per i valori categoriali.
Imputare i valori mancanti. Per ulteriori informazioni, vedere Imputazione di null.
Codificare le variabili categoriali.
Per i modelli di serie temporali, viene eseguita una serie di passaggi per convalidare le proprietà dell'esperimento configurate dall'utente e per fornire informazioni aggiuntive all'utente dopo il completamento dell'addestramento:
- Viene determinata la finestra di previsione massima.
- Viene confermata la fase temporale dell'indice data.
- I raggruppamenti di destinazione selezionati dall'utente vengono convalidati o, se non sono specificati, vengono identificati se presenti nelle funzioni categoriche incluse.
Generare nuove funzionalità dalle colonne esistenti nel set di dati. Queste nuove funzionalità progettate automaticamente possono migliorare le prestazioni e le capacità predittive dei modelli creati.

Le colonne identificate come possibile testo libero vengono controllate per verificare la lunghezza media delle parole. Se la colonna ha una lunghezza media maggiore di cinque parole, può essere codificata come testo libero utilizzando l'ingegneria automatica delle funzioni. In caso contrario, viene visualizzato un avviso. Se non è utilizzabile come testo libero, la funzione non dovrebbe essere deselezionata se ha una cardinalità elevata.
Calcolare e salvare le statistiche di riepilogo per ogni colonna da utilizzare per lo scaling delle caratteristiche.
Standardizzare ogni colonna con lo scaling delle funzioni.
Eseguire l'analisi sulle funzionalità che sono state selezionate per il rilevamento dei bias, restituendo metriche di bias dei dati e insight corrispondenti. Per ulteriori informazioni, vedere Rilevamento dei bias nei modelli di machine learning.
Utilizzare il controllo automatico dei dati di addestramento e la convalida incrociata a cinque fold. Per ulteriori informazioni, vedere Dati di controllo e convalida incrociata.
Calcola varie statistiche sul set di dati con maggiore certezza. Ad esempio, nuove informazioni potrebbero essere disponibili sulle dimensioni del set di dati, sul numero di righe e celle e sulle proporzioni di valori nulli. Per ulteriori informazioni, vedere Dataset di training e limitazioni di profilazione.

Ulteriori informazioni

Ingegneria automatica delle funzionalità

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback