Dati di controllo e convalida incrociata

Una delle maggiori sfide dell'analisi previsionale è sapere come si comporterà un modello addestrato su dati che non ha mai visto prima. In altre parole, quanto bene il modello ha appreso i veri modelli rispetto alla semplice memorizzazione dei dati di addestramento. I dati di controllo e la convalida incrociata sono tecniche efficaci per assicurarsi che il modello non stia solo memorizzando, ma stia effettivamente imparando modelli generalizzati.

Quando si configura l'esperimento, si può scegliere se i dati di addestramento e i dati di controllo vengono suddivisi in modo casuale o con un metodo speciale utilizzato per creare modelli time-aware.

Test dei modelli per la memorizzazione rispetto alla generalizzazione

Chiedere quanto bene un modello si comporterà nel mondo reale equivale a chiedere se il modello memorizza o generalizza. La memorizzazione è la capacità di ricordare perfettamente ciò che è accaduto in passato. Sebbene un modello che memorizza possa avere punteggi elevati al momento dell'addestramento iniziale, l'accuratezza della previsione diminuisce significativamente quando viene applicato a nuovi dati. Vogliamo invece un modello che generalizzi. La generalizzazione è la capacità di apprendere e applicare modelli generali. Imparando i veri modelli più ampi dai dati di addestramento, un modello generalizzato sarà in grado di fare previsioni della stessa qualità su nuovi dati che non ha mai visto prima.

Dati di controllo automatico

I dati di controllo sono dati "nascosti" dal modello durante l'addestramento e poi utilizzati per assegnare un punteggio al modello. il controllo simula le prestazioni del modello nelle previsioni future, generando metriche di accuratezza su dati non utilizzati nell'addestramento. È come se avessimo costruito un modello, lo avessimo distribuito e stessimo monitorando le sue previsioni rispetto a ciò che è effettivamente accaduto, senza dover aspettare di osservare tali previsioni.

In Qlik Predict, esistono due metodi per selezionare i dati di controllo: il metodo predefinito e il metodo basato sul tempo.

Metodo predefinito per selezionare i dati di controllo

A meno che non si attivi l'addestramento del modello time-aware, i dati di controllo vengono selezionati in modo casuale prima dell'inizio dell'addestramento del modello.

Rapporto tra dati di addestramento e i dati di controllo nel metodo predefinito di controllo e convalida incrociata — Per impostazione predefinita, il set di dati è suddiviso in modo casuale in dati di addestramento e dati di controllo

Metodo predefinito basato sul tempo per selezionare i dati di controllo

Con il metodo basato sul tempo, l'intero set di dati di addestramento viene prima ordinato in base a una colonna con l'indice data selezionato. Dopo l'ordinamento, i dati di controllo vengono separati dal resto dei dati di addestramento. I dati di controllo contengono i dati più recenti relativi all'indice selezionato.

Il metodo temporale viene utilizzato quando si addestrano modelli time-aware e modelli di serie temporali. Per maggiori informazioni sulle opzioni di questi modelli, consultare Creazione di modelli sensibili ai valori temporali e Utilizzo degli esperimenti sulle serie temporali.

Convalida incrociata

La convalida incrociata è un processo che testa la capacità di un modello di machine learning di prevedere valori futuri per i dati che non ha ancora analizzato. Nella convalida incrociata, i dati di addestramento di un modello vengono suddivisi in un certo numero di segmenti, chiamati "fold". Durante ogni iterazione dell'addestramento, il modello viene addestrato su una o più fold, con almeno una delle fold che non può essere mai utilizzata per l'addestramento. Dopo ogni iterazione, le prestazioni vengono valutate utilizzando una delle fold che non sono state utilizzate nell'addestramento.

Il risultato della convalida incrociata è un insieme di metriche di test che forniscono una previsione ragionevole della precisione con cui il modello addestrato sarà in grado di effettuare previsioni su dati che non ha mai visto prima.

In Qlik Predict, esistono due metodi per la convalida incrociata: il metodo predefinito e il metodo basato sul tempo.

Convalida incrociata predefinita

A meno che non si configuri l'addestramento in modo da utilizzare la convalida incrociata basata sul tempo, Qlik Predict utilizza il metodo predefinito di convalida incrociata. Il metodo predefinito di convalida incrociata è adatto per i modelli che non si basano su una dimensione di serie temporale, ovvero non è necessario che il modello effettui le previsioni in base a una specifica colonna temporale nei dati di addestramento.

Nel metodo di convalida incrociata predefinito, il set di dati viene diviso in modo casuale in un numero di segmenti pari, chiamati fold. L'algoritmo di machine learning addestra il modello in base a tutte le fold tranne una. La convalida incrociata testa quindi ciascun fold rispetto a un modello addestrato su tutti gli altri fold. Ciò significa che ogni modello addestrato viene testato su un segmento di dati che non ha mai visto prima. Il processo viene ripetuto con un fold diverso nascosto durante l'addestramento e poi testato fino a quando tutti i fold sono stati utilizzati esattamente una volta come test e sono stati addestrati durante ogni altra iterazione.

Controllo automatico e convalida incrociata predefinita

Per impostazione predefinita, Qlik Predict utilizza una convalida incrociata a cinque fold durante l'addestramento del modello per simularne le prestazioni. Il modello viene quindi testato su un controllo separato di dati di addestramento. Questo genera metriche di punteggio che consentono di valutare e confrontare le prestazioni dei diversi algoritmi.

Prima di iniziare l'addestramento dell'esperimento, tutti i dati del set di dati che hanno un target non nullo vengono rimescolati in modo casuale. Il 20% del set di dati viene estratto come dati di controllo. Il restante 80% del set di dati viene utilizzato per addestrare il modello con la convalida incrociata.
Per preparare la convalida incrociata, il set di dati viene suddiviso in cinque parti – le fold – in modo casuale. Il modello viene quindi addestrato cinque volte, "nascondendo" ogni volta un quinto diverso dei dati per testare le prestazioni del modello. Le metriche di addestramento sono generate durante la convalida incrociata e rappresentano la media dei valori calcolati.
Dopo l'addestramento, il modello viene applicato ai dati di controllo. Poiché i dati di controllo non sono stati visti dal modello durante l'addestramento, a differenza dei dati di convalida incrociata, sono ideali per convalidare le prestazioni dell'addestramento del modello. Le metriche di controllo vengono generate durante questa valutazione finale del modello.

Per ulteriori informazioni sulle metriche utilizzate per analizzare le prestazioni del modello, consultare la sezione Revisione dei modelli.

Diagramma che mostra il metodo predefinito di controllo e convalida incrociata, che evidenzia il processo a cinque fold. — Nel metodo predefinito, i dati di addestramento vengono utilizzati durante la convalida incrociata a cinque fold per generare un modello. Dopo l'addestramento, il modello viene valutato utilizzando i dati di controllo.

Convalida incrociata basata sul tempo

La convalida incrociata basata sul tempo è adatta per addestrare il modello a prevedere i dati lungo una dimensione di serie temporale. Ad esempio, supponiamo di voler prevedere le vendite della propria azienda per il mese successivo, in base a un set di dati contenente i dati delle vendite passate. Per utilizzare la convalida incrociata basata sul tempo, nei dati di addestramento deve essere presente una colonna che contenga informazioni sulla data o sul timestamp.

Il metodo basato sul tempo viene utilizzato per creare modelli time-aware È possibile attivare l'addestramento time-aware in Ottimizzazione modello nel pannello di configurazione dell'esperimento. Per ulteriori informazioni, vedere Configurazione degli esperimenti.

Con la convalida incrociata basata sul tempo, i modelli vengono addestrati per capire meglio che stanno prevedendo dati per date future.

Come il metodo predefinito, la convalida incrociata basata sul tempo prevede la separazione dei dati di addestramento in fold che vengono utilizzate sia per l'addestramento che per eseguire test. Entrambi i metodi prevedono l'addestramento dei modelli per un certo numero di iterazioni. Tuttavia, il metodo basato sul tempo presenta diverse differenze rispetto al metodo predefinito:

I dati di addestramento sono ordinati e organizzati in fold secondo l'indicizzazione scelta dall'utente per la data. Al contrario, la convalida incrociata predefinita seleziona in modo casuale le righe da includere in una determinata fold.
Il numero di fold utilizzate come dati di addestramento aumenta gradualmente con ogni iterazione dell'addestramento. Ciò significa che durante la prima iterazione può essere utilizzata solo la prima fold (più vecchia), mentre le iterazioni successive conterranno gradualmente un volume maggiore di dati di addestramento, compresi quelli più recenti. La fold utilizzata come dati di addestramento varia con ogni iterazione.

Ciò contrasta con il metodo di convalida incrociata predefinito, che utilizza un volume fisso di dati per addestrare e testare le suddivisioni in ogni iterazione (cioè, quattro fold per l'addestramento e una per eseguire i test).
Poiché l'intero set di dati di addestramento viene ordinato in base all'indice selezionato, i dati utilizzati per testare il modello addestrato sono sempre più recenti, o altrettanto recenti, di quelli utilizzati per addestrare il modello. I dati di controllo automatico utilizzati per eseguire i test finali sulle prestazioni del modello sono sempre più recenti - o altrettanto recenti - del resto del set di dati di addestramento.

Al contrario, la convalida incrociata predefinita può far sì che i modelli di dati vengano testati su dati anteriori a quelli dell'addestramento, con conseguente perdita di dati.

Controllo automatico e convalida incrociata basata sul tempo

Questa procedura mostra come vengono addestrati i modelli time-aware. Il processo presenta differenze e analogie rispetto al processo di convalida incrociata predefinito.

Tutti i dati del set di dati vengono ordinati in base all'indice data selezionato. Sono inclusi i dati di addestramento e i dati di controllo.
Prima di iniziare l'addestramento dell'esperimento, il 20% del set di dati viene estratto come dati di controllo. Questi dati di controllo sono più recenti o recenti come quelli del resto del set di dati. Il restante 80% del set di dati viene utilizzato per addestrare il modello con la convalida incrociata.
Per preparare la convalida incrociata, i dati di addestramento ordinati vengono suddivisi in un numero di fold. In base all'indice data selezionato, la prima fold conterrà i record più datati, mentre l'ultima conterrà quelli più recenti.
Il modello viene quindi addestrato per cinque iterazioni. In ogni iterazione, la quantità di dati di addestramento viene gradualmente aumentata. Con ogni iterazione, i dati di addestramento inclusi sono sempre più recenti. Le metriche di addestramento sono generate durante la convalida incrociata e rappresentano la media dei valori calcolati.
Dopo l'addestramento, il modello viene applicato ai dati di controllo. Poiché i dati di controllo non sono stati visti dal modello durante l'addestramento, sono ideali per convalidare le prestazioni dell'addestramento del modello. Le metriche di controllo vengono generate durante questa valutazione finale del modello.

Dati di controllo e convalida incrociata per i modelli di serie temporali

Un modello di serie temporali è un tipo specifico di modello che esegue previsioni specifiche basate sul tempo. Il processo di addestramento per questi modelli presenta alcune somiglianze e differenze rispetto ad altri modelli:

Come per altri modelli, il set di dati di addestramento è ancora suddiviso in 80 percento (addestramento) e 20 percento (test). Viene utilizzato il metodo di suddivisione basato sul tempo.

Il set di test viene utilizzato per valutare le prestazioni del modello. Questo set viene visualizzato nella scheda Analizza dell'esperimento, dove è possibile esplorare quanto bene il modello generalizza oltre la finestra di addestramento.
La convalida incrociata a cinque fold non è utilizzata. Alcune convalide vengono eseguite durante il processo di addestramento stesso, poiché i dati vengono elaborati da una rete neurale.

Per ulteriori informazioni sulle previsioni di serie temporali con Qlik Predict, vedere Utilizzo degli esperimenti sulle serie temporali.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback