Selezione del modello migliore per i propri casi d'uso
Quando si analizzano i risultati dell'esperimento, è importante cercare modelli con caratteristiche specifiche importanti per il proprio caso d'uso. Ad esempio, oltre a previsioni sempre accurate, potrebbero essere richiesti modelli in grado di fornire previsioni in modo rapido. Nella scheda Modelli dell'esperimento, i modelli vengono consigliati in base ai diversi aspetti dell'analisi.
Analisi dei modelli migliori per un esperimento
In base ai filtri impostati, vengono presentati dei modelli consigliati per consentire di considerare diverse prospettive di qualità. Un singolo modello può essere considerato il modello migliore in più modi. I tipi di modello migliori sono i seguenti:
Visualizzazione dei modelli migliori nell'interfaccia utente
Per informazioni su come individuare ed esplorare i modelli migliori per il proprio esperimento, consultare Analisi della tabella Metriche modello.
Il modello migliore
In base ai filtri impostati, il modello migliore viene selezionato automaticamente per l'analisi. Il modello migliore è evidenziato con l'icona .
In Qlik Predict, il modello migliore viene determinato in base a un calcolo equilibrato che tiene conto sia delle metriche di accuratezza che della velocità di previsione.
Per determinare il modello migliore, viene eseguito automaticamente il seguente processo:
-
Selezionare il modello con il punteggio più alto per la metrica delle prestazioni predittiva determinata dal tipo di modello. Le metriche utilizzate sono:
-
Classificazione binaria: F1
-
Classificazione multiclasse: F1 Macro.
-
Regressione: R2
-
Serie temporale: MASE (o MAE se MASE non è disponibile)
-
-
Utilizzando i punteggi delle prestazioni del passaggio 1, selezionare tutti i modelli che si trovano entro il cinque percento del punteggio del modello con il punteggio più alto.
-
Tra tutti i modelli selezionati, selezionare il modello con la velocità di previsione più elevata (vedere Velocità di previsione). Questo modello è il migliore.
Più accurato
È importante che il modello sia in grado di generare previsioni con un'elevata accuratezza su base costante. Sebbene F1, F1 Macro ed R2 forniscano un punteggio equilibrato che riflette in modo completo l'accuratezza del modello, potrebbero essere utili anche le metriche di accuratezza e precisione non elaborate dei modelli.
Il modello più accurato è evidenziato con l'icona . Per determinare il modello più accurato, viene eseguito automaticamente il seguente processo:
-
Selezionare il modello con il punteggio più alto per la metrica delle prestazioni predittiva determinata dal tipo di modello. Le metriche utilizzate sono:
-
Utilizzando i punteggi delle prestazioni della fase 1, selezionare tutti i modelli che si trovano entro il dieci percento del punteggio del modello con il punteggio più alto.
-
A seconda del tipo di modello, viene utilizzato uno dei due percorsi seguenti:
-
Classificazione binaria:
-
Se il set di dati di addestramento è bilanciato, selezionare il modello con il punteggio di accuratezza più elevato. Questo è il modello più accurato. Per informazioni sulle metriche specifiche utilizzate, consultare Accuratezza.
-
Se il training set non è bilanciato, selezionare il modello con il punteggio di precisione più elevato. Per informazioni sulle metriche specifiche utilizzate, consultare Precisione.
-
-
Classificazione multiclasse o regressione:
-
Selezionare il modello con il punteggio di accuratezza più elevato. Vengono utilizzate le seguenti metriche di accuratezza:
-
Classificazione multiclasse: Accuratezza
-
Regressione: MAE
-
-
-
Serie temporale: Selezionare il modello con il punteggio migliore (più basso) MAE.
-
Modello più veloce
Quando si sceglie un modello, potrebbe essere utile valutare la velocità con cui il modello può fornire previsioni. Il modello più veloce è evidenziato con l'icona .
La velocità di previsione determina quale sia il modello più veloce. Tuttavia, l'accuratezza predittiva dei modelli viene comunque presa in considerazione. Questo perché un modello può essere in grado di generare previsioni rapidamente, ma deve anche essere in grado di prevedere con un'accuratezza ragionevole.
Per determinare il modello più veloce, viene eseguito automaticamente il seguente processo:
-
Selezionare il modello con il punteggio più alto per la metrica delle prestazioni predittiva determinata dal tipo di modello. Le metriche utilizzate sono:
-
A seconda del tipo di modello, viene utilizzato uno dei seguenti percorsi:
-
Classificazione binaria:
-
Se il training set è bilanciato, selezionare tutti i modelli che hanno un punteggio di accuratezza entro il dieci percento del punteggio di accuratezza del modello selezionato al passaggio 1. Per informazioni sulla metrica specifica utilizzata, consultare Accuratezza.
-
Se il training set non è bilanciato, selezionare tutti i modelli che si trovano entro il dieci percento del punteggio del modello con il punteggio più alto al passaggio 1. Vengono utilizzate le metriche del passaggio 1.
-
-
Classificazione multiclasse o regressione:
-
Selezionare tutti i modelli che hanno un punteggio di accuratezza entro il dieci percento del punteggio di accuratezza del modello al passaggio 1. Vengono utilizzate le seguenti metriche di accuratezza:
-
Classificazione multiclasse: Accuratezza
-
Regressione: MAE
-
-
-
Serie temporali: Selezionare tutti i modelli entro il dieci percento del MAE punteggio del modello dal passaggio 1.
-
-
Tra tutti i modelli selezionati, selezionare il modello con la velocità di previsione più elevata (vedere Velocità di previsione). Questo modello è il più veloce.
Velocità di previsione
La velocità di previsione è una metrica del modello che si applica a tutti i tipi di modello: classificazione binaria, classificazione multiclasse, regressione e serie temporali. La velocità di previsione misura la velocità con cui un modello di apprendimento automatico è in grado di generare previsioni.
In Qlik Predict, la velocità di previsione viene calcolata utilizzando il tempo di calcolo combinato delle funzioni e il tempo di previsione del set di dati di prova. Questa viene visualizzata in righe al secondo.
La velocità di previsione può essere analizzata nella tabella Metriche del modello dopo aver eseguito la versione dell'esperimento. È possibile anche visualizzare i dati sulla velocità di previsione quando si analizzano i modelli con le analisi incorporate. Per ulteriori informazioni, vedere:
Considerazioni
La velocità di previsione misurata si basa sulle dimensioni del training set, piuttosto che sui dati su cui vengono effettuate le previsioni. Dopo aver distribuito un modello, è possibile notare differenze tra la velocità di creazione delle previsioni se i dati di addestramento e di previsione differiscono notevolmente in termini di dimensioni, o quando si creano previsioni in tempo reale su una o poche righe di dati.
Sovradattamento
L'overfitting si verifica quando il comportamento predittivo di un modello viene mappato troppo da vicino al training set. Quando un modello è soggetto a overfitting, probabilmente ha memorizzato solo i modelli del training set e non sarà in grado di prevedere con precisione i valori futuri.
L'overfitting può avere diverse cause, tra cui problemi legati agli algoritmi di addestramento o training set troppo brevi o complessi.
In Qlik Predict, l'overfitting viene identificato automaticamente attraverso un'analisi dei risultati di prova dell'addestramento per tutte le metriche utilizzate nel processo di selezione del modello migliore, ad eccezione della velocità di previsione:
-
Modelli di classificazione binaria: F1Accuratezza (dati bilanciati), (dati non bilanciati) Precisione
-
Modelli di classificazione multiclasse: F1 macro, Accuratezza
Se c'è una differenza superiore al dieci per cento tra una qualsiasi di queste metriche quando si confrontano i risultati del test e dell'addestramento, il modello potrebbe essere soggetto a overfitting.
Se si sospetta che un modello sia soggetto a overfitting, non viene mai presentato come modello consigliato, anche se ottiene un buon punteggio. Il modello è contrassegnato da un avviso nella tabella Metriche modello.
Se tutti i modelli mostrati nei filtri possono essere soggetti a overfitting, non vengono mostrate raccomandazioni per i modelli.
Risolvere i problemi di overfitting
È possibile risolvere i problemi di overfitting nei seguenti modi:
-
Evitando di distribuite modelli che potrebbero essere soggetti a overfitting.
-
Se si sospetta un problema con il training set, vedere Preparazione del set di dati per il training per sapere come è possibile preparare i dati di addestramento per evitare l'overfitting.