Revisione e perfezionamento dei modelli

Al termine della prima versione del training del modello, analizzare le metriche dei modelli risultanti e configurare nuove versioni dell'esperimento fino a ottenere i risultati desiderati.

Quando si esegue la versione dell'esperimento, si apre la scheda Modelli, dove è possibile iniziare ad analizzare le metriche del modello risultante. È possibile accedere a Vista schema e Vista dati tornando alla scheda Dati. È possibile eseguire un'analisi più granulare nelle schede Confronta e Analizza.

La prima versione del training è completa quando le metriche vengono popolate nella tabella Metriche modello e l'icona di un trofeo Trofeo viene visualizzata accanto al modello superiore.

AutoML migliora continuamente i propri processi per l'addestramento di modelli. Pertanto, si può notare che le metriche del modello e altri dettagli mostrati nelle immagini su questa pagina non sono identiche alle proprie quando si completano questi esercizi.

Analisi dei modelli dalla versione v1

Tornare alla scheda Modelli. Nella tabella Metriche modello, il modello migliore è contrassegnato con l'icona di un trofeo Trofeo . Ciò significa che è il modello più performante in base al punteggio F1.

La tabella Metriche modello che mostra le metriche chiave del modello. — La tabella Metriche modello mostra il modello più performante dalla versione v1 modello

Ordinare i modelli in base alle prestazioni, dalle più elevate alle più basse, facendo clic sull'intestazione della colonna F1. Si potrebbe scegliere di escludere gli algoritmi a basso rendimento o di concentrarsi solo su quello migliore per ottenere risultati più rapidi nella successiva ripetizione del training. Questo argomento verrà descritto in una sezione successiva, dove si spiega la configurazione della v3.

Identificazione della perdita di dati

Esaminare i grafici Informazioni strategiche modello nella parte destra della pagina. Questi grafici forniscono un'indicazione dell'importanza relativa di ogni funzione, oltre alle prestazioni del modello.

Dal grafico Importanza della permutazione, così come dall'elenco Funzioni nel pannello Configurazione esperimento, notare che questa prima ripetizione del modello si basa molto sulla funzione DaysSinceLastService, mentre tutte le altre funzioni hanno un'importanza quasi nulla rispetto ad essa.

Il grafico Importanza della permutazione per il modello più performante della versione v1 modelli che mostra la funzione 'DaysSinceLastService' che consuma quasi tutta l'influenza per l'intero modello — Il grafico Importanza della permutazione nella scheda Modelli, che mostra una perdita di dati

Questa disparità, oltre ai punteggi F1 estremamente elevati per le prestazioni dei modelli, dovrebbe essere interpretata come un segnale che qualcosa non va. In questo caso, non è stata definita una logica durante la raccolta dei dati per interrompere il conteggio del numero di giorni dall'ultimo ticket di assistenza per i clienti che hanno cancellato la sottoscrizione. Di conseguenza, il modello ha imparato ad associare un numero elevato di giorni dall'ultimo ticket di assistenza (presente per i clienti che hanno annullato l'abbonamento anni prima) con valore yes nel campo Churned.

Si tratta di un esempio di perdita di dati, poiché in uno scenario reale il modello avrebbe accesso alle informazioni solo fino al momento della previsione, mentre il numero di giorni contenuti in questo campo è stato raccolto oltre quel punto di misurazione. Questo problema è noto come perdita nella destinazione, una forma di perdita di dati. Per ulteriori informazioni sulla perdita di dati, vedere Perdita di dati.

È necessario rimuovere la funzione "con perdita di dati" DaysSinceLastService dalla configurazione dell'esperimento, poiché distorce i modelli risultanti. Notare che in un caso d'uso reale, prima della creazione del modello, è necessaria un'indagine approfondita sulla qualità dei dati e sulla logica, per garantire che il modello risultante sia formato correttamente.

Questo problema verrà affrontato nella configurazione della versione v2.

Configurazione ed esecuzione della versione 2

Configurare una nuova versione per risolvere la perdita di dati.

Procedere come indicato di seguito:

Fare clic su Visualizza configurazione per espandere il pannello di configurazione dell'esperimento.
Fare clic su Nuova versione.
Nel pannello, alla voce Funzioni, deselezionare la casella di selezione DaysSinceLastService.
Fare clic su Esegui v2.

Il pannello di configurazione dell'esperimento che mostra la configurazione della versione v2. — Rimozione di DaysSinceLastService per la versione v2

Analisi dei modelli generati dalla versione v2

Una volta completata l'esecuzione della seconda versione dell'esperimento, fare clic sulla casella di selezione accanto al modello v2 più performante nella tabella Metriche modello (contrassegnata con l'icona di un trofeo Trofeo ). In questo modo si aggiorna la pagina con le metriche di quel modello.

Confronto dell'addestramento e metriche di controllo automatico

Ora è possibile visualizzare ulteriori metriche e confrontare le metriche dall'addestramento della convalida incrociata con quelle di controllo automatico.

Procedere come indicato di seguito:

Nell'esperimento, passare alla scheda Confronta.
Viene visualizzata un'analisi incorporata. È possibile utilizzare l'interfaccia interattiva un esame più approfondito dell'analisi del modello comparativo e scoprire nuove informazioni strategiche.
Nel pannello Fogli nella parte destra dell'analisi, andare al foglio Details.
Esaminare la tabella Model Metrics, che mostra le metriche di punteggio del modello, come F1, oltre ad altre informazioni.
La versione 1 dell'addestramento è interessata da una perdita nella destinazione, quindi prenderemo in esame la versione v2. Utilizzare la casella di filtro Version nella parte destra del foglio per selezionare il valore 1.
Nella sezione Columns to show, utilizzare la casella di filtro per aggiungere e rimuovere colonne nella tabella.
Nella casella di riepilogo a comparsa, aggiungere ulteriori metriche. I punteggi dell'addestramento per ogni metrica sono visualizzati come valori che termina in Train. Aggiungere alcune metriche di addestramento alla tabella.

Ora è possibile vedere le metriche F1 del training di convalida incrociata e confrontarle con le metriche di controllo.

Utilizzo della scheda 'Confronta' nell'esperimento per visualizzare i punteggi di addestramento insieme ai punteggi di controllo automatico — Aggiunta e visualizzazione dei punteggi di addestramento per il confronto con i punteggi di controllo automatico

Identificazione delle funzioni con importanza bassa

Ora, è necessario verificare la presenza di qualsiasi funzione con una bassa importanza di permutazione. Le funzioni con poca o nessuna influenza sui modelli dovrebbero essere rimosse per una migliore accuratezza delle previsioni.

Procedere come indicato di seguito:

Nell'esperimento, tornare alla scheda Modelli.
Osservare il grafico dell'Importanza della permutazione. Le quattro caratteristiche inferiori, StartMonth, DeviceType, CustomerTenure e Territory, hanno un impatto molto inferiore sul modello rispetto alle altre funzioni. Sono di scarsa utilità per questo caso di utilizzo e si possono considerare come disturbo statistico.

Nella versione v3, è possibile rimuovere queste funzioni per vedere se i punteggi del modello migliorano.

Il grafico Importanza della permutazione per i modelli selezionati per la versione v2 che mostrano un'importanza di permutazione estremamente bassa per diverse funzioni — La scheda Modelli con i modelli più performanti della versione v2 selezionati. Il grafico Importanza della permutazione mostra che sono presenti delle funzioni che esercitano poca o nessuna influenza sul modello.

Identificazione di algoritmi con prestazioni basse

È possibile esaminare anche la tabella Metriche modello per visualizzare se è possibile rimuovere qualsiasi algoritmo dall'addestramento della versione v3. È possibile rimuovere gli algoritmi con basse prestazioni quando si affinano i modelli, per fare in modo che l'addestramento venga completato più rapidamente nelle iterazioni successive.

Nell'esperimento, tornare alla scheda Modelli.
Nella tabella Metriche modello, utilizzare il filtro Versione per mostrare solo i modelli dalla versione v2.
Esaminare i punteggi F1 per ogni Algoritmo. Se determinati algoritmi creano modelli con punteggi notevolmente più bassi rispetto agli altri, è possibile rimuoverli dalla versione successiva.

Configurazione ed esecuzione della versione 3

Procedere come indicato di seguito:

Fare clic su Visualizza configurazione per espandere il pannello di configurazione dell'esperimento.
Fare clic su Nuova versione.
Nel pannello, alla voce Funzioni, deselezionare le caselle di selezione StartMonth, DeviceType, CustomerTenure e Territory.
Facoltativamente, espandere Algoritmi e deselezionare le caselle di selezione per Bayesiano ingenuo gaussiano e Regressione logistica.
Fare clic su Esegui v3.

Analisi dei modelli dalla versione v3

Una volta eseguita la versione v3, è possibile deselezionare il filtro Versione dalla tabella Metriche modello. Selezionare il modello più performante dalla versione V3.

Completiamo un confronto rapido dei modelli in tutte le versioni.

La prima versione dell'addestramento ha ottenuto i punteggi più alti, ma queste metriche sono risultate molto esagerate e non realistiche nel predire le prestazioni, a causa del problema della perdita di dati. Nella v3, il punteggio F1 del modello più performante è aumentato rispetto a quello del modello più performante della v2.

Utilizzo della tabella Metriche modello per confrontare rapidamente i modelli addestrati per ciascuna delle versioni dell'esperimento — La tabella Metriche modello che mostra i punteggi F1 ordinati per i modelli delle tre versioni. Il punteggio F1 è migliorato nella versione V3 dopo aver rimosso le funzioni con una bassa importanza.

Come verificato in precedenza, è possibile passare alla scheda Confronta per un confronto più dettagliato dei punteggi del modello.

Esame di un modello specifico

In qualsiasi momento durante l'analisi del modello, è possibile eseguire un'analisi granulare di un modello individuale. Verificare l'accuratezza della previsione, l'importanza della funzione e la distribuzione delle funzioni con un'esperienza interattiva di Qlik Sense.

Procedere come indicato di seguito:

Dopo aver selezionato i modelli più performanti della versione V3, fare clic sulla scheda Analizza.
Viene visualizzata un'analisi incorporata.
Utilizzando il foglio Model Overview, è possibile analizzare l'accuratezza delle previsioni del modello. L'analisi viene migliorata dall'importanza delle selezioni. Fare clic su una funzione o su un valore previsto per effettuare una selezione. I dati nell'analisi incorporata si regolano per filtrare i dati. È possibile effettuare il drill-down di valori e intervalli della funzione specifici per visualizzare come cambiano l'influenza della funzione e l'accuratezza della previsione.
Passando ad altri fogli, è possibile mostrare le visualizzazioni per l'accuratezza della previsione e la distribuzione di funzioni e impatto (SHAP). Il contenuto dell'analisi può aiutare a fare quanto segue:
- Individuare i fattori chiave che influenzano le tendenze nei dati.
- Identificare il modo in cui funzioni e coorti specifiche influenzano i valori previsti e l'accuratezza della previsione.
- Identificare gli outlier nei dati.

Utilizzo della scheda 'Analisi' per migliorare l'analisi con l'influenza delle selezioni — La scheda Analisi in un esperimento di ML

Passaggi successivi

In uno scenario reale, è importante ripetere queste fasi di affinamento tutte le volte che è necessario prima di distribuire il modello, per assicurarsi di avere il miglior modello possibile per il caso d'uso specifico.

In questo tutorial, passiamo alla sezione successiva sulla distribuzione del modello.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!

Lascia qui il tuo feedback