Revisione e perfezionamento dei modelli
Al termine della prima versione del training del modello, analizzare le metriche dei modelli risultanti e configurare nuove versioni dell'esperimento fino a ottenere i risultati desiderati.
Quando si esegue la versione dell'esperimento, si apre la scheda Modelli, dove è possibile iniziare ad analizzare le metriche del modello risultante. È possibile accedere a Vista schema e Vista dati tornando alla scheda Dati. È possibile eseguire un'analisi più granulare nelle schede Confronta e Analizza.
La prima versione del training è completa quando le metriche vengono popolate nella tabella Metriche modello e l'icona di un trofeo viene visualizzata accanto al modello superiore.
Analisi dei modelli dalla versione v1
Tornare alla scheda Modelli. Nella tabella Metriche modello, il modello migliore è contrassegnato con l'icona di un trofeo . Ciò significa che è il modello più performante in base al punteggio F1.
Tornare alla scheda Modelli. Nella tabella Metriche modello, il modello migliore è contrassegnato con l'icona di un trofeo . Ciò significa che è il modello più performante in base al punteggio F1.
Ordinare i modelli in base alle prestazioni, dalle più elevate alle più basse, facendo clic sull'intestazione della colonna F1. Si potrebbe scegliere di escludere gli algoritmi a basso rendimento o di concentrarsi solo su quello migliore per ottenere risultati più rapidi nella successiva ripetizione del training. Questo argomento verrà descritto in una sezione successiva, dove si spiega la configurazione della v3.
Identificazione della perdita di dati
Esaminare i grafici Informazioni strategiche modello nella parte destra della pagina. Questi grafici forniscono un'indicazione dell'importanza relativa di ogni funzione, oltre alle prestazioni del modello.
Dal grafico Importanza della permutazione, così come dall'elenco Funzioni nel pannello Configurazione esperimento, notare che questa prima ripetizione del modello si basa molto sulla funzione DaysSinceLastService, mentre tutte le altre funzioni hanno un'importanza quasi nulla rispetto ad essa.
Questa disparità, oltre ai punteggi F1 estremamente elevati per le prestazioni dei modelli, dovrebbe essere interpretata come un segnale che qualcosa non va. In questo caso, non è stata definita una logica durante la raccolta dei dati per interrompere il conteggio del numero di giorni dall'ultimo ticket di assistenza per i clienti che hanno cancellato la sottoscrizione. Di conseguenza, il modello ha imparato ad associare un numero elevato di giorni dall'ultimo ticket di assistenza (presente per i clienti che hanno annullato l'abbonamento anni prima) con valore yes nel campo Churned.
Si tratta di un esempio di perdita di dati, poiché in uno scenario reale il modello avrebbe accesso alle informazioni solo fino al momento della previsione, mentre il numero di giorni contenuti in questo campo è stato raccolto oltre quel punto di misurazione. Questo problema è noto come perdita nella destinazione, una forma di perdita di dati. Per ulteriori informazioni sulla perdita di dati, vedere Perdita di dati.
È necessario rimuovere la funzione "con perdita di dati" DaysSinceLastService dalla configurazione dell'esperimento, poiché distorce i modelli risultanti. Notare che in un caso d'uso reale, prima della creazione del modello, è necessaria un'indagine approfondita sulla qualità dei dati e sulla logica, per garantire che il modello risultante sia formato correttamente.
Questo problema verrà affrontato nella configurazione della versione v2.
Configurazione ed esecuzione della versione 2
Configurare una nuova versione per risolvere la perdita di dati.
Procedere come indicato di seguito:
Fare clic su Visualizza configurazione per espandere il pannello di configurazione dell'esperimento.
Fare clic su Nuova versione.
Nel pannello, alla voce Funzioni, deselezionare la casella di selezione DaysSinceLastService.
Fare clic su Esegui v2.
Analisi dei modelli generati dalla versione v2
Una volta completata l'esecuzione della seconda versione dell'esperimento, fare clic sulla casella di selezione accanto al modello v2 più performante nella tabella Metriche modello (contrassegnata con l'icona di un trofeo ). In questo modo si aggiorna la pagina con le metriche di quel modello.
Confronto dell'addestramento e metriche di controllo automatico
Ora è possibile visualizzare ulteriori metriche e confrontare le metriche dall'addestramento della convalida incrociata con quelle di controllo automatico.
Procedere come indicato di seguito:
Nell'esperimento, passare alla scheda Confronta.
Viene visualizzata un'analisi incorporata. È possibile utilizzare l'interfaccia interattiva un esame più approfondito dell'analisi del modello comparativo e scoprire nuove informazioni strategiche.
Nel pannello Fogli nella parte destra dell'analisi, andare al foglio Details.
Esaminare la tabella Model Metrics, che mostra le metriche di punteggio del modello, come F1, oltre ad altre informazioni.
La versione 1 dell'addestramento è interessata da una perdita nella destinazione, quindi prenderemo in esame la versione v2. Utilizzare la casella di filtro Version nella parte destra del foglio per selezionare il valore 1.
Nella sezione Columns to show, utilizzare la casella di filtro per aggiungere e rimuovere colonne nella tabella.
Nella casella di riepilogo a comparsa, aggiungere ulteriori metriche. I punteggi dell'addestramento per ogni metrica sono visualizzati come valori che termina in Train. Aggiungere alcune metriche di addestramento alla tabella.
Ora è possibile vedere le metriche F1 del training di convalida incrociata e confrontarle con le metriche di controllo.
Identificazione delle funzioni con importanza bassa
Ora, è necessario verificare la presenza di qualsiasi funzione con una bassa importanza di permutazione. Le funzioni con poca o nessuna influenza sui modelli dovrebbero essere rimosse per una migliore accuratezza delle previsioni.
Procedere come indicato di seguito:
Nell'esperimento, tornare alla scheda Modelli.
Osservare il grafico dell'Importanza della permutazione. Le quattro caratteristiche inferiori, StartMonth, DeviceType, CustomerTenure e Territory, hanno un impatto molto inferiore sul modello rispetto alle altre funzioni. Sono di scarsa utilità per questo caso di utilizzo e si possono considerare come disturbo statistico.
Nella versione v3, è possibile rimuovere queste funzioni per vedere se i punteggi del modello migliorano.
Identificazione di algoritmi con prestazioni basse
È possibile esaminare anche la tabella Metriche modello per visualizzare se è possibile rimuovere qualsiasi algoritmo dall'addestramento della versione v3. È possibile rimuovere gli algoritmi con basse prestazioni quando si affinano i modelli, per fare in modo che l'addestramento venga completato più rapidamente nelle iterazioni successive.
Nell'esperimento, tornare alla scheda Modelli.
Nella tabella Metriche modello, utilizzare il filtro Versione per mostrare solo i modelli dalla versione v2.
Esaminare i punteggi F1 per ogni Algoritmo. Se determinati algoritmi creano modelli con punteggi notevolmente più bassi rispetto agli altri, è possibile rimuoverli dalla versione successiva.
Configurazione ed esecuzione della versione 3
Procedere come indicato di seguito:
Fare clic su Visualizza configurazione per espandere il pannello di configurazione dell'esperimento.
Fare clic su Nuova versione.
Nel pannello, alla voce Funzioni, deselezionare le caselle di selezione StartMonth, DeviceType, CustomerTenure e Territory.
Facoltativamente, espandere Algoritmi e deselezionare le caselle di selezione per Bayesiano ingenuo gaussiano e Regressione logistica.
Fare clic su Esegui v3.
Analisi dei modelli dalla versione v3
Una volta eseguita la versione v3, è possibile deselezionare il filtro Versione dalla tabella Metriche modello. Selezionare il modello più performante dalla versione V3.
Completiamo un confronto rapido dei modelli in tutte le versioni.
La prima versione dell'addestramento ha ottenuto i punteggi più alti, ma queste metriche sono risultate molto esagerate e non realistiche nel predire le prestazioni, a causa del problema della perdita di dati. Nella v3, il punteggio F1 del modello più performante è aumentato rispetto a quello del modello più performante della v2.
Come verificato in precedenza, è possibile passare alla scheda Confronta per un confronto più dettagliato dei punteggi del modello.
Esame di un modello specifico
In qualsiasi momento durante l'analisi del modello, è possibile eseguire un'analisi granulare di un modello individuale. Verificare l'accuratezza della previsione, l'importanza della funzione e la distribuzione delle funzioni con un'esperienza interattiva di Qlik Sense.
Procedere come indicato di seguito:
Dopo aver selezionato i modelli più performanti della versione V3, fare clic sulla scheda Analizza.
Viene visualizzata un'analisi incorporata.
Utilizzando il foglio Model Overview, è possibile analizzare l'accuratezza delle previsioni del modello. L'analisi viene migliorata dall'importanza delle selezioni. Fare clic su una funzione o su un valore previsto per effettuare una selezione. I dati nell'analisi incorporata si regolano per filtrare i dati. È possibile effettuare il drill-down di valori e intervalli della funzione specifici per visualizzare come cambiano l'influenza della funzione e l'accuratezza della previsione.
Passando ad altri fogli, è possibile mostrare le visualizzazioni per l'accuratezza della previsione e la distribuzione di funzioni e impatto (SHAP). Il contenuto dell'analisi può aiutare a fare quanto segue:
Individuare i fattori chiave che influenzano le tendenze nei dati.
Identificare il modo in cui funzioni e coorti specifiche influenzano i valori previsti e l'accuratezza della previsione.
Identificare gli outlier nei dati.
Passaggi successivi
In uno scenario reale, è importante ripetere queste fasi di affinamento tutte le volte che è necessario prima di distribuire il modello, per assicurarsi di avere il miglior modello possibile per il caso d'uso specifico.
In questo tutorial, passiamo alla sezione successiva sulla distribuzione del modello.