Revisione e perfezionamento delle versioni del modello
Al termine della prima versione del training del modello, analizzare le metriche dei modelli risultanti e configurare nuove versioni dell'esperimento fino a ottenere i risultati desiderati.
Quando si esegue la versione dell'esperimento, viene mostrata la visualizzazione del modello, dove è possibile analizzare le metriche del modello risultante. È possibile passare alla visualizzazione schema o a quella dati in qualsiasi momento. Se si desidera tornare alla visualizzazione del modello, fare clic sull'icona della visualizzazione del modello .
La prima versione del training è completa quando le metriche vengono popolate nella tabella Metriche modello e l'icona di un trofeo viene visualizzata accanto al modello superiore.
Analisi del modello
Nella visualizzazione del modello, è possibile vedere che l'algoritmo superiore ha un punteggio con l'icona di un trofeo . Ciò significa che è il modello più performante in base al punteggio F1.
Procedere come indicato di seguito:
-
Nell'angolo in alto a destra della tabella, fare clic sul pulsante del selettore colonne . Qui, è possibile visualizzare tutte le metriche disponibili per il problema posto, e aggiungerle o rimuoverle in base alle necessità. Selezionare qualsiasi metrica che si desidera mostrare nella tabella o lasciare quelle predefinite.
-
Nella tabella Metriche modello, fare clic sul filtro a comparsa Algoritmo e selezionare l'algoritmo corrispondente al modello con le migliori prestazioni.
-
Attivare Mostra metriche dati di training.
Ora è possibile vedere le metriche del training di convalida incrociata e confrontarle con le metriche di controllo. Per ogni colonna della metrica holdout, c'è una corrispondente colonna "train" per la metrica equivalente dai dati di training.
-
Fare clic su Cancella filtri e disattivare nuovamente l'interruttore Mostra metriche dati di training.
-
Ordinare i modelli in base alle prestazioni, dalle più elevate alle più basse, facendo clic sull'intestazione della colonna F1. Si potrebbe scegliere di escludere gli algoritmi a basso rendimento o di concentrarsi solo su quello migliore per ottenere risultati più rapidi nella successiva ripetizione del training. Questo argomento verrà descritto in una sezione successiva, dove si spiega la configurazione della v3.
-
Scorrere sotto la tabella delle metriche per vedere le visualizzazioni per il modello selezionato.
-
Fare clic su o su Visualizza configurazione per espandere il pannello Configurazione esperimento.
-
Fare clic su Nuova versione per creare una bozza della versione successiva dell'esperimento.
-
Dal grafico Importanza della permutazione, così come dall'elenco Funzioni nel pannello Configurazione esperimento, notare che questa prima ripetizione del modello si basa molto sulla funzione DaysSinceLastService, mentre tutte le altre funzioni hanno un'importanza quasi nulla rispetto ad essa.
Questa disparità, oltre alle prestazioni estremamente elevate dei modelli, dovrebbe essere vista come un segnale che qualcosa non va. In questo caso, non è stata definita una logica durante la raccolta dei dati per interrompere il conteggio del numero di giorni dall'ultimo ticket di assistenza per i clienti che hanno cancellato la sottoscrizione. Di conseguenza, il modello ha imparato ad associare un numero elevato di giorni dall'ultimo ticket di assistenza con valore yes nel campo Churned.
Si tratta di un esempio di perdita di dati, poiché in uno scenario reale il modello avrebbe accesso alle informazioni solo fino al momento della previsione, mentre il numero di giorni contenuti in questo campo è stato raccolto oltre quel punto di misurazione. Per ulteriori informazioni sulla perdita di dati, vedere Perdita di dati.
È necessario rimuovere la funzione "con perdita di dati" DaysSinceLastService dalla configurazione dell'esperimento, poiché distorce i modelli risultanti. Notare che in un caso d'uso reale, prima della creazione del modello, è necessaria un'indagine approfondita sulla qualità dei dati e sulla logica, per garantire che il modello risultante sia formato correttamente.
Questo problema verrà descritto nella sezione successiva, dove si spiega la configurazione della v2.
Configurazione ed esecuzione della versione 2
Poiché la maggior parte del training del modello cambierà dopo la risoluzione del problema della perdita di dati, configuriamo una nuova versione prima di completare ulteriori perfezionamenti.
Procedere come indicato di seguito:
-
Da una fase precedente, si è già aperto il pannello Configurazione dell'esperimento per la configurazione di v2.
-
Sotto Funzioni nel pannello Configurazione esperimento, deselezionare la casella di controllo DaysSinceLastService.
-
Fare clic su Esegui v2.
Configurazione ed esecuzione della versione 3
Al termine dell'esecuzione della seconda versione dell'esperimento, fare clic sulla casella di controllo accanto al modello v2 più performante nella tabella delle metriche (contrassegnata con l'icona di un trofeo ). In questo modo si aggiorna la pagina con le metriche di quel modello.
Sopra la tabella Metriche modello, fare clic sul filtro a comparsa Versione e selezionare 2. Ciò consente agli utenti di concentrarsi esclusivamente sulle metriche del modello v2.
Si vedrà che l'elenco delle funzioni importanti è cambiato in modo sostanziale da quando è stata affrontata la questione della perdita di dati. Il modello con le prestazioni migliori può anche utilizzare un algoritmo differente dalla versione più performante del modello v1.
Procedere come indicato di seguito:
-
Osservare il grafico dell'Importanza della permutazione. Alcune funzioni potrebbero avere un impatto molto inferiore sul modello rispetto ad altre. Sono di scarsa utilità per questo caso di utilizzo e si possono considerare come disturbo statistico. Provare a rimuovere alcune di queste funzioni per vedere se questo migliora i punteggi del modello.
-
Fare clic su o su Visualizza configurazione per espandere il pannello Configurazione esperimento.
-
Fare clic su Nuova versione per creare una bozza della versione successiva dell'esperimento.
-
Nel pannello Configurazione esperimento, in Funzioni, deselezionare le caselle di selezione per una o più funzioni che esercitano un'influenza minima o nulla sul modello.
-
Di seguito ecco la tabella Metriche modello. Per ottenere risultati più rapidi nell'iterazione successiva del training, è possibile scegliere di escludere alcuni algoritmi con prestazioni inferiori o di concentrarsi solo su quelli con prestazioni migliori.
-
Nel pannello Configurazione esperimento, nella sezione Algoritmi, facoltativamente è possibile deselezionare le caselle di selezione per alcuni degli algoritmi con prestazioni inferiori.
-
Fare clic su Esegui v3.
Confronto tra le versioni dell'esperimento
Nella tabella Metriche modello, fare clic su Cancella filtri.
Una volta eseguita la versione v3, fare clic sulla casella di selezione accanto al modello v3 con prestazioni migliori per visualizzarne le metriche.
Fare clic su Altri filtri modello e selezionare il filtro Migliori performer. È possibile vedere le metriche per i migliori risultati di ogni iterazione dell'esperimento.
La prima versione del training ha ottenuto i punteggi più alti, ma queste metriche sono risultate molto esagerate e non realistiche nel predire le prestazioni, a causa del problema della perdita di dati. Nella v3, il punteggio F1 del modello più performante è aumentato rispetto a quello del modello più performante della v2.
In uno scenario reale, è importante ripetere queste fasi di affinamento tutte le volte che è necessario prima di distribuire il modello, per assicurarsi di avere il miglior modello possibile per il caso d'uso specifico.
In questo tutorial, passiamo alla sezione successiva sulla distribuzione del modello.