Valutazione delle prestazioni del modello nel tempo
Dopo aver addestrato un certo numero di modelli di machine learning e aver distribuito quello migliore, è possibile iniziare a creare previsioni per i dati di produzione. È importante valutare frequentemente le prestazioni del modello per assicurarsi che continui a generare previsioni affidabili e che i dati su cui è stato addestrato siano ancora rilevanti.
Fattori importanti da monitorare
Esigenze operative
L'utilizzo predittivo può cambiare nel tempo. Le modifiche possono essere minori o significative. È necessario valutare se il modello continua a fornire valore con la configurazione attuale. Se la domanda di machine learning è cambiata in modo sostanziale da quando i modelli sono stati addestrati per la prima volta, si consiglia di ricominciare il processo di definizione della domanda e del set di dati.
Dati di input e accuratezza delle previsioni
È normale che le distribuzioni e le tendenze dei dati di input cambino nel tempo. Quella che anteriormente è stata definita come una qualità determinante dei dati di addestramento potrebbe non essere più rilevante, oppure potrebbe avere un impatto ancora più marcato. Si potrebbe identificare la presenza di nuove variabili che influenzano i risultati previsti e che devono essere introdotte nel modello come nuove funzioni. Allo stesso modo, alcune funzioni potrebbero non contribuire più in modo sostanziale ai risultati per essere incluse nel modello.
È importante monitorare i dati per verificare l'entità della deriva tra i dati di addestramento iniziali e gli ultimi dati disponibili. Se la deriva per determinate funzioni inizia a raggiungere una soglia non più accettabile, è il momento di raccogliere nuovi dati e di addestrare nuovamente il modello, oppure di iniziare con una nuova definizione del problema di machine learning. Per ulteriori dettagli sulla deriva dei dati, vedere Deriva dei dati.
Inoltre, se si nota che il modello non effettua le previsioni con l'accuratezza iniziale, è necessario rivalutare le modifiche da apportare per riportare il modello a prestazioni accettabili. Ad esempio, si potrebbe scoprire che l'accuratezza del modello è influenzata da errori che si verificano durante il processo di raccolta dei dati.
Riaddestramento dei modelli
Man mano che diventano disponibili più dati cronologici e, indipendentemente dal fatto che le prestazioni siano peggiorate, sarà sicuramente necessario addestrare nuovamente i modelli utilizzati per riflettere le informazioni più aggiornate.
Monitoraggio della deriva dei dati
AutoML dispone di funzionalità integrate per consentire agli utenti di rilevare la deriva delle funzionalità per i modelli distribuiti. Per ulteriori informazioni, vedere Monitoraggio della deriva dei dati nei modelli distribuiti.
Fasi successive
A seconda dell'importanza cambiamento dei propri casi d'uso e dei dati di input, si potrebbe prendere in considerazione una o più delle seguenti opzioni:
-
Addestrare nuovamente i modelli nello stesso esperimento con i nuovi dati. Se il problema di machine learning dell'utente non è cambiato in modo sostanziale, questa opzione offre diversi vantaggi. In particolare, è possibile confrontare in dettaglio i modelli di tutte le versioni dell'esperimento nello stesso esperimento. Per ulteriori informazioni, vedere Modificare e aggiornare il set di dati.
-
Se il problema di machine learning definito inizialmente non è più rilevante, potrebbe avere senso creare un nuovo esperimento. Questo dipende in gran parte dal proprio caso d'uso.