Vai al contenuto principale Passa a contenuto complementare

Rilevamento e gestione delle anomalie

L'ottimizzazione intelligente del modello consente di rilevare e gestire le anomalie. Grazie a queste funzionalità, Qlik AutoML è in grado di gestire automaticamente i valori outlier nei dati di addestramento con un'elaborazione specifica. Durante l'addestramento, i dati outlier nei dati di addestramento non vengono completamente rimossi, ma vengono elaborati utilizzando un sistema di ponderazione basato su un algoritmo.

È comune osservare valori outlier, oppure anomalie, in quasi tutti i tipi di dati che è possibile utilizzare. Le anomalie sono valori di dati che si verificano al di fuori dell'intervallo convenzionalmente previsto. Durante l'addestramento di modelli di machine learning, una determinata percentuale di anomalie può essere tollerata e potrebbe persino essere auspicabile, in quanto riflesso delle deviazioni delle esperienze reali. Tuttavia, in casi estremi, le anomalie e i valori outlier introducono pregiudizi in un modello, riducendone l'affidabilità e l'utilità.

Esempi

Non tutte le anomalie dovrebbero essere trattate allo stesso modo né essere considerate sempre come elementi da rimuovere dai dati. Ad esempio, se un'anomalia dei dati è un evento naturalmente possibile ma poco frequente che può essere osservato durante la raccolta dei dati, potrebbe essere sensato volerla utilizzare nei modelli addestrati. Un esempio lampante sono i casi di frode nelle transazioni finanziarie. Su milioni di transazioni, solo un numero limitato può essere correlata a una frode. A seconda del problema che si desidera analizzare e affrontare con un modello, le probabilità di frode nelle transazioni quotidiane possono essere un elemento da tenere in considerazione quando si generano le previsioni.

Un esempio di anomalia che probabilmente sia necessario rimuovere è un guasto involontario che si verifica durante la raccolta dei dati. Ad esempio, supponiamo che si desideri creare un modello da utilizzare per la previsione dei modelli meteorologici. Il modello viene addestrato sui dati generati da un sensore che monitora le metriche relative al meteo, e un'interruzione di corrente non correlata comporta la raccolta di dati errati dal sensore. Questi dati errati possono essere considerati dati di anomalia da rimuovere prima di terminare l'addestramento del modello.

In che modo Qlik AutoML gestisce le anomalie?

Il rilevamento e la gestione delle anomalie sono eseguiti quando si addestrano i modelli con l'ottimizzazione intelligente del modello, che è attiva per impostazione predefinita nei nuovi esperimenti.

La gestione delle anomalie può essere generalmente considerata come due processi separati: il rilevamento e l'addestramento del modello.

Rilevamento delle anomalie

Quando si esegue una versione dell'addestramento, AutoML completa diverse fasi prima di iniziare l'addestramento del modello. Queste includono la classificazione dei dati, l'imputazione null e una serie di altri processi. Il rilevamento delle anomalie viene completato durante questa fase e solo quando è attiva l'ottimizzazione intelligente del modello.

In termini tecnici, Qlik AutoML usa un algoritmo ad albero decisionale, l'algoritmo di tipo isolation forest, per rilevare anomalie e valori outlier nei dati di addestramento. Durante la fase di elaborazione dei dati nell'ottimizzazione intelligente del modello, a ogni punto del set di dati (generalmente noto come record) viene assegnato un punteggio di anomalia e viene ponderato in base al grado di certezza che si tratti di un'anomalia.

Gestione delle anomalie nell'addestramento dei modelli

Dopo che i dati sono stati elaborati e trasformati in base alle esigenze, AutoML inizia l'addestramento dei modelli. Durante questo processo, i punteggi di anomalia ponderati generati in precedenza vengono utilizzati per regolare l'influenza di ciascuna riga sul modello. Ad esempio, a una riga che molto probabilmente contiene un'anomalia viene assegnata un'influenza più bassa per l'addestramento del modello.

Questo sistema di punteggio ponderato consente ad AutoML di evitare di eliminare i dati e di ridurre semplicemente l'impatto che i dati outlier hanno sul modello.

Considerazioni

Nonostante le funzionalità di rilevamento delle anomalie disponibili su Qlik AutoML, ciò non significa che qualsiasi dato possa essere utilizzato per addestrare un modello di alta qualità. Se i dati contengono percentuali eccezionalmente elevate di informazioni errate oppure danneggiate, il rilevamento delle anomalie non può porre rimedio a tutti questi problemi.

In questi casi, si consiglia di riprendere il processo di raccolta dei dati per assicurarsi di avere a disposizione dati più realistici e di alta qualità. Ciò consente di ottimizzare l'affidabilità e il successo dei modelli di machine learning.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!