Rilevamento e gestione delle anomalie

Il rilevamento e la gestione delle anomalie vengono forniti quando si utilizza l'ottimizzazione intelligente del modello. Con queste funzionalità, Qlik Predict può gestire automaticamente i valori outlier nei dati di addestramento con un'elaborazione specifica. Durante l'addestramento, i dati outlier provenienti dai dati di addestramento non vengono completamente rimossi, ma vengono invece elaborati utilizzando un sistema di ponderazione basato su algoritmi.

È comune osservare valori outlier, o anomalie, in quasi tutti i tipi di dati con cui si può lavorare. Le anomalie sono valori di dati che si verificano al di fuori dell'intervallo convenzionalmente previsto. Quando si addestrano modelli di machine learning, una certa percentuale di anomalie può essere tollerata e potrebbe persino essere auspicabile come riflesso della deviazione nel mondo reale. Tuttavia, in casi estremi, le anomalie e i valori outlier introducono bias in un modello, riducendone l'affidabilità e l'utilità.

Esempi

Non tutte le anomalie dovrebbero essere trattate allo stesso modo e non dovrebbero essere sempre viste come elementi da rimuovere dai dati. Ad esempio, se un'anomalia nei dati è un evento naturalmente possibile ma poco frequente che può essere osservato durante la raccolta dei dati, potrebbe avere senso volerla utilizzare nei modelli che si addestrano. Un ottimo esempio di ciò sono i casi di frode nelle transazioni finanziarie. Su milioni di transazioni, solo una manciata potrebbe essere correlata a frodi. A seconda del problema che si desidera analizzare e affrontare con il proprio modello, la probabilità di frode nelle transazioni quotidiane potrebbe essere un elemento di cui si desidera tenere conto durante la generazione delle previsioni.

Un esempio di anomalia che probabilmente si vorrebbe rimuovere è un guasto involontario che si verifica durante la raccolta dei dati. Ad esempio, supponiamo di creare un modello che verrà utilizzato per prevedere i modelli meteorologici. Il modello viene addestrato sui dati di un sensore che monitora le metriche meteorologiche e un'interruzione di corrente non correlata fa sì che vengano raccolti dati errati dal sensore. Questi dati errati potrebbero essere considerati dati anomali che si vorrebbe rimuovere prima di terminare l'addestramento del modello.

In che modo Qlik Predict gestisce le anomalie?

Il rilevamento e la gestione delle anomalie vengono eseguiti quando si addestrano modelli con l'ottimizzazione intelligente del modello, che è attivata per impostazione predefinita nei nuovi esperimenti.

La gestione delle anomalie può generalmente essere considerata come un processo che avviene in due fasi separate: il rilevamento e l'addestramento effettivo del modello.

Rilevamento delle anomalie

Quando si esegue una versione dell'addestramento, Qlik Predict completa diversi passaggi prima dell'inizio dell'addestramento del modello. Ciò include la classificazione dei dati, l'imputazione dei valori nulli e una serie di altri processi. Il rilevamento delle anomalie viene completato in questa fase e solo quando l'ottimizzazione intelligente del modello è attivata.

In termini tecnici, Qlik Predict utilizza un algoritmo basato su alberi decisionali, l'algoritmo isolation forest, per rilevare anomalie e valori outlier nei dati di addestramento. Durante la fase di elaborazione dei dati nell'ottimizzazione intelligente del modello, a ogni punto dati nel set di dati (generalmente noto come record) viene assegnato un punteggio di anomalia e viene ponderato in base al grado di certezza che si tratti di un'anomalia.

Gestione delle anomalie nell'addestramento del modello

Dopo che i dati sono stati elaborati e trasformati in base alle necessità, Qlik Predict inizia ad addestrare i modelli. Durante questo processo, i punteggi di anomalia ponderati generati in precedenza vengono utilizzati per regolare l'influenza che ogni riga ha sul modello. Ad esempio, a una riga considerata altamente probabile che contenga un'anomalia viene assegnata un'influenza inferiore sull'addestramento del modello.

Questo sistema di punteggio ponderato consente a Qlik Predict di evitare di scartare i dati e di ridurre semplicemente l'impatto che i dati outlier hanno sul modello.

Considerazioni

Nonostante le funzionalità di rilevamento delle anomalie disponibili con Qlik Predict, ciò non significa che qualsiasi dato possa essere utilizzato per addestrare un modello di alta qualità. Se i dati contengono proporzioni insolitamente ampie di informazioni errate o danneggiate, il rilevamento delle anomalie non può porre rimedio a tutti questi problemi.

In questi scenari, si consiglia di tornare al processo di raccolta dei dati per assicurarsi di avere a disposizione i dati più realistici e di alta qualità. Ciò aiuterà a ottimizzare l'affidabilità e il successo del modello di machine learning.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback