Ottimizzazione intelligente del modello

L'ottimizzazione intelligente del modello fornisce un perfezionamento automatico dei modelli addestrati in un esperimento. Con l'ottimizzazione intelligente del modello, i processi di iterazione della selezione delle funzionalità e di applicazione di trasformazioni avanzate vengono gestiti automaticamente. Con un dataset di addestramento ben preparato che include tutte le funzionalità rilevanti, l'ottimizzazione intelligente del modello consente di addestrare modelli pronti per la distribuzione in un'unica versione.

Cos'è l'ottimizzazione intelligente del modello?

L'ottimizzazione intelligente del modello automatizza molti aspetti del processo di perfezionamento del modello. Con l'ottimizzazione intelligente del modello, è possibile addestrare rapidamente modelli di alta qualità senza perfezionare manualmente la selezione delle funzionalità o regolare i dati di input.

Utilizzo dell'ottimizzazione intelligente del modello

L'ottimizzazione intelligente del modello è attivata per impostazione predefinita nei nuovi esperimenti ML dei seguenti tipi:

Classificazione binaria
Classificazione multiclasse
Regressione

L'ottimizzazione intelligente del modello non è applicabile a esperimenti di serie temporali.

È possibile attivare o disattivare l'ottimizzazione intelligente del modello per ogni versione dell'esperimento eseguita.

Dopo aver eseguito una versione dell'esperimento con l'ottimizzazione intelligente attivata, i risultati dell'ottimizzazione possono essere visualizzati nel Riepilogo addestramento modello. Questo riepilogo viene mostrato nella scheda Modelli in Informazioni dettagliate sul modello. Passare il cursore del mouse sui termini sottolineati per visualizzare un suggerimento a comparsa con una descrizione dettagliata.

Il Riepilogo addestramento modello è diverso per ciascun modello addestrato in una versione dell'esperimento.

Come funziona l'ottimizzazione intelligente del modello

Con l'ottimizzazione intelligente del modello:

Vengono addestrati più modelli rispetto all'ottimizzazione manuale. La selezione delle funzionalità viene gestita a livello di modello. Ciò significa che, a differenza dell'ottimizzazione manuale, ogni modello in una versione può avere una selezione delle funzionalità diversa.
Oltre alla pre-elaborazione automatica applicata a tutti i modelli per impostazione predefinita, i dati di addestramento vengono elaborati con diverse trasformazioni avanzate. Queste trasformazioni aiutano a garantire che i dati siano in un formato ottimale per gli algoritmi di machine learning.
Per il controllo qualità, viene comunque addestrato un modello di base – un modello addestrato sull'intero set di funzionalità configurato per la versione. Ciò aiuta a verificare se l'ottimizzazione intelligente stia effettivamente migliorando i punteggi del modello.
Per i dataset di addestramento più grandi, i modelli vengono addestrati su una varietà di rapporti di campionamento. Questo aiuta a velocizzare il processo di addestramento. Per ulteriori informazioni, vedere Campionamento dei dati di addestramento.

Campionamento dei dati di addestramento

Quando si addestrano modelli con una grande quantità di dati, Qlik Predict utilizza il campionamento per addestrare i modelli su una varietà di sottoinsiemi (rapporti di campionamento) del dataset originale. Il campionamento viene utilizzato per velocizzare il processo di addestramento. All'inizio dell'addestramento, i modelli vengono addestrati su un rapporto di campionamento ridotto. Man mano che l'addestramento prosegue, i modelli vengono gradualmente addestrati su porzioni più ampie di dati. Infine, i modelli vengono addestrati sull'intero dataset (un rapporto di campionamento del 100%).

Durante l'analisi dei dati di addestramento del modello, i modelli addestrati con meno del 100% del dataset di addestramento vengono nascosti da alcune viste.

Elaborazione applicata durante l'ottimizzazione intelligente del modello

Il Riepilogo addestramento modello mostra come i dati di addestramento sono stati elaborati dall'ottimizzazione intelligente del modello. Le sezioni seguenti contengono maggiori dettagli su ciascuna delle voci visualizzate nel registro.

L'elaborazione applicata può variare in base al modello.

Grafico del riepilogo dell'addestramento per un modello addestrato con l'ottimizzazione intelligente. Le funzionalità dei dati di addestramento sono state automaticamente escluse dal modello per motivi quali la dispersione del target (target leakage) e l'elevata correlazione — Grafico del Riepilogo addestramento modello per un modello, mostrato nella scheda Modelli

Selezione delle funzionalità

L'ottimizzazione intelligente del modello aiuta a perfezionare i modelli escludendo le funzionalità che possono ridurre le prestazioni predittive. Durante l'ottimizzazione intelligente del modello, una funzionalità potrebbe essere esclusa per uno dei seguenti motivi:

Dispersione del target (target leakage): si sospetta che la funzionalità sia interessata da dispersione del target. Le funzionalità interessate da dispersione del target includono informazioni sulla colonna target che si sta tentando di prevedere. Ad esempio, la funzionalità deriva direttamente dal target o include informazioni che non sarebbero note al momento della previsione. Le funzionalità che causano la dispersione del target possono dare un falso senso di sicurezza sulle prestazioni del modello. Nelle previsioni del mondo reale, causano prestazioni molto scarse del modello.
Bassa importanza della permutazione: la funzionalità ha un'influenza minima o nulla sulle previsioni del modello. La rimozione di queste funzionalità migliora le prestazioni del modello riducendo il rumore statistico.
Altamente correlata: la funzionalità è altamente correlata con una o più altre funzionalità nell'esperimento. Le funzionalità eccessivamente correlate non sono adatte per l'uso nei modelli di addestramento.

Nella scheda Dati all'interno dell'esperimento, è possibile visualizzare informazioni dettagliate sulle funzionalità escluse per ciascun modello. Le Informazioni dettagliate si riferiscono anche alle funzionalità che sono state escluse al di fuori del processo di ottimizzazione intelligente del modello. Per ulteriori informazioni su ciascuna informazione dettagliata, vedere Interpretazione degli insight del dataset.

Trasformazioni delle funzionalità

L'ottimizzazione intelligente del modello applica una serie di trasformazioni tecniche a livello di funzionalità. Queste trasformazioni elaborano i dati di addestramento in modo che possano essere utilizzati in modo più efficace per creare un modello di machine learning affidabile. Le trasformazioni delle funzionalità vengono applicate automaticamente in base alle esigenze. Nel Riepilogo addestramento modello, si riceve una notifica quando vengono applicate le trasformazioni delle funzionalità e quali funzionalità ne sono interessate.

Trasformazione di potenza (Power transform)

I dati delle funzionalità contengono spesso per loro natura distribuzioni con un certo grado di asimmetria e deviazione da una distribuzione normale. Prima di addestrare un modello, può essere utile applicare un'elaborazione ai dati per normalizzare le distribuzioni dei valori se appaiono eccessivamente asimmetriche. Questa elaborazione aiuta a ridurre la distorsione e a identificare gli outlier.

Con l'ottimizzazione intelligente del modello, le funzionalità numeriche che superano una specifica soglia di asimmetria vengono trasformate per avere una distribuzione più normale (or simile alla normale) utilizzando le trasformazioni di potenza. Nello specifico, viene utilizzata la trasformazione di potenza Yeo-Johnson.

Partizionamento (binning) delle funzionalità numeriche

Alcune funzionalità numeriche possono contenere pattern e distribuzioni che non sono facilmente gestibili dagli algoritmi di machine learning. Con l'ottimizzazione intelligente del modello, questo problema viene parzialmente risolto organizzando i dati di specifiche funzionalità numeriche in diversi intervalli (bin) a seconda dei loro intervalli di valori. Il partizionamento viene eseguito in modo che le funzionalità possano essere trasformate in funzionalità categoriali.

Al termine del partizionamento, le nuove funzionalità categoriali vengono sottoposte a one-hot encoding e utilizzate nell'addestramento. Per ulteriori informazioni sul one-hot encoding, vedere Codifica di categoria.

Ponderazione e campionamento a livello di riga

Rilevamento e gestione delle anomalie

Le anomalie sono valori di dati che appaiono al di fuori dell'intervallo in cui ci si aspetterebbe ragionevolmente che rientrino. Non è raro che vi siano alcuni outlier nei dati di addestramento. Alcune anomalie potrebbero persino essere desiderate come modo per riflettere le possibilità del mondo reale. In altri casi, anomalie possono interferire con la capacità di addestrare un modello affidabile.

Con l'ottimizzazione intelligente del modello, Qlik Predict identifica le potenziali anomalie. Le righe in cui compaiono i valori outlier vengono quindi gestite con un sistema di ponderazione basato su algoritmi. Se si sospetta fortemente che un valore sia un'anomalia, il sistema di ponderazione riduce l'influenza che la riga corrispondente nei dati di addestramento ha sul modello.

Dopo l'addestramento del modello, si riceve una notifica della percentuale di righe del dataset di addestramento originale che sono state gestite come dati anomali.

Per ulteriori informazioni, vedere Rilevamento e gestione delle anomalie.

Bilanciamento delle classi

Nel dataset di addestramento, è possibile che vi siano più occorrenze di un particolare valore (classe) rispetto ad altri. Questo fenomeno è noto come squilibrio delle classi. Quando nei dati è presente uno squilibrio delle classi, i modelli risultanti apprendono di più sulla classe di maggioranza rispetto a quella di minoranza, compromettendo l'accuratezza della previsione.

Con l'ottimizzazione intelligente del modello, Qlik Predict esegue il bilanciamento automatico delle classi per i modelli di classificazione binaria. Lo squilibrio delle classi viene rilevato confrontando la distribuzione dei valori per le due classi nella colonna target. Nello specifico, viene eseguito quando il rapporto tra le due classi è:

Il 95% (o più) delle righe contiene una classe
Il 5% (o meno) delle righe contiene l'altra classe

Durante il bilanciamento delle classi, i dati di addestramento vengono sovracampionati per migliorare la distribuzione delle classi. Il processo è iterativo—viene testata una serie di diversi rapporti di output per trovare il bilanciamento ottimale per le prestazioni del modello.

Dopo il sovracampionamento, il dataset sovracampionato viene quindi utilizzato per addestrare i modelli nella versione dell'esperimento.

Per informazioni più generali sul bilanciamento delle classi, vedere Bilanciamento di classe.

Disattivazione dell'ottimizzazione intelligente

Con l'ottimizzazione intelligente disattivata, l'ottimizzazione dell'addestramento viene eseguita manualmente. L'ottimizzazione manuale può essere utile se si necessita di un maggiore controllo sul processo di addestramento. In particolare, si potrebbe voler eseguire una versione con l'ottimizzazione intelligente del modello, quindi disattivare l'impostazione se è necessario apportare una serie limitata di regolazioni manuali.

L'ottimizzazione manuale non è disponibile negli esperimenti sulle serie temporali.

Procedere come indicato di seguito:

In un esperimento, fare clic su Visualizza configurazione.

Si apre il pannello di configurazione dell'esperimento.
Se è già stata eseguita almeno una versione dell'esperimento, fare clic su Crea nuova versione.
Nel pannello, espandere Ottimizzazione del modello.
Passare da Intelligente a Manuale.

Considerazioni

Quando si lavora con l'ottimizzazione intelligente del modello, considerare quanto segue:

L'utilizzo dell'ottimizzazione intelligente del modello non garantisce che l'addestramento produca modelli di alta qualità. Anche le fasi di preparazione del dataset e di configurazione dell'esperimento sono essenziali per produrre modelli affidabili. Se non si dispone di un dataset ben preparato o se nella configurazione mancano funzionalità chiave, non è garantito che i modelli offrano buone prestazioni nei casi d'uso di produzione. Per ulteriori informazioni su queste fasi, vedere:
- Preparazione del dataset per il training
- Configurazione degli esperimenti
Quando l'ottimizzazione intelligente del modello è attivata per una versione, ciascun modello di questa versione avrà un set separato di funzionalità incluse. D'altra parte, tutti i modelli di una versione addestrata con l'ottimizzazione manuale avranno lo stesso set di funzionalità incluse.
L'ottimizzazione intelligente del modello utilizza solo le funzionalità e gli algoritmi inclusi nella configurazione per la versione.

Ottimizzazione degli iperparametri

L'ottimizzazione degli iperparametri non è disponibile quando l'ottimizzazione intelligente del modello è attivata. Per attivare l'ottimizzazione degli iperparametri, è necessario impostare l'ottimizzazione del modello su Manuale.

Per ulteriori informazioni, vedere Ottimizzazione degli iperparametri.

Esempio

Per un esempio che dimostri i vantaggi dell'ottimizzazione intelligente del modello, vedere Tutorial – Generazione e visualizzazione dei dati di previsione.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback