Perdita di dati

Il concetto di "perdita di dati" si riferisce al fatto che i dati utilizzati per addestrare un algoritmo di machine learning possano includere le informazioni che si sta cercando di prevedere. Ciò potrebbe far sì che il modello abbia prestazioni migliori in fase di addestramento rispetto a quelle che avrebbe nel mondo reale, creando una falsa certezza sulle prestazioni del modello. Per ottenere previsioni affidabili, è necessario imparare a identificare e prevenire le perdite di dati.

In linea generale, le perdite di dati sono causate almeno da uno dei seguenti fattori:

Quando una o più caratteristiche del set di training possono essere utilizzate per ricavare la variabile target che si sta cercando di prevedere. Per esempio, la destinazione è un campo Sales e una delle funzionalità è un campo Sales Tax che viene calcolato da Sales.
Quando una o più caratteristiche del set di training includono informazioni che non sono note al momento della previsione.

Nella tabella seguente, la colonna Stage è una colonna duplicata della colonna Stage (Binary) che si desidera prevedere. Includendo Stage nel training set, forniremmo la risposta al risultato previsto, portando a un punteggio elevato per il modello.

Tabella con "colonna con perdita" Stage che contiene informazioni sulla colonna di destinazione Stage (Binary)
Total Employees	Annual Revenue (M$)	Lead Source	Forecast Deal ($)	Stage	Stage (Binary)
12078	2705	Partner	369,000	6 - Closed/Lost	LOST
10076	1783	Inside sales	71,000	6 - Closed/Won	WON
8518	2114	Inside sales	294,000	6 - Closed/Lost	LOST
3978	1159	Sales rep	214,000	6 - Closed/Won	WON
3517	2285	Marketing promo	154,000	6 - Closed/Lost	LOST
3370	97	Customer referral	41,000	6 - Closed/Won	WON

Perdita nella destinazione

Una perdita nella destinazione è una forma di perdita di dati. Una perdita nella destinazione si verifica quando i dati di una funzione fanno riferimento ai dati della destinazione che possono essere usati per le previsioni. I riferimenti o "perdite", possono essere diretti o indiretti.

Con l'ottimizzazione intelligente del modello, Qlik Predict identifica la perdita nella destinazione e impedisce che venga introdotta nei modelli. Le funzioni che indicano una perdita nella destinazione vengono rilevate e rimosse automaticamente dall'addestramento del modello. Per ulteriori informazioni sull'ottimizzazione intelligente dei modelli, vedere Ottimizzazione intelligente del modello.

Identificazione della perdita di dati

Per identificare le perdite di dati, considerare domande come "Avrai le stesse informazioni per i record nel momento in cui desideri fare una previsione?" o "Il record sarà lo stesso tra 30 giorni?". Tenere presente che tutti i dati del set di dati dell'addestramento devono essere rilevanti per il vincolo temporale della propria domanda di business.

Dopo aver addestrato un modello, è possibile cercare i seguenti indizi nelle metriche del modello.

Punteggi elevati: il punteggio è davvero elevato? Ad esempio, il punteggio F1 è superiore a 85?
Importanza funzione: una funzione è molto più importante di tutto il resto?
Punteggio di controllo: il punteggio di controllo è molto inferiore al punteggio di convalida incrociata?

La tabella mostra esempi di caratteristiche comuni che potrebbero causare la perdita di dati.

Caso d'uso di business	Destinazione	Caratteristiche potenzialmente soggette a perdite
L'opportunità di vendita si chiuderà?	Si chiuderà (Sì o No)	Fase, data di chiusura, dati di fatturazione, commissioni pagate
Previsione dell'importo di una transazione futura	Importo della transazione successiva	Tasse, dettagli dell'ordine
Un lead si convertirà in un'opportunità?	Si convertirà (Sì o No)	Dettagli dell'opportunità, data di conversione
Un cliente cancellerà la sottoscrizione?	La cancellerà (Sì o No)	Motivo dell'abbandono, data di abbandono, durata statica del cliente, temperatura del cliente
Un dipendente si licenzierà volontariamente?	Si licenzierà (Sì o No)	Dettagli del colloquio di licenziamento, data di termine, informazioni sulla lettera di dimissioni

Prevenzione della perdita di dati

Il modo migliore per prevenire la perdita di dati è utilizzare un framework strutturato per ottenere una buona domanda di business e un buon set di dati. Per ulteriori informazioni, vedere Definizione delle domande di machine learning.

Se si identifica una colonna con perdita dati che non dovrebbe essere utilizzata nell'addestramento del modello, è possibile mantenerla nel set di dati. È sufficiente escludere questa caratteristica dai dati di training dell'esperimento di machine learning.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback