Vai al contenuto principale Passa a contenuto complementare

Perdita di dati

Il concetto di "perdita di dati" si riferisce al fatto che i dati utilizzati per addestrare un algoritmo di machine learning possano includere le informazioni che si sta cercando di prevedere. Ciò potrebbe far sì che il modello abbia prestazioni migliori in fase di addestramento rispetto a quelle che avrebbe nel mondo reale, creando una falsa certezza sulle prestazioni del modello. Per ottenere previsioni affidabili, è necessario imparare a identificare e prevenire le perdite di dati.

In linea generale, le perdite di dati sono causate almeno da uno dei seguenti fattori:

  • Quando una o più caratteristiche del training set possono essere utilizzate per ricavare la variabile target che si sta cercando di prevedere. Per esempio, la destinazione è un campo Sales e una delle funzionalità è un campo Sales Tax che viene calcolato da Sales.

  • Quando una o più caratteristiche del training set includono informazioni che non sono note al momento della previsione.

Nella tabella seguente, la colonna Stage è una colonna duplicata della colonna Stage (Binary) che si desidera prevedere. Includendo Stage nel training set, forniremmo la risposta al risultato previsto, portando a un punteggio elevato per il modello.

Tabella con "colonna con perdita" Stage che contiene informazioni sulla colonna di destinazione Stage (Binary)
Total Employees Annual Revenue (M$) Lead Source Forecast Deal ($) Stage Stage (Binary)
12078 2705 Partner 369,000 6 - Closed/Lost LOST
100761783Inside sales71,0006 - Closed/WonWON
85182114Inside sales294,0006 - Closed/LostLOST
39781159Sales rep214,0006 - Closed/WonWON
35172285Marketing promo154,0006 - Closed/LostLOST
337097Customer referral41,0006 - Closed/WonWON

Perdita nella destinazione

Una perdita nella destinazione è una forma di perdita di dati. Una perdita nella destinazione si verifica quando i dati di una funzione fanno riferimento ai dati della destinazione che possono essere usati per le previsioni. I riferimenti o "perdite", possono essere diretti o indiretti.

Con l'ottimizzazione intelligente del modello, AutoML identifica la perdita nella destinazione e impedisce che venga introdotta nei modelli. Le funzioni che indicano una perdita nella destinazione vengono rilevate e rimosse automaticamente dall'addestramento del modello. Per ulteriori informazioni sull'ottimizzazione intelligente del modello, vedere Ottimizzazione intelligente del modello .

Identificazione della perdita di dati

Per identificare le perdite di dati, considerare domande come "Avrai le stesse informazioni per i record nel momento in cui desideri fare una previsione?" o "Il record sarà lo stesso tra 30 giorni?". Tenere presente che tutti i dati del set di dati dell'addestramento devono essere rilevanti per il vincolo temporale della propria domanda di business.

Dopo aver addestrato un modello, è possibile cercare i seguenti indizi nelle metriche del modello.

  • Punteggi elevati: il punteggio è davvero elevato? Ad esempio, il punteggio F1 è superiore a 85?

  • Importanza funzione: una funzione è molto più importante di tutto il resto?

  • Punteggio di controllo: il punteggio di controllo è molto inferiore al punteggio di convalida incrociata?

La tabella mostra esempi di caratteristiche comuni che potrebbero causare la perdita di dati.

Caso d'uso di business Destinazione

Caratteristiche potenzialmente soggette a perdite

L'opportunità di vendita si chiuderà?

Si chiuderà (Sì o No)

Fase, data di chiusura, dati di fatturazione, commissioni pagate

Previsione dell'importo di una transazione futura

Importo della transazione successiva

Tasse, dettagli dell'ordine

Un lead si convertirà in un'opportunità?

Si convertirà (Sì o No)

Dettagli dell'opportunità, data di conversione

Un cliente cancellerà la sottoscrizione?

La cancellerà (Sì o No)

Motivo dell'abbandono, data di abbandono, durata statica del cliente, temperatura del cliente

Un dipendente si licenzierà volontariamente?

Si licenzierà (Sì o No)

Dettagli del colloquio di licenziamento, data di termine, informazioni sulla lettera di dimissioni

Prevenzione della perdita di dati

Il modo migliore per prevenire la perdita di dati è utilizzare un framework strutturato per ottenere una buona domanda di business e un buon set di dati. Per ulteriori informazioni, vedere Definizione delle domande di machine learning.

Nota di suggerimentoSe si identifica una colonna con perdita dati che non dovrebbe essere utilizzata nell'addestramento del modello, è possibile mantenerla nel set di dati. È sufficiente escludere questa caratteristica dai dati di addestramento dell'esperimento di machine learning.
APPRENDIMENTO CORRELATO:

Ulteriori informazioni

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!