Vai al contenuto principale Passa a contenuto complementare

Perdita di dati

Il concetto di "perdita di dati" si riferisce al fatto che i dati utilizzati per addestrare un algoritmo di machine learning possano includere le informazioni che si sta cercando di prevedere. Ciò potrebbe far sì che il modello abbia prestazioni migliori in fase di training rispetto a quelle che avrebbe nel mondo reale, creando una falsa certezza sulle prestazioni del modello. Per ottenere previsioni affidabili, è necessario imparare a identificare e prevenire le perdite di dati.

Esistono due forme di perdita di dati:

  • Quando una o più funzioni del set di training possono essere utilizzate per ricavare la variabile di destinazione che si sta cercando di prevedere.

  • Quando una o più funzioni del set di training includono informazioni che non sono note al momento della previsione.

Nella tabella seguente, la colonna Fase è una colonna duplicata della colonna Fase (binaria) che vogliamo prevedere. Includendo Fase nel set di dati di training, forniremmo la risposta al risultato previsto, portando a un punteggio elevato per il nostro modello.

Tabella con la Fase "colonna perdita" che contiene informazioni sulla colonna di destinazione Fase (binaria)

Tabella con dati campione.

Identificazione della perdita di dati

Per identificare le perdite di dati, considerare domande come "Avrai le stesse informazioni per i record nel momento in cui desideri fare una previsione?" o "Il record sarà lo stesso tra 30 giorni?". Tenere presente che tutti i dati del set di dati di training devono essere rilevanti per il vincolo temporale della propria domanda di business.

Dopo aver addestrato un modello, è possibile cercare i seguenti indizi nelle metriche del modello.

  • Punteggi elevati: il punteggio è davvero elevato? Ad esempio, il punteggio F1 è superiore a 85?

  • Importanza delle funzioni: Una funzionalità può essere molto più importante di tutti gli altri aspetti?

  • Punteggio di controllo: il punteggio di controllo è molto inferiore al punteggio di convalida incrociata?

La tabella mostra esempi di funzionalità comuni che potrebbero causare la perdita di dati.

Caso d'uso di business Destinazione

Funzioni potenzialmente soggette a perdite

L'opportunità di vendita si chiuderà?

Si chiuderà (Sì o No)

Fase, data di chiusura, dati di fatturazione, commissioni pagate

Previsione dell'importo di una transazione futura

Importo della transazione successiva

Tasse, dettagli dell'ordine

Un lead si convertirà in un'opportunità?

Si convertirà (Sì o No)

Dettagli dell'opportunità, data di conversione

Un cliente cancellerà la sottoscrizione?

La cancellerà (Sì o No)

Motivo dell'abbandono, data di abbandono, durata statica del cliente, temperatura del cliente

Un dipendente si licenzierà volontariamente?

Si licenzierà (Sì o No)

Dettagli del colloquio di licenziamento, data di termine, informazioni sulla lettera di dimissioni

Prevenzione della perdita di dati

Il modo migliore per prevenire la perdita di dati è utilizzare un framework strutturato per ottenere una buona domanda di business e un buon set di dati. Per ulteriori informazioni, vedere Definizione delle domande di machine learning.

Nota di suggerimentoSe si identifica una colonna con perdita dati che non dovrebbe essere utilizzata nel training del modello, è possibile mantenerla nel set di dati. È sufficiente escludere questa funzione dai dati di training dell'esperimento di machine learning.
APPRENDIMENTO CORRELATO:

Ulteriori informazioni

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!