Perdita di dati
Il concetto di "perdita di dati" si riferisce al fatto che i dati utilizzati per addestrare un algoritmo di machine learning possano includere le informazioni che si sta cercando di prevedere. Ciò potrebbe far sì che il modello abbia prestazioni migliori in fase di training rispetto a quelle che avrebbe nel mondo reale, creando una falsa certezza sulle prestazioni del modello. Per ottenere previsioni affidabili, è necessario imparare a identificare e prevenire le perdite di dati.
Esistono due forme di perdita di dati:
-
Quando una o più funzioni del set di training possono essere utilizzate per ricavare la variabile di destinazione che si sta cercando di prevedere.
-
Quando una o più funzioni del set di training includono informazioni che non sono note al momento della previsione.
Nella tabella seguente, la colonna Fase è una colonna duplicata della colonna Fase (binaria) che vogliamo prevedere. Includendo Fase nel set di dati di training, forniremmo la risposta al risultato previsto, portando a un punteggio elevato per il nostro modello.
Identificazione della perdita di dati
Per identificare le perdite di dati, considerare domande come "Avrai le stesse informazioni per i record nel momento in cui desideri fare una previsione?" o "Il record sarà lo stesso tra 30 giorni?". Tenere presente che tutti i dati del set di dati di training devono essere rilevanti per il vincolo temporale della propria domanda di business.
Dopo aver addestrato un modello, è possibile cercare i seguenti indizi nelle metriche del modello.
-
Punteggi elevati: il punteggio è davvero elevato? Ad esempio, il punteggio F1 è superiore a 85?
-
Importanza delle funzioni: Una funzionalità può essere molto più importante di tutti gli altri aspetti?
-
Punteggio di controllo: il punteggio di controllo è molto inferiore al punteggio di convalida incrociata?
La tabella mostra esempi di funzionalità comuni che potrebbero causare la perdita di dati.
Caso d'uso di business | Destinazione |
Funzioni potenzialmente soggette a perdite |
---|---|---|
L'opportunità di vendita si chiuderà? |
Si chiuderà (Sì o No) |
Fase, data di chiusura, dati di fatturazione, commissioni pagate |
Previsione dell'importo di una transazione futura |
Importo della transazione successiva |
Tasse, dettagli dell'ordine |
Un lead si convertirà in un'opportunità? |
Si convertirà (Sì o No) |
Dettagli dell'opportunità, data di conversione |
Un cliente cancellerà la sottoscrizione? |
La cancellerà (Sì o No) |
Motivo dell'abbandono, data di abbandono, durata statica del cliente, temperatura del cliente |
Un dipendente si licenzierà volontariamente? |
Si licenzierà (Sì o No) |
Dettagli del colloquio di licenziamento, data di termine, informazioni sulla lettera di dimissioni |
Prevenzione della perdita di dati
Il modo migliore per prevenire la perdita di dati è utilizzare un framework strutturato per ottenere una buona domanda di business e un buon set di dati. Per ulteriori informazioni, vedere Definizione delle domande di machine learning.