Perdita di dati
Il concetto di "perdita di dati" si riferisce al fatto che i dati utilizzati per addestrare un algoritmo di machine learning possano includere le informazioni che si sta cercando di prevedere. Ciò potrebbe far sì che il modello abbia prestazioni migliori in fase di addestramento rispetto a quelle che avrebbe nel mondo reale, creando una falsa certezza sulle prestazioni del modello. Per ottenere previsioni affidabili, è necessario imparare a identificare e prevenire le perdite di dati.
In linea generale, le perdite di dati sono causate almeno da uno dei seguenti fattori:
-
Quando una o più caratteristiche del training set possono essere utilizzate per ricavare la variabile target che si sta cercando di prevedere. Per esempio, la destinazione è un campo Sales e una delle funzionalità è un campo Sales Tax che viene calcolato da Sales.
-
Quando una o più caratteristiche del training set includono informazioni che non sono note al momento della previsione.
Nella tabella seguente, la colonna Stage è una colonna duplicata della colonna Stage (Binary) che si desidera prevedere. Includendo Stage nel training set, forniremmo la risposta al risultato previsto, portando a un punteggio elevato per il modello.
Total Employees | Annual Revenue (M$) | Lead Source | Forecast Deal ($) | Stage | Stage (Binary) |
---|---|---|---|---|---|
12078 | 2705 | Partner | 369,000 | 6 - Closed/Lost | LOST |
10076 | 1783 | Inside sales | 71,000 | 6 - Closed/Won | WON |
8518 | 2114 | Inside sales | 294,000 | 6 - Closed/Lost | LOST |
3978 | 1159 | Sales rep | 214,000 | 6 - Closed/Won | WON |
3517 | 2285 | Marketing promo | 154,000 | 6 - Closed/Lost | LOST |
3370 | 97 | Customer referral | 41,000 | 6 - Closed/Won | WON |
Perdita nella destinazione
Una perdita nella destinazione è una forma di perdita di dati. Una perdita nella destinazione si verifica quando i dati di una funzione fanno riferimento ai dati della destinazione che possono essere usati per le previsioni. I riferimenti o "perdite", possono essere diretti o indiretti.
Con l'ottimizzazione intelligente del modello, AutoML identifica la perdita nella destinazione e impedisce che venga introdotta nei modelli. Le funzioni che indicano una perdita nella destinazione vengono rilevate e rimosse automaticamente dall'addestramento del modello. Per ulteriori informazioni sull'ottimizzazione intelligente del modello, vedere Ottimizzazione intelligente del modello .
Identificazione della perdita di dati
Per identificare le perdite di dati, considerare domande come "Avrai le stesse informazioni per i record nel momento in cui desideri fare una previsione?" o "Il record sarà lo stesso tra 30 giorni?". Tenere presente che tutti i dati del set di dati dell'addestramento devono essere rilevanti per il vincolo temporale della propria domanda di business.
Dopo aver addestrato un modello, è possibile cercare i seguenti indizi nelle metriche del modello.
-
Punteggi elevati: il punteggio è davvero elevato? Ad esempio, il punteggio F1 è superiore a 85?
-
Importanza funzione: una funzione è molto più importante di tutto il resto?
-
Punteggio di controllo: il punteggio di controllo è molto inferiore al punteggio di convalida incrociata?
La tabella mostra esempi di caratteristiche comuni che potrebbero causare la perdita di dati.
Caso d'uso di business | Destinazione |
Caratteristiche potenzialmente soggette a perdite |
---|---|---|
L'opportunità di vendita si chiuderà? |
Si chiuderà (Sì o No) |
Fase, data di chiusura, dati di fatturazione, commissioni pagate |
Previsione dell'importo di una transazione futura |
Importo della transazione successiva |
Tasse, dettagli dell'ordine |
Un lead si convertirà in un'opportunità? |
Si convertirà (Sì o No) |
Dettagli dell'opportunità, data di conversione |
Un cliente cancellerà la sottoscrizione? |
La cancellerà (Sì o No) |
Motivo dell'abbandono, data di abbandono, durata statica del cliente, temperatura del cliente |
Un dipendente si licenzierà volontariamente? |
Si licenzierà (Sì o No) |
Dettagli del colloquio di licenziamento, data di termine, informazioni sulla lettera di dimissioni |
Prevenzione della perdita di dati
Il modo migliore per prevenire la perdita di dati è utilizzare un framework strutturato per ottenere una buona domanda di business e un buon set di dati. Per ulteriori informazioni, vedere Definizione delle domande di machine learning.