Definizione delle domande di machine learning
Trasformare un caso d'uso aziendale in una domanda di machine learning specifica e perseguibile può essere impegnativo. Seguire un framework strutturato per evitare le insidie più comuni e generare un buon modello di previsione.
Il framework descrive come definire una domanda di machine learning e come raccogliere un set di dati ben strutturato e pronto per essere utilizzato. Per ulteriori informazioni sulla preparazione di un set di dati, vedere Preparazione del set di dati per il training.
Il quadro si compone di quattro parti:
-
Trigger dell'evento
-
Target
-
Caratteristiche
-
Punto di previsione
Trigger dell'evento
Il trigger dell'evento è un'azione o un evento che attiva la creazione di nuove previsioni. Ogni trigger di evento corrisponde a una singola riga di dati.
Target
Il target è il valore che si sta cercando di prevedere. Deve essere specifico sia nel modo in cui si definisce il valore - il risultato - sia nell'arco di tempo in cui il valore viene determinato - l'orizzonte. La definizione del risultato e dell'orizzonte dipende dal contesto di business e dai dati disponibili. Assicurarsi che il target sia rilevante per il contesto aziendale e pensare a quali azioni si desidera intraprendere con i valori previsti.
Il target è rappresentato in una singola colonna nel set di dati utilizzato per addestrare gli algoritmi di machine learning.
Caratteristiche
Le caratteristiche sono le altre colonne del set di dati che vengono utilizzate per prevedere un valore target. Rappresentano le proprie ipotesi su quali variabili influenzeranno il target. Gli algoritmi di machine learning utilizzano le caratteristiche per apprendere modelli generali durante il training e per fare previsioni su nuove righe di dati.
Le colonne delle caratteristiche costituiscono la maggior parte del set di dati di training, dove ogni caratteristica è rappresentata come una singola colonna. Le caratteristiche devono essere aggregate al livello di trigger dell'evento o superiore.
Le caratteristiche possono essere fisse, cioè note al momento o prima del trigger dell'evento, o dipendenti dalla finestra, cioè i dati vengono raccolti dopo il trigger dell'evento ma prima del punto di previsione.
Punto di previsione
Il punto di previsione è il momento designato in cui si smette di raccogliere dati per le caratteristiche e si prevede il target per ogni riga. La decisione su dove collocare il punto di previsione è un equilibrio tra accuratezza - previsione abbastanza tardiva da aver raccolto dati di qualità sulle caratteristiche - e agibilità - previsione abbastanza precoce da poter agire per influenzare il risultato.
L'intervallo di tempo tra il trigger dell'evento e il punto di previsione è la finestra di accumulo dei dati. È il tempo utilizzato per raccogliere i dati sulle caratteristiche. Il tempo che intercorre tra il punto di previsione e l'orizzonte è la finestra d'azione, ovvero il tempo utilizzato per agire su ciò che è stato previsto. Il punto di previsione può cadere ovunque tra il trigger dell'evento e l'orizzonte target.
Esempi: framework strutturato
I seguenti esempi mostrano come il framework strutturato possa essere utilizzato in diversi casi d'uso aziendali. Per un esempio approfondito in cui il framework viene applicato passo dopo passo, vedere Applicazione del framework strutturato: esempio di abbandono dei clienti.
valore di vita del cliente
-
Trigger dell'evento: un cliente effettua il suo primo ordine
-
Target: importo totale dell'ordine per i primi tre anni
-
Esito numerico: importo in dollari
-
L'orizzonte si basa sulla durata media del ciclo di vita del cliente.
-
-
Caratteristiche: Fonte del lead, Importo del primo ordine, Sconto utilizzato sul primo ordine (Sì o No), Stato di spedizione, Regione di spedizione, Numero di prodotti nel primo ordine
-
Punto di previsione: tre mesi dopo il primo ordine
-
Domanda di machine learning: "Previsione di tre mesi dopo il primo ordine di un cliente, quale sarà il totale dei suoi ordini nei 33 mesi successivi".
Riacquisto da parte del cliente
-
Trigger dell'evento: un cliente effettua un primo ordine
-
Target: un altro ordine viene effettuato entro sei mesi
-
Esito binario: Sì o No
-
L'orizzonte determinato dai dati secondi cui il 90% dei clienti che riacquistano lo fanno entro sei mesi.
-
-
Caratteristiche: Fonte di traffico, Numero di ordini precedenti, Sconto utilizzato, Stato di spedizione, Regione di spedizione, Numero di prodotti ordinati, E-mail di notifica della spedizione aperta (Sì o No), Ritorno sul sito entro 10 giorni, Registrazione per le e-mail di marketing (Sì o No)
-
Punto di previsione: una settimana dopo l'ordine
-
Domanda di machine learning: "Previsione di una settimana dopo che un cliente ha effettuato un ordine, se ordinerà di nuovo entro sei mesi".
Conversione dei lead di vendita
-
Trigger dell'evento: viene creato un lead di vendita
-
Target: converte in una vincita chiusa entro 12 mesi dalla creazione
-
Esito binario: Sì o No
-
L'orizzonte basato sulla durata cronologica del ciclo di vendita
-
-
Caratteristiche: Fonte del lead, Settore, Dimensioni dell'azienda, Numero di contatti nei primi 30 giorni, Incontro programmato entro 30 giorni (sì o no), Numero di telefono preciso (sì o no)
-
Punto di previsione: 30 giorni dopo la creazione del lead
-
Domanda di machine learning: "Previsione di 30 giorni dopo la creazione di un lead, se quel lead si convertirà in un'opportunità chiusa e vinta entro i successivi 11 mesi".
Laurea dello studente
-
Trigger dell'evento: uno studente viene accettato
-
Target: lo studente si laurea entro sei anni dall'inizio del programma
-
Esito binario: Sì o No
-
L'orizzonte si basa sulla durata cronologica del tempo di conseguimento della laurea
-
-
Caratteristiche: Tipo di scuola superiore, Media della scuola superiore, Punteggio SAT/ACT, Punteggio dell'esame di ammissione, Distanza dalla scuola superiore al campus di iscrizione, Livello di borsa di studio, Livello di istruzione dei genitori, Media del primo semestre, Numero di crediti del primo semestre
-
Punto di previsione: fine del primo semestre di iscrizione
-
Domanda di machine learning: "Previsione alla fine del primo semestre, se uno studente si diplomerà alla fine del sesto anno".
Vendite per mese
-
Trigger dell'evento: primo giorno del mese
-
Target: vendite in unità nel mese
-
Esito numerico: numero di unità vendute
-
L'orizzonte è basato sul mese solare
-
-
Caratteristiche: Tipo di prodotto, Nome del mese, Trimestre, Vendite dell'ultimo anno nello stesso mese, Vendite due anni prima nello stesso mese, Vendite del mese precedente, Sconto medio %, Spesa di marketing
-
Punto di previsione: primo giorno del mese
-
Domanda di machine learning: "Previsione del primo giorno del mese, quale sarà il totale delle unità vendute entro la fine del mese".