Problemi di classificazione
I problemi in cui la colonna target è una colonna categoriale sono chiamati problemi di classificazione. I problemi di classificazione binaria hanno due possibili categorie, come Sì o No, mentre i problemi di classificazione multiclasse hanno più di due possibili categorie.
I seguenti esempi spiegano i due tipi di problemi di classificazione. Inoltre, presentano alcune considerazioni sulla definizione di una domanda di machine learning.
Esempio di classificazione binaria: abbandono dei clienti
In questo esempio, un'azienda offre un modello basato su sottoscrizioni. Sono stati raccolti dati su tutti i clienti, passati e attuali. I clienti sono stati etichettati indicando se hanno cancellato o meno la loro sottoscrizione.
La tabella seguente mostra i dati raccolti. Ogni riga rappresenta un unico cliente e le colonne rappresentano le diverse caratteristiche che lo descrivono. L'ultima colonna è il nostro target. Questa è una colonna binaria che specifica se il cliente ha cancellato la propria sottoscrizione (Sì o No).
Potremmo utilizzare questo set di dati per addestrare un algoritmo di machine learning per prevedere l'abbandono di un determinato cliente. Tuttavia, questo approccio presenta alcuni problemi:
-
Il set di dati confronta i nuovi e i vecchi clienti, e non ci sono informazioni sul fatto che i clienti che non hanno ancora cancellato la sottoscrizione lo faranno in futuro.
-
I clienti appena acquisiti potrebbero avere delle caratteristiche che indicano che potrebbero cancellare la sottoscrizione (forse sappiamo che i clienti maschi ventenni che non comprano molto nel primo mese tendono a cancellare la sottoscrizione subito dopo). Tuttavia, poiché sono nuovi e non hanno ancora cancellato la sottoscrizione, stiamo addestrando l'algoritmo di machine learning ad associare queste caratteristiche a un cliente fedele che non disdirà il servizio.
Per evitare queste insidie, è necessario essere precisi nel definire il tipo di abbandono e nel preparare un set di dati per il problema. Per capire come porre domande commerciali in modo preciso e appropriato, così che possano essere affrontate dal machine learning, occorre fare pratica. Vedere esempi positivi e negativi è utile quando si inizia a lavorare con il machine learning per le applicazioni aziendali. Se non si è sicuri di come inquadrare le proprie domande di business per il machine learning, considerare di incorporare un lasso di tempo nella definizione delle proprie metriche di business. Questa strategia si rivela spesso molto utile.
Inclusione di un fattore temporale
Consideriamo di incorporare il tempo nella domanda. Potremmo studiare quali clienti cancelleranno le loro sottoscrizioni entro i primi sei mesi. Ad esempio, potremmo utilizzare il comportamento del cliente durante il primo mese di vita per prevedere se disdirà il servizio entro i primi sei mesi. Ora abbiamo un modo preciso di definire l'abbandono dei clienti, un modo che incorpora un lasso di tempo. Potremmo aggregare un set di dati come questo:
Qui ogni riga rappresenta un cliente, ma ora includiamo solo i clienti che storicamente sono durati almeno sei mesi. Per ognuno di loro, il numero di acquisti e la spesa totale effettuata nel primo mese vengono utilizzati per prevedere se cancelleranno la sottoscrizione dopo sei mesi. Ai fini di questa domanda, è diventato irrilevante se i clienti hanno effettivamente disdetto il servizio dopo i primi sei mesi. La colonna target ci dice solo se hanno cancellato la sottoscrizione entro i primi sei mesi.
Ora abbiamo un set di dati di training in cui le righe possono essere confrontate tra loro. Una volta addestrato un modello su questo set di dati, possiamo prendere qualsiasi nuovo cliente che si sia abbonato per almeno un mese e utilizzare il suo comportamento durante il primo mese e il nostro modello addestrato per prevedere se cancellerà la sottoscrizione nei primi sei mesi.
Esempio di classificazione multiclasse: petali di iris
In questo esempio, abbiamo dati su un ampio campione di fiori di iris. Per ogni fiore abbiamo registrato la lunghezza e la larghezza dei petali e dei sepali, nonché il tipo di specie di iris a cui appartiene. In futuro, quando incontreremo un nuovo fiore di iris, vorremmo essere in grado di prevedere di quale specie di iris si tratta in base alla lunghezza e alla larghezza dei sepali e alla lunghezza e alla larghezza dei petali.
Possiamo fornire i dati raccolti a un algoritmo di machine learning che adatta una funzione ai dati cronologici. Una funzione di questo tipo fornirebbe un tipo di specie previsto in base ai valori delle altre quattro variabili. L'output è una categoria da un set discreto di categorie.
Si noti che lavoriamo ipotizzando che i dati su cui faremo previsioni in futuro assomiglieranno statisticamente ai dati su cui abbiamo addestrato l'algoritmo. Se nel set di dati di training sono presenti solo tre specie diverse di iris, allora possiamo usare questo algoritmo addestrato solo per fare previsioni sui fiori di quelle specie. Non possiamo aspettarci che un algoritmo di machine learning faccia previsioni su modelli che non è stato addestrato a riconoscere dal set di dati di training.