Valutazione dei modelli di classificazione binaria
I modelli di classificazione binaria distribuiscono i risultati in due categorie, come Sì o No. La precisione con cui un modello distribuisce i risultati può essere valutata attraverso una serie di metriche di punteggio.
Le metriche evidenziano diversi punti di forza e di debolezza del modello. Nessuna di queste può essere una vera misura di un buon adattamento da sola. In particolare, è importante notare che un ottimo punteggio di accuratezza generale non significa che il modello sia ideale. Ad esempio, cosa succederebbe se un'azienda avesse un tasso di conversione solo del 10%? Il modello potrebbe ottenere un punteggio di accuratezza del 90% semplicemente affermando che nessun lead verrà mai convertito. È qui che entrano in gioco le funzionalità F1, richiamo e precisione, che consentono di determinare l'equilibrio dei punti di forza e di debolezza di un modello. Se il modello ipotizzasse che il 100% dei lead non verrà mai convertito, F1 sarebbe pari a 0.
Durante l'addestramento di un esperimento di classificazione binaria, i seguenti grafici vengono generati automaticamente per fornire l'analisi rapida dei punteggi del modello:
Matrice di confusione: riassume l'accuratezza dei risultati delle previsioni in un modello di classificazione. Vedere Matrice di confusione.
Curva ROC: un grafico che descrive la capacità di un modello di machine learning di prevedere la classe positiva quando il risultato effettivo è positivo. Vedere AUC e curva ROC.
Matrice di confusione
La maggior parte delle metriche per i problemi di classificazione binaria sono generate da diversi calcoli dei valori della matrice di confusione. La matrice di confusione è una delle visualizzazioni mostrate nella scheda Modelli. Mostra il numero di valori veri e falsi previsti correttamente, con un totale per ogni classe. I valori visualizzati nel grafico si basano sui dati di controllo automatico utilizzati per convalidare le prestazioni del modello dopo il training. Ogni record del set di dati viene ordinato in uno dei quadranti:
-
I veri positivi (TP) sono valori reali che sono stati correttamente previsti come veri.
-
I falsi positivi (FP) sono valori falsi che sono stati erroneamente previsti come veri.
-
I falsi negativi (FN) sono valori reali che sono stati erroneamente previsti come falsi.
-
I veri negativi (TN) sono valori falsi effettivi che sono stati correttamente previsti come falsi.
Sotto i numeri di ogni quadrante si possono vedere anche i valori percentuali per le metriche di richiamo (TP), fallout (FP), miss rate (FN) e specificità (TN). Passare il mouse su un valore per visualizzare un suggerimento a comparsa con la metrica.
Qualsiasi caso realistico mostrerà falsi positivi e falsi negativi nella matrice di confusione. Previsioni perfette sui dati di training indicherebbero che il modello ha memorizzato le risposte e che avrà scarse prestazioni nel mondo reale. Ci si dovrà assicurare di aver acquisito un numero sufficiente di aspetti positivi e negativi.
F1
Il punteggio F1 è una metrica che cerca di considerare l'accuratezza quando le classi sono sbilanciate, concentrandosi sull'accuratezza delle previsioni positive e dei record effettivamente positivi. Può essere visto come l'accuratezza con cui il modello cattura i risultati che contano. La metrica cerca di bilanciare il richiamo e la precisione per trovare idealmente qualcosa che sia a metà tra questi due elementi. Si noti che più il set di dati è sbilanciato, più è probabile che il punteggio F1 sia basso anche a parità di accuratezza complessiva.
Se il valore F1 è alto, tutte le altre metriche di punteggio saranno alte. Se il valore è basso, è segno che è necessario effettuare ulteriori analisi. Tuttavia, se il punteggio è molto alto o se il punteggio di controllo è molto più basso del punteggio della convalida incrociata, potrebbe essere un segno di perdita di dati.
F1 è calcolato come: 2 x ((Precisione x Richiamo) / (Precisione + Richiamo))
Richiamo
Il valore Richiamo indica la percentuale di veri positivi. Misura la frequenza con cui il modello ha previsto con precisione che qualcosa fosse effettivamente vero. Ovvero, con quale accuratezza il modello ha trovato tutti i casi reali all'interno di un set di dati? Il richiamo è la misura di un buon recupero della classe positiva. Si calcola nel modo seguente: TP / (TP + FN)
Precisione
La precisione è nota anche come valore predittivo positivo. Misura la probabilità che il modello fosse corretto quando ha previsto che qualcosa è vero. Si calcola nel modo seguente: TP / (TP + FP)
Compromesso tra richiamo e precisione
Le operazioni di richiamo possono essere descritte come l'ampiezza della rete che il modello proietta: ha acquisito tutti i valori true, anche se ha realizzato delle previsioni con risultati positivi falsi. Ha acquisito il maggior numero possibile di valori true? La precisione può essere considerata come l'inverso del richiamo. In questo caso vogliamo essere sicuri che quando il modello prevede la verità, sia molto preciso nel farlo. Tuttavia, con un'elevata precisione si finisce per avere un maggior numero di falsi negativi, in cui il modello prevede il falso anche quando qualcosa è vero.
Esiste un compromesso tra il non perdere alcun risultato vero e l'essere sicuri che nessuno dei risultati previsti come veri sia in realtà falso. L'opportunità di privilegiare una maggiore precisione o un maggiore richiamo dipende dal caso d'uso aziendale. Ad esempio, nella previsione della diagnosi di una malattia, si vuole essere sicuri di non perdere pazienti che in realtà hanno la malattia, cioè i falsi negativi.
-
Se il "costo" di un falso negativo è elevato, potrebbe essere giustificato un modello orientato verso un richiamo elevato.
-
Se il "costo" di un falso positivo è elevato, potrebbe essere giustificato un modello orientato verso un'elevata precisione.
Accuratezza
L'accuratezza misura la frequenza con cui il modello ha fatto una previsione corretta in media. Si calcola nel seguente modo: (TP + TN) / (Tutte le previsioni)
Specificità
La specificità è il tasso di veri negativi. Misura la frequenza con cui il modello ha previsto con precisione il falso quando qualcosa era effettivamente falso. Si calcola nel modo seguente: TN / (FP + TN)
MCC
Il coefficiente di correlazione di Matthews (MCC) varia da -1 a 1, dove 1 significa che il modello ha previsto correttamente ogni campione. L'MCC si calcola nel modo seguente: ((TP x TN) - (FP x FN)) / [(TP + FP) x (FN + TN) x (FP + TN) x (TP + FN)]^(1/2)
Frequenza mancati
Il miss rate è il tasso di falsi negativi. È il rapporto tra il numero di falsi negativi e il numero totale di eventi effettivamente positivi. Si calcola nel modo seguente: FN / (TP + FN)
Fallout
Il fallout è il tasso di falsi positivi. È il rapporto tra il numero di falsi positivi e il numero totale di eventi negativi effettivi. Si calcola nel modo seguente: FP / (FP + TN)
VAN
Il valore predittivo negativo (VAN) misura la probabilità che il modello fosse corretto quando ha fatto una previsione su qualcosa che è falso. Si calcola nel modo seguente: TN / (FN + TN)
Log loss
Il log loss è una misura comune per l'accuratezza nella regressione logistica. Un valore di log loss più basso significa una previsione migliore: un modello perfetto avrebbe un log loss pari a 0.
AUC e curva ROC
L'area sotto la curva (AUC) è una metrica di precisione più complessa che può aiutare a capire quanto sia deterministico un modello. Descrive la capacità del modello di prevedere la classe positiva quando il risultato effettivo è positivo.
L'AUC è definita come l'area sotto una curva ROC. La curva ROC traccia il tasso di falsi positivi (asse x) rispetto al tasso di veri positivi (asse y) per una serie di valori di soglia diversi compresi tra 0,0 e 1,0. In altre parole, traccia il tasso di falsi allarmi rispetto al tasso di successo. Questa curva è utile per capire se la separazione tra le classi è possibile, indicando se i dati sono abbastanza buoni da distinguere accuratamente tra gli esiti previsti.
Il tasso di veri positivi è calcolato nel modo seguente: TP / (TP + FN)
-
Più il tasso di veri positivi è vicino a 1,0 - la massima area possibile sotto la curva - più il modello è deterministico.
-
Più il tasso di veri positivi è vicino allo 0,5, meno il modello è deterministico.
L'immagine sottostante mostra una buona curva ROC. È positivo perché la curva deve essere il più possibile vicina a 1, il che dà un'AUC elevata. La linea tratteggiata rappresenta la casualità, 50:50. Se l'AUC è bassa, la curva è considerata scarsa.
Soglia
La soglia è la probabilità che una previsione sia vera. Rappresenta il compromesso tra falsi positivi e falsi negativi. Il valore di soglia è determinato per ogni algoritmo e probabilmente ci sarà un valore di soglia diverso per ogni algoritmo nel modello.
Regolazione della soglia
La regolazione della soglia è un modo efficace per garantire che venga selezionato il valore di soglia corretto per ottimizzare i punteggi F1 dei modelli di classificazione binaria. AutoML calcola la precisione e il richiamo per centinaia di possibili soglie da 0 a 1. Viene scelta la soglia che ottiene il punteggio F1 più alto.
La selezione della soglia, invece di affidarsi alla soglia predefinita di 0,5, produce previsioni più solide per i set di dati che presentano uno squilibrio nel numero di casi positivi e negativi.
Nel grafico, la soglia è impostata su 0,5. In questo caso, i record che erano effettivamente veri e la cui previsione era inferiore a 0,5 hanno ottenuto l'etichetta di previsione falsa (falso negativo).
Modificando la soglia che decide se un record è previsto come vero o falso, si può ottenere una polarizzazione verso un richiamo più alto o una precisione più alta.