Interpretazione dei punteggi del modello
I punteggi del modello sono misure tecniche che indicano la qualità delle previsioni dei dati di addestramento generate dai modelli. Oltre all'importanza delle funzioni, i punteggi del modello sono un aspetto chiave dell'analisi del modello.
Metriche di punteggio del modello
Le metriche chiave da utilizzare per il punteggio del modello varia in base al tipo di problema. Il tipo di problema può essere una classificazione binaria, una classificazione multiclasse o una regressione. Per ulteriori informazioni, vedere i seguenti argomenti della guida:
-
Problemi di classificazione binaria: Valutazione dei modelli di classificazione binaria
-
Problemi di classificazione multiclasse: Modelli di classificazione multiclasse a punteggio
-
Problemi di regressione: Modelli di regressione a punteggio
Perché il punteggio del modello è importante
Lo scopo dei diversi punteggi del modello è comprendere i punti di forza del modello. Ciò aumenterà la fiducia nell'usabilità del modello e mostrerà quali miglioramenti possono essere apportati. Se il punteggio è molto alto o molto basso, potrebbe indicare che c'è un problema con i dati forniti al modello.
La valutazione di un modello è un compito impegnativo perché esistono diverse metriche che descrivono aspetti diversi del modello. Per sapere se si tratta di un buon modello, è necessario combinare la conoscenza del dominio aziendale con la comprensione delle varie metriche di punteggio e dei dati con cui il modello è stato formato. Quello che potrebbe sembrare un punteggio pessimo in un caso d'uso, potrebbe essere un ottimo punteggio e generare un elevato ritorno sull'investimento in un altro caso d'uso.
La metrica più importante: un'analogia con le auto
Quale metrica è più importante? Dipende da come si intende utilizzare il modello. Non esiste un'unica metrica in grado di dire tutto quello che si necessita sapere.
Per analogia, si pensi all'acquisto di un'auto. Ci sono molti parametri diversi da considerare, come consumo di carburante, potenza dei cavalli, la coppia, il peso e l'accelerazione. Sebbene si desideri che tutti i valori descritti sopra siano ideali, è necessario fare dei compromessi a seconda dell'uso che si intende fare dell'auto. Un pendolare potrebbe volere un'auto con un'elevata efficienza nei consumi anche se ciò comporta una coppia ridotta, mentre il proprietario di una barca potrebbe scegliere una coppia elevata anche se ciò comporta consumi elevati.
Si può considerare un modello allo stesso modo. L'ideale sarebbe che tutte le metriche fossero elevate (e potrebbe essere possibile migliorarle con più dati e funzioni migliori), ma ci sono sempre vincoli e compromessi da considerare. Alcuni punteggi sono più importanti a seconda dell'uso che si intende fare del modello.
Il modello si adatta bene?
Per determinare se un modello è adatto per il caso di utilizzo e se è adatto per essere messo in produzione, in definitiva bisogna porsi la domanda: "Il modello è abbastanza accurato per ottenere un buon ritorno sugli investimenti senza conseguenze inaccettabili?" Le quattro domande che seguono possono aiutare a scomporre il problema.
Il modello informa una decisione umana o la automatizza?
L'accuratezza richiesta dipende dall'utilizzo del modello per automatizzare o prendere decisioni informate. Ad esempio, si può addestrare un modello per determinare quanto dovrebbero guadagnare i dipendenti. In questo caso, l'accuratezza dovrà probabilmente essere maggiore se il modello automatizza la decisione rispetto a quando si limita a informare una decisione. Se i manager lo usano per scoprire se un dipendente è sottopagato o sovrapagato, possono poi usare la loro discrezione per determinare se il modello stia sbagliando o meno.
Esiste un costo quantificabile per un falso positivo o un falso negativo?
Si è in grado di quantificare il costo di un risultato errato? Tenere conto di questo costo quando si stabilisce il livello di precisione necessario per considerare il modello un buon adattamento.
Utilizzando lo stesso esempio di cui sopra, diciamo che il modello si limita a informare. Tuttavia, il manager si fida del modello e non concede un aumento di stipendio a un dipendente perché il modello indica che il dipendente sarebbe strapagato se gli venisse concesso un aumento. Il dipendente si dimette per andare a lavorare altrove. Qual è stato il costo della perdita di quel dipendente? Se fosse accaduto il contrario, quale sarebbe stato il costo dell'aumento inappropriato concesso?
Quanto è migliore il modello rispetto a quello casuale?
Per i problemi di regressione, determinare quale sarebbe l'errore se si assumesse sempre il valore medio della colonna target. Quanto è migliore il modello rispetto a questo?
Per i problemi di classificazione, prendere il tasso della classe positiva al quadrato e sommarlo al tasso della classe negativa al quadrato per ottenere un'accuratezza casuale. Quanto è migliore l'accuratezza del modello?
Il modello è migliore di un ultimatum?
A seconda che vi sia un costo associato agli errori, si può valutare se il modello è migliore di un ultimatum. Ad esempio, supponiamo che uno studio faccia consulenze gratuite che sono costose e richiedono molto tempo (6.000 dollari), ma che guadagni bene quando si conclude un affare (60.000 dollari). Attualmente l'azienda parte dal presupposto che il 100% delle consultazioni si concluderà. Tuttavia, i profitti sarebbero migliori se potessero stabilire quali consulenze effettuare e quali no. Quale deve essere l'accuratezza del modello affinché l'azienda utilizzi i risultati del modello invece dell'ultimatum di chiudere il 100% delle transazioni?
Importanza funzione
Sebbene i valori di importanza della funzione tecnicamente non sono considerati punteggi del modello, sono metriche chiave per la valutazione delle prestazioni predittive dei modelli. La valutazione dell'importanza può anche aiutare a identificare i problemi nella configurazione dell'esperimento e nei dati di addestramento, come le perdite di dati.
Per ulteriori informazioni, vedere Nozioni sull'importanza delle funzioni.