Vai al contenuto principale Passa a contenuto complementare

Importanza delle caratteristiche

L'importanza delle caratteristiche misura l'impatto di ciascuna caratteristica sul target. Può aiutare a identificare i problemi del set di dati e a migliorare il modello. L'importanza delle caratteristiche è composta da due visualizzazioni distinte: l'importanza della permutazione e l'importanza SHAP.

L'interpretazione semplicistica dell'importanza delle caratteristiche è che la modifica della variabile più importante per le caratteristiche modificherà la variabile target più di qualsiasi altra variabile. La modifica di due delle variabili più importanti per le caratteristiche avrà probabilmente un impatto maggiore rispetto alla modifica di una sola, ma il principio è che qualcosa con un'importanza molto bassa per le caratteristiche probabilmente non ha un grande potere di previsione. Controllarla o modificarla potrebbe non fare la differenza.

Utilizzo dell'importanza delle caratteristiche

L'importanza delle caratteristiche può essere utile per identificare i problemi dei dati utilizzati per il training del modello. Ad esempio, supponiamo che si desideri prevedere se un'opportunità di vendita si concluderà o meno, ma ci si dimentichi di escludere una colonna con la data di chiusura della vendita. Questa sarebbe probabilmente la colonna con la maggiore previsione e quindi con la maggiore importanza delle caratteristiche. Se si include tale colonna, il modello avrà prestazioni migliori nella realtà, poiché quando si cerca di prevedere il risultato binario per determinare se una vendita si concluderà o meno, non si avrà accesso alla data di chiusura.

L'importanza delle caratteristiche può anche aiutare a trovare modi per migliorare iterativamente un modello. I valori più importanti per le caratteristiche possono talvolta essere una buona base su cui segmentare. Ad esempio, un flag per il pagamento automatico potrebbe essere molto importante per le caratteristiche. Potremmo utilizzare questa caratteristica per segmentare i dati e addestrare un modello sui clienti impostati per il pagamento automatico e un altro modello sui clienti senza pagamento automatico. I due modelli potrebbero funzionare meglio rispetto al nostro primo modello.

In altri casi, si può essere in grado di acquisire o progettare caratteristiche che rappresentino meglio ciò che una variabile più importante descrive, senza aggiungere ridondanza. Ad esempio, una variabile molto importante potrebbe essere la famiglia di prodotti che un'azienda produce. La suddivisione della famiglia di prodotti in alcune caratteristiche più descrittive dei prodotti potrebbe essere più significativa.

Confronto tra l'importanza della permutazione e l'importanza SHAP

L'importanza della permutazione e l'importanza SHAP sono modi alternativi di misurare l'importanza delle caratteristiche. La differenza principale è che l'importanza della permutazione si basa sulla diminuzione delle prestazioni del modello, mentre l'importanza SHAP si basa sull'entità delle attribuzioni delle caratteristiche.

Come utilizzare i valori

L'importanza della permutazione può essere utilizzata per:

  • Capire quali caratteristiche mantenere e quali escludere.

  • Verificare la presenza di perdite di dati.

  • Capire quali sono le caratteristiche più importanti per l'accuratezza del modello.

  • Guidare la progettazione di funzioni aggiuntive.

L'importanza SHAP può essere utilizzata per:

  • Capire quali caratteristiche influenzano maggiormente il risultato previsto.

  • Approfondire una caratteristica e capire come i diversi valori di quella caratteristica influenzano la previsione.

  • Capire cosa influenza maggiormente le singole righe o i sottoinsiemi all'interno dei dati.

Livello dati

L'importanza della permutazione è calcolata sull'intero set di dati. In particolare, quanto cambia l'accuratezza dell'intero set di dati eliminando una caratteristica. Non può essere utilizzata per comprendere l'influenza sulle singole righe.

L'importanza SHAP è calcolata a livello di riga e può essere utilizzata per capire cosa è importante per una riga specifica. I valori rappresentano l'influenza di una caratteristica sulla previsione di una singola riga rispetto al risultato medio del set di dati.

Influenza dei valori delle caratteristiche

L'importanza della permutazione non può essere utilizzata per capire quali valori all'interno di una caratteristica sono più importanti.

I valori dell'importanza SHAP possono essere utilizzati per capire come i valori all'interno di una specifica caratteristica influenzino il risultato.

Direzione

L'importanza della permutazione non include una direzione.

I valori dell'importanza SHAP sono direzionali. Possono essere positivi o negativi a seconda della direzione in cui hanno influenzato il risultato previsto.

Ampiezza

L'ampiezza dell'importanza della permutazione misura l'importanza della caratteristica per la previsione complessiva del modello.

L'ampiezza dell'importanza SHAP è la misura in cui una specifica caratteristica influenza la previsione di una riga rispetto alla previsione media del set di dati.

Ulteriori informazioni

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!