Comprensión de la importancia de SHAP en el entrenamiento de experimentos
La importancia de SHAP ofrece una visión clave acerca de las predicciones creadas en los experimentos. Puede ayudarle a comprender qué características son las más importantes para la predicción.
Los valores SHAP representan cuánto contribuye cada característica al valor previsto del objetivo, dadas todas las demás características de esa fila.
Después de entrenar una versión del experimento, seleccione un modelo. El gráfico de importancia de SHAP en la pestaña Modelos situada debajo de la tabla visualiza los datos SHAP de las predicciones del modelo creadas en los datos de retención (prueba).
Este tema de ayuda se centra en la importancia de SHAP en el entrenamiento experimental. Para obtener información sobre los conjuntos de datos de importancia SHAP generados durante una predicción, consulte Generar conjuntos de datos SHAP durante las predicciones.
General
La importancia de SHAP se mide a nivel de fila. Representa cómo influye una característica en la predicción de una fila en relación con las demás características de esa fila y con el resultado promedio del conjunto de datos. El valor tiene dirección y magnitud, pero para el entrenamiento de modelos, la importancia de SHAP se representa en forma de valor absoluto.
En el gráfico de importancia de SHAP, se agregan los valores a nivel de fila. Esto le permite comprender la influencia de las características dentro de subconjuntos de datos.
Experimentos de regresión y clasificación binaria
En un experimento de regresión o clasificación binaria, el gráfico de importancia de SHAP para cada versión del modelo es un gráfico de barras que muestra el valor SHAP absoluto promedio para cada característica del experimento. La importancia de SHAP se ordena de mayor a menor valor. El gráfico indica qué características ejercen la mayor y la menor influencia en el resultado previsto del objetivo, independientemente de cuál sea el resultado determinado.
Experimentos de clasificación multiclase
En un experimento de clasificación multiclase, hay múltiples opciones para la presentación del gráfico de importancia de SHAP. Tenemos las siguientes opciones:
Característica SHAP presentada como un total
Destacar valores SHAP separados por clase
Gráficos de importancia de SHAP de clase única
Característica SHAP presentada como un total
Por defecto, el gráfico de importancia de SHAP estará configurado con el parámetro Todas las clases: Característica SHAP promedio.
Esta configuración muestra la importancia de SHAP de cada característica, independientemente del resultado previsto del objetivo. Las características en el gráfico están ordenadas por valor SHAP absoluto promedio total y no están separadas por clase.
Destacar valores SHAP separados por clase
Para visualizar el grado de influencia de cada característica en el resultado de que el objetivo sea un valor de cada clase en el experimento, seleccione el ajuste Característica SHAP por clase. La configuración puede establecerse en Agrupado o Apilado. Los valores SHAP absolutos promedio de cada clase del experimento se presentan con colores diferentes para permitir la comparación por clases.
Por ejemplo, supongamos que el campo objetivo de su experimento tiene cuatro clases o resultados posibles (Plan púrpura, Plan verde, Plan azul o Plan rojo). La barra multicolor de cada característica desglosará el grado de influencia que esa característica ha ejercido sobre cada uno de los cuatro resultados posibles del experimento. Si observa la longitud total de la barra, verá la influencia total que ha ejercido la característica sobre la predicción del objetivo, independientemente del resultado previsto.
Gráficos de importancia de SHAP de clase única
También tiene la opción de ver un gráfico de importancia de SHAP por cada uno de los posibles resultados de la predicción del objetivo. Se presentan los valores de SHAP absolutos promedio para los resultados previstos de una única clase.
Por ejemplo, si el objetivo de su experimento tiene cuatro resultados posibles, puede ver cuatro gráficos distintos en los que se desglosan las características más influyentes para las predicciones que dan lugar a cada uno de los cuatro resultados posibles.
Calcular los valores de SHAP
Los valores SHAP se calculan para una variedad de algoritmos. La importancia de SHAP se calcula mediante dos métodos distintos:
Árbol SHAP: Un método rápido y exacto para estimar los valores SHAP de los modelos arbóreos
SHAP lineal: Un método para calcular los valores SHAP de los modelos lineales
Algoritmo | Tipos de modelos admitidos | Método de cálculo de SHAP |
---|---|---|
Clasificación Random Forest | Clasificación binaria, clasificación multiclase | Árbol SHAP |
Clasificación XGBoost | Clasificación binaria, clasificación multiclase | Árbol SHAP |
Clasificación LightGBM | Clasificación binaria, clasificación multiclase | Árbol SHAP |
Clasificación Catboost | Clasificación binaria, clasificación multiclase | Árbol SHAP |
Regresión logística | Clasificación binaria, clasificación multiclase | SHAP lineal |
Regresión de lazo | Clasificación binaria, clasificación multiclase | SHAP lineal |
Regresión neta elástica | Clasificación binaria, clasificación multiclase | SHAP lineal |
Naive Bayes gausiano | Clasificación binaria, clasificación multiclase | SHAP no calculado |
Regresión Catboost | Regresión | Árbol SHAP |
Regresión LightGBM | Regresión | Árbol SHAP |
Regresión lineal | Regresión | SHAP lineal |
Regresión Random Forest | Regresión | Árbol SHAP |
Regresión SGD | Regresión | SHAP lineal |
Regresión XGBoost | Regresión | Árbol SHAP |
Análisis de factores clave
Puede crear análisis de factores clave directamente en una app de Qlik Sense para comparar la importancia de factores particulares en los datos de un negocio o métrica de rendimiento en particular. El análisis de factores clave funciona calculando los valores de SHAP a nivel de fila para cada factor que se considera y mostrándolos en forma agregada. Esto proporciona una vista de alto nivel de lo que impulsa las tendencias y el comportamiento en los datos de su aplicación. Puede utilizar los resultados del análisis de factores clave para mejorar el conocimiento acerca de los datos de su organización y tomar decisiones mejor fundamentadas y más efectivas.
Para obtener más información, consulte Descubrir los factores que más influyen en sus datos mediante el análisis de factores clave.