Saltar al contenido principal Saltar al contenido complementario

Comprensión de la importancia de las características

La importancia de las características mide qué impacto tiene cada característica en el objetivo. Puede ayudarle a identificar problemas en el conjunto de datos y mejorar el modelo. La importancia de la característica se compone de dos visualizaciones distintas: la importancia de la permutación y la importancia de SHAP.

La interpretación simplista de la importancia de la característica es que cambiar la variable más importante de la característica cambiará la variable objetivo más que cambiar cualquier otra variable. Cambiar dos de las variables más importantes de las características probablemente tendrá un mayor impacto que cambiar solo una, pero el principio es que algo con una importancia de característica muy baja probablemente no tenga mucho poder de predicción. Controlarlo o cambiarlo podría no marcar la diferencia.

Utilizar la importancia de las características

La importancia de las características puede ser útil para identificar problemas con los datos que se utilizan para entrenar el modelo. Por ejemplo, supongamos que estamos tratando de predecir si una oportunidad de venta se cerrará o no, y nos olvidamos de excluir una columna que contiene la fecha del cierre de la venta. Esa sería probablemente la columna con mayor poder de predicción y, por lo tanto, tendría la característica más importante. Incluirla haría que el modelo funcionara mejor que en la vida real, porque cuando tratamos de predecir el resultado binario de si una venta se cierra o no, no tendremos acceso a la fecha de cierre.

La importancia de las características también puede ayudarle a encontrar formas de mejorar un modelo de forma iterativa. Los valores más importantes de características a veces pueden constituir una buena base para segmentar. Como ejemplo, tal vez un indicador de pago automático sea una característica muy importante. Podríamos utilizar esta característica para segmentar los datos y entrenar un modelo en los clientes que están configurados para el pago automático y otro modelo en los clientes sin pago automático. Los dos modelos podrían hacer un mejor trabajo que nuestro primer modelo.

En otros casos, es posible que pueda capturar o diseñar características que representen mejor lo que describe una variable más importante de características, sin agregar redundancia. Por ejemplo, una variable muy importante podría ser la familia de productos que fabrica una empresa. Dividir la familia de productos en algunas características más descriptivas sobre los productos podría ser más significativo.

Comparar la importancia de la permutación y la importancia de SHAP

La importancia de la permutación y la importancia de SHAP son formas alternativas de medir la importancia de las características. La principal diferencia es que la importancia de la permutación se basa en la disminución del rendimiento del modelo, mientras que la importancia de SHAP se basa en la magnitud de las atribuciones de características.

Cómo usar los valores

La importancia de la permutación se puede utilizar para:

  • Entender qué características conservar y cuáles excluir.

  • Comprobar si hay fuga de datos.

  • Comprender qué características son más importantes para la precisión del modelo.

  • Guiar la ingeniería de características adicionales.

La importancia de SHAP se puede utilizar para:

  • Entender qué características influyen más en el resultado previsto.

  • Sumergirse en una característica y comprender cómo los diferentes valores de esa característica afectan a la predicción.

  • Comprender qué es lo que más influye en filas individuales o subconjuntos dentro de los datos.

Nivel de datos

La importancia de la permutación se calcula en todo el conjunto de datos. Específicamente, cuánto cambia la precisión de todo el conjunto de datos al eliminar una característica. No se puede utilizar para comprender la influencia en filas individuales.

La importancia de SHAP se calcula a nivel de fila y puede emplearse para comprender qué es importante para una fila específica. Los valores representan cómo una característica influye en la predicción de una sola fila en relación con el resultado promedio en el conjunto de datos.

Influencia de los valores de las características

La importancia de la permutación no se puede utilizar para comprender qué valores dentro de una característica son los más importantes.

Los valores de importancia de SHAP pueden servir para comprender cómo influyen los valores de una característica específica en el resultado.

Dirección

La importancia de la permutación no incluye una dirección.

Los valores de importancia de SHAP son direccionales. Pueden ser positivos o negativos según la dirección en la que influyeron en el resultado previsto.

Magnitud

La magnitud de la importancia de la permutación mide qué relevancia tiene la característica para la predicción general del modelo.

La magnitud de la importancia de SHAP es cuánto influye una característica específica en la predicción de una fila para que sea diferente de la predicción promedio para el conjunto de datos.

Más información

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.