Comprensión de la importancia de la permutación
La importancia de la permutación es una medida de la importancia de una característica para la predicción global de un modelo. En otras palabras, cómo se vería afectado el modelo si se eliminara su capacidad de aprender de esa característica. La métrica puede ayudarle a refinar un modelo cambiando qué características y algoritmos incluir.
La importancia de la permutación se calcula utilizando la importancia de la permutación de scikit-learn. Mide la disminución en la puntuación del modelo después de permutar la característica.
-
Una característica es «importante» si mezclar sus valores reduce la puntuación del modelo, porque en este caso el modelo se basó en la característica para la predicción.
-
Una característica es «sin importancia» si la combinación aleatoria de sus valores deja el rendimiento del modelo sin cambios, porque en este caso el modelo ignoró la característica para la predicción.
En el gráfico de importancia de la permutación, las características se muestran en orden desde la influencia más alta (mayor impacto en el rendimiento del modelo) hasta la influencia más baja (menor impacto en el rendimiento del modelo). El tamaño de la barra representa la importancia de cada característica.
Se genera automáticamente un gráfico de importancia de permutación para cada modelo que se entrena durante un experimento. El gráfico se muestra en la pestaña Modelos.
Uso de la importancia de la permutación para elegir columnas de características
Cuando itera el entrenamiento del modelo, puede observar la importancia de la permutación para determinar qué columnas conservar y qué columnas excluir. Tenga en cuenta qué características son más importantes para varios modelos. Es probable que estas sean las características con el mayor valor predictivo y buenas candidatas para conservar a medida que refina su modelo. Del mismo modo, es probable que las características que se encuentran constantemente al final de la lista no tengan mucho valor predictivo y sean buenas candidatas para excluirlas.
Si un algoritmo obtiene una puntuación significativamente mejor que los demás, concéntrese en el gráfico de importancia de la permutación para ese algoritmo. Si varios algoritmos tienen puntuaciones similares, puede comparar los gráficos de importancia de permutación para esos algoritmos.
Uso de la importancia de la permutación para elegir algoritmos
Cada algoritmo tiene un enfoque único para aprender patrones a partir de los datos de entrenamiento. Los experimentos se entrenan con varios algoritmos para ver qué enfoque funciona mejor para el conjunto de datos específico. Los diferentes enfoques se reflejan en variaciones en la importancia de la permutación para diferentes algoritmos. Por ejemplo, la característica A podría ser más importante para el modelo de regresión logística, mientras que la característica B es más importante con el enfoque de Clasificación XGBoost para los mismos datos. En general, se espera que las características con mucho poder predictivo sean las características principales de los algoritmos, pero es común ver variaciones.
Puede utilizar esta variación en la importancia de la permutación cuando elige entre algoritmos con puntuaciones similares. Seleccione el algoritmo con las mejores características que sean más intuitivas dado su conocimiento empresarial específico.
Disponibilidad de la importancia de la permutación.
Incluir funciones de texto libre en su experimento aumenta la complejidad del experimento y los procesos necesarios para ejecutarlo. Es posible que los gráficos de importancia de la permutación no estén disponibles para los modelos resultantes si sus datos de texto libre son demasiado complejos.