Revisar y perfeccionar los modelos
Una vez finalizada la primera versión del entrenamiento del modelo, analice las métricas del modelo resultante y configure nuevas versiones del experimento hasta que haya logrado los resultados que necesita.
Cuando ejecute la versión del experimento, se le lleva a la pestaña Modelos, donde puede comenzar a analizar las métricas del modelo resultante. Puede acceder a la vista de esquema y a la vista de datos volviendo a la pestaña Datos. Se pueden realizar análisis más granulares en las pestañas Comparar y Analizar.
Sabrá que la primera versión del entrenamiento finalizó cuando todas las métricas se rellenen en la tabla Métricas del modelo y aparezca un icono de trofeo junto al modelo superior.
Análisis de los modelos desde v1
Cambie de nuevo a la pestaña Modelos. En la tabla Métricas del modelo, el mejor modelo se puntúa con un icono de trofeo . Esto significa que es el modelo de mejor rendimiento según la puntuación F1.
Cambie de nuevo a la pestaña Modelos. En la tabla Métricas del modelo, el mejor modelo se puntúa con un icono de trofeo . Esto significa que es el modelo de mejor rendimiento según la puntuación F1.
Ordene los modelos por rendimiento, de mayor a menor, haciendo clic en el encabezado de la columna F1. Podría optar por excluir los algoritmos de bajo rendimiento o centrarse solo en el mejor para obtener resultados más rápidos en la próxima iteración del entrenamiento. Abordaremos esto al configurar v3 en una sección posterior.
Identificar la fuga de datos
Observe los gráficos de información del modelo en la parte derecha de la página. Estos gráficos le dan una indicación de la importancia relativa de cada característica, así como del rendimiento del modelo.
Desde el gráfico Importancia de la permutación, así como en la lista de Características del panel de Configuración del experimento, observe que esta primera iteración del modelo se basa en gran medida en la característica DaysSinceLastService y todas las demás características casi no tienen importancia en comparación con ella.
Esta disparidad y las puntuaciones de rendimiento F1 extremadamente altas de los modelos deben verse como una señal de que algo va mal. En este caso, no se definió una lógica durante la recopilación de datos para detener el recuento de la cantidad de días desde el último ticket de servicio de un cliente para los clientes que cancelaron su suscripción. Como resultado, el modelo aprendió a asociar una gran cantidad de días desde el último ticket de servicio (presente para clientes que cancelaron hace años) con un valor de yes en el campo Churned.
Este es un ejemplo de fuga de datos, ya que en un escenario del mundo real, el modelo solo tendría acceso a la información hasta que se realice la predicción, y la cantidad de días contenidos en este campo se recopilaron más allá de ese punto de medición. Este problema se conoce como fuga de objetivos, que es una forma de filtración de datos. Para más información sobre la fuga de datos, consulte Fuga de datos.
Necesitamos eliminar la característica DaysSinceLastService, que tiene fugas, de la configuración del experimento, ya que está sesgando los modelos resultantes. Tenga en cuenta que en un caso de uso de la vida real, debe haber una investigación exhaustiva sobre la calidad y la lógica de los datos, antes de la creación del modelo, para garantizar que el modelo resultante se entrene correctamente.
Abordaremos este problema al configurar la v2.
Configurar y ejecutar la versión 2
Configuremos una nueva versión para hacer frente a la fuga de datos.
Haga lo siguiente:
Haga clic en Ver configuración para ampliar el panel de configuración del experimento.
Haga clic en Nueva versión.
En el panel, en Características, borre la casilla de verificación DaysSinceLastService.
Haga clic en Ejecutar v2.
Análisis de los modelos desde v2
Una vez que la segunda versión del experimento haya terminado de ejecutarse, haga clic en la casilla de verificación junto al modelo v2 de mejor rendimiento en la tabla Métricas del modelo (marcado con un icono de trofeo ). Esto actualiza la página con las métricas para ese modelo.
Comparación de las métricas de entrenamiento y retención
Puede ver métricas adicionales y comparar las métricas del entrenamiento de validación cruzada con las métricas de retención.
Haga lo siguiente:
En el experimento, cambie a la pestaña Comparar.
Se abre un análisis integrado. Puede utilizar la interfaz interactiva para profundizar en el análisis de su modelo comparativo y descubrir información nueva.
En el panel Hojas de la parte derecha del análisis, cambie a la hoja Details.
Observe la tabla Model Metrics. Muestra las métricas de puntuación de los modelos, como F1, así como otra información.
La versión 1 del entrenamiento se vio afectada por la fuga de objetivos, así que centrémonos solo en la v2. Utilice el panel de filtrado Version de la parte derecha de la hoja para seleccionar el valor 1.
En la sección Columns to show, utilice el panel de filtrado para añadir y eliminar columnas en la tabla.
En el cuadro de la lista desplegable, añada métricas adicionales. Las puntuaciones de entrenamiento para cada métrica se muestran como valores terminados en Train. Añada algunas métricas de entrenamiento a la tabla.
Ahora puede ver las métricas F1 del entrenamiento de validación cruzada y compararlas con las métricas retenidas.
Identificación de características de escasa importancia
A continuación, debemos comprobar si hay características con una importancia de permutación baja. Las características que tienen poca o ninguna influencia en el modelo deben eliminarse para mejorar la exactitud de la predicción.
Haga lo siguiente:
En el experimento, cambie de nuevo a la pestaña Modelos.
Eche un vistazo al gráfico Importancia de la permutación. Las cuatro características inferiores: StartMonth, DeviceType, CustomerTenure y Territory influyen mucho menos en nuestro modelo que las otras características. Tienen poco valor para este caso de uso y pueden considerarse ruido estadístico.
En v3, podemos eliminar algunas de esas características para ver si mejoran las puntuaciones del modelo.
Identificación de algoritmos de bajo rendimiento
También podemos consultar la tabla Métricas del modelo para ver si podemos eliminar algún algoritmo del entrenamiento de v3. Puede eliminar los algoritmos de bajo rendimiento al perfeccionar los modelos para que el entrenamiento sea más rápido en las iteraciones posteriores.
En el experimento, cambie de nuevo a la pestaña Modelos.
En la tabla Métricas del modelo, utilice el filtro Versión para mostrar solo los modelos de la v2.
Observe las puntuaciones F1 de cada Algoritmo. Si determinados algoritmos están creando modelos cuyas puntuaciones son significativamente más bajas que las de otros, podemos eliminarlos de la próxima versión.
Configurar y ejecutar la versión 3
Haga lo siguiente:
Haga clic en Ver configuración para ampliar el panel de configuración del experimento.
Haga clic en Nueva versión.
En el panel, en Características, borre las casillas de verificación para StartMonth, DeviceType, CustomerTenure y Territory.
De manera opcional, expanda Algoritmos y borre las casillas de verificación para Naive Bayes gaussiano y Regresión logística.
Haga clic en Ejecutar v3.
Análisis de los modelos desde v3
Una vez ejecutada la v3, puede borrar el filtro Versión de la tabla Métricas del modelo. Seleccione el modelo de mayor rendimiento de la v3.
Hagamos una comparación rápida de los modelos en todas las versiones.
La primera versión del entrenamiento dio como resultado las puntuaciones más altas, pero estas métricas eran predictores de rendimiento muy exagerados y poco realistas, efectos ocasionados por el problema de la fuga de datos.
Como ya se ha explicado, puede cambiar a la pestaña Comparar para realizar una comparación más profunda de las puntuaciones de los modelos.
Concentración en un modelo específico
En cualquier momento del análisis del modelo, puede realizar un análisis granular de un modelo individual. Explore la exactitud de la predicción, la importancia de las características y su distribución con una experiencia interactiva de Qlik Sense.
Haga lo siguiente:
Con el modelo v3 de mayor rendimiento seleccionado, haga clic en la pestaña Analizar.
Se abre un análisis integrado.
Con la hoja Model Overview, puede analizar la exactitud de la predicción del modelo. El análisis se ve favorecido por el poder de las selecciones. Haga clic en una característica o en un valor predicho para realizar una selección. Los datos del análisis integrado se ajustan para filtrar los datos. Puede profundizar en valores y rangos de características específicos para ver cómo cambian la influencia de las características y la exactitud de la predicción.
Si pasa a las otras hojas, obtendrá visualizaciones de la exactitud de la predicción, la distribución de las características y la distribución del impacto (SHAP). Este contenido analítico puede ayudarle a lo siguiente:
Descubrir los factores clave que influyen en las tendencias de los datos.
Identifique cómo afectan las características y cohortes específicas a los valores pronosticados y a la exactitud de la predicción.
Identificar los valores atípicos en los datos.
Siguientes pasos
En un escenario en el mundo real, es importante repetir estos pasos de perfeccionamiento tantas veces como sea necesario antes de implementar su modelo, para asegurarse de tener el mejor modelo posible para su uso en particular.
En este tutorial, pase a la siguiente sección para ver cómo implementar su modelo.