Saltar al contenido principal Saltar al contenido complementario

Revisar y perfeccionar versiones de modelos

Una vez finalizada la primera versión del entrenamiento del modelo, analice las métricas del modelo resultante y configure nuevas versiones del experimento hasta que haya logrado los resultados que necesita.

Cuando ejecute la versión del experimento, se le lleva a la vista del modelo, donde puede analizar las métricas del modelo resultante. Puede cambiar a la vista de esquema o de datos en cualquier momento. Cuando necesite volver a la vista del modelo, haga clic en el icono Objecto de la vista del modelo.

Sabrá que la primera versión del entrenamiento finalizó cuando todas las métricas se rellenen en la tabla Métricas del modelo y aparezca un icono de trofeo Trofeo junto al modelo superior.

Nota informativaAutoML mejora continuamente sus procesos de entrenamiento de modelos. Por lo tanto, es posible que observe que las métricas del modelo y otros detalles mostrados en las imágenes de esta página no son idénticos a los suyos cuando complete estos ejercicios.

Analizar el modelo

En la vista del modelo, podemos ver que el algoritmo superior se puntúa con un icono de trofeo Trofeo. Esto significa que es el modelo de mejor rendimiento según la puntuación F1.

Vista del modelo que muestra el modelo de v1 de mayor rendimiento.

Vista del modelo que muestra las métricas del modelo.
  1. En la parte superior derecha de la tabla, haga clic en el botón selector de columnas Columnas. Aquí puede ver todas las métricas disponibles para nuestro problema y agregar o eliminar métricas según sea necesario. Seleccione las métricas que desee mostrar en la tabla o deje las métricas predeterminadas.

    Utilice el selector de columnas para agregar o eliminar métricas en la tabla de Métricas del modelo

    El selector de columnas en la tabla de métricas del modelo
  2. En la tabla Métricas del modelo, haga clic en el desplegable de filtro Algoritmo y seleccione el algoritmo correspondiente al modelo de mayor rendimiento.

  3. Habilite Mostrar métricas de datos de entrenamiento.

    Ahora puede ver las métricas del entrenamiento de validación cruzada y compararlas con las métricas retenidas. Por cada columna de métrica retenida, hay una columna de "entrenamiento" correspondiente para la métrica equivalente de los datos de entrenamiento.

    La tabla Métricas del modelo con las métricas de datos de entrenamiento mostradas

    Métricas de entrenamiento que se muestran debajo de las métricas retenidas.
  4. Haga clic en Borrar filtros y vuelva a desactivar Mostrar métricas de datos de entrenamiento.

  5. Ordene los modelos por rendimiento, de mayor a menor, haciendo clic en el encabezado de la columna F1. Podría optar por excluir los algoritmos de bajo rendimiento o centrarse solo en el mejor para obtener resultados más rápidos en la próxima iteración del entrenamiento. Abordaremos esto al configurar v3 en una sección posterior.

  6. Desplácese hacia abajo, bajo la tabla de métricas, para ver las visualizaciones del modelo seleccionado.

    Tabla Métricas del modelo y visualizaciones.

    Tabla de métricas y visualizaciones del modelo.
  7. Haga clic en El panel Configuración del experimento o clic en Ver configuración, para ampliar el panel Configuración del experimento.

  8. Haga clic en Nueva versión para crear un borrador de la siguiente versión del experimento.

  9. Desde el gráfico Importancia de la permutación, así como en la lista de Características del panel de Configuración del experimento, observe que esta primera iteración del modelo se basa en gran medida en la característica DaysSinceLastService y todas las demás características casi no tienen importancia en comparación con ella.

    Métricas de importancia de la permutación en el panel de configuración del experimento, observando la influencia de la característica DaysSinceLastService

    Lista de características en el panel de configuración del experimento, que muestra que la característica "DaysSinceLastService" tiene una influencia desproporcionadamente grande en el experimento.

    Esta disparidad y el rendimiento extremadamente alto de los modelos deben verse como una señal de que algo anda mal. En este caso, no se definió una lógica durante la recopilación de datos para detener el recuento de la cantidad de días desde el último ticket de servicio de un cliente para los clientes que cancelaron su suscripción. Como resultado, el modelo aprendió a asociar una gran cantidad de días desde el último ticket de servicio con un resultado de abandono: yes en el campo Churned.

    Este es un ejemplo de fuga de datos, ya que en un escenario del mundo real, el modelo solo tendría acceso a la información hasta que se realice la predicción, y la cantidad de días contenidos en este campo se recopilaron más allá de ese punto de medición. Para más información sobre la fuga de datos, consulte Fuga de datos.

    Necesitamos eliminar la característica DaysSinceLastService, que tiene fugas, de la configuración del experimento, ya que está sesgando los modelos resultantes. Tenga en cuenta que en un caso de uso de la vida real, debe haber una investigación exhaustiva sobre la calidad y la lógica de los datos, antes de la creación del modelo, para garantizar que el modelo resultante se entrene correctamente.

    Abordaremos este problema en la próxima sección, al configurar v2.

Configurar y ejecutar la versión 2

Dado que la mayor parte del entrenamiento del modelo cambiará después de que se solucione este problema de fuga de datos, configuremos una nueva versión antes de completar más mejoras.

  1. De un paso anterior, ya tenemos abierto el panel de Configuración del experimento para configurar la v2.

  2. En Características, en el panel Configuración del experimento, desmarque la casilla DaysSinceLastService.

  3. Haga clic en Ejecutar v2.

Configurar y ejecutar la versión 3

Una vez que la segunda versión del experimento haya terminado de ejecutarse, haga clic en la casilla de verificación junto al modelo v2 de mejor rendimiento en la tabla de métricas (marcado con un icono de trofeo Trofeo). Esto actualiza la página con las métricas para ese modelo.

Encima de la tabla de Métricas del modelo, haga clic en el menú desplegable del filtro Versión y seleccione 2. Esto le permite centrarse únicamente en las métricas del modelo v2.

Verá que la lista de características importantes ha cambiado sustancialmente desde que se abordó la fuga de datos. El modelo de mayor rendimiento también podría utilizar un algoritmo diferente al del modelo de mayor rendimiento para v1.

Tabla Métricasl del modelo que muestra los modelos de mejor rendimiento para v2, ordenados por puntuación F1

Tabla de métricas del modelo con el filtro de versión "v2" aplicado después del entrenamiento de v2.
  1. Eche un vistazo al gráfico Importancia de la permutación. Puede que haya características que influyen mucho menos en nuestro modelo que las demás. Tienen poco valor para este caso de uso y pueden considerarse ruido estadístico. Puede probar a eliminar algunas de esas características para ver si mejora la puntuación del modelo.

    Gráfico Importancia de la permutación para el modelo v2 de alto rendimiento

    Gráfico de importancia de la permutación tras eliminar la característica con fugas DaysSinceLastService.
  2. Haga clic en El panel Configuración del experimento o clic en Ver configuración, para ampliar el panel Configuración del experimento.

  3. Haga clic en Nueva versión para crear un borrador de la siguiente versión del experimento.

  4. En el panel Configuración del experimento, en Características, desmarque las casillas de verificación de una o más características que ejercen poca o ninguna influencia en el modelo.

  5. Mire la tabla de Métricas del modelo. Puede optar por excluir algunos algoritmos de bajo rendimiento o centrarse solo en los mejores para obtener resultados más rápidos en la siguiente iteración del entrenamiento.

  6. En el panel de Configuración del experimento, en Algoritmos, desactive si lo desea las casillas de verificación de algunos de los algoritmos de bajo rendimiento.

  7. Haga clic en Ejecutar v3.

Comparar versiones de experimentos

En la tabla Métricas del modelo, haga clic en Borrar filtros.

Una vez ejecutada la v3, haga clic en la casilla de verificación junto al modelo v3 de mejor rendimiento para ver sus métricas.

Haga clic en Más filtros de modelos y seleccione el filtro Mejores modelos. Puede ver las métricas de los modelos con los mejores resultados de cada iteración del experimento.

La primera versión del entrenamiento dio como resultado las puntuaciones más altas, pero estas métricas eran predictores de rendimiento muy exagerados y poco realistas, efectos ocasionados por el problema de la fuga de datos. En v3, la puntuación F1 del modelo de mejor rendimiento aumentó con respecto a la del modelo v2 de mejor rendimiento.

Modelos de alto rendimiento

Tabla de métricas del modelo con el filtro "Mejores modelos" aplicado, que muestra el modelo que mejor resultados dio para v3.

En un escenario en el mundo real, es importante repetir estos pasos de perfeccionamiento tantas veces como sea necesario antes de implementar su modelo, para asegurarse de tener el mejor modelo posible para su uso en particular.

En este tutorial, pase a la siguiente sección para ver cómo implementar su modelo.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.