Saltar al contenido principal Saltar al contenido complementario

Optimización inteligente de modelos

La optimización inteligente de modelos proporciona un refinamiento automático de los modelos que entrenamos en un experimento. Con la optimización inteligente de modelos, el proceso de iteración de la selección de características y la aplicación de transformaciones avanzadas se gestionan automáticamente para usted. Con un conjunto de datos de entrenamiento bien preparado que incluya todas las características relevantes, cabe esperar una optimización inteligente de modelos que permita entrenar modelos listos para su implementación en una sola versión.

¿En qué consiste la optimización inteligente de modelos?

La optimización inteligente de modelos automatiza muchos aspectos del proceso de perfeccionamiento de modelos. Con la optimización inteligente de modelos, puede entrenar rápidamente modelos de alta calidad sin necesidad de refinar manualmente la selección de características ni de ajustar los datos de entrada.

Uso de la optimización inteligente de modelos

La optimización inteligente de modelos está activada de forma predeterminada para los nuevos experimentos de aprendizaje automático. Puede activarla o desactivarla para cada versión del experimento que ejecute.

Tras ejecutar una versión del experimento con la optimización inteligente activada, los resultados de la optimización pueden verse en el resumen de entrenamiento del modelo. El resumen se muestra en la pestaña Modelos situada debajo de Información del modelo. Pase el cursor sobre los términos subrayados para ver una información sobre herramientas con una descripción detallada.

El resumen de entrenamiento del modelo es diferente para cada modelo entrenado en una versión del experimento.

Gráfico resumen del entrenamiento de un modelo, mostrado en la pestaña Modelos

Gráfico resumen del entrenamiento de un modelo entrenado con optimización inteligente.

Cómo funciona la optimización inteligente de modelos

Con la optimización inteligente de modelos:

  • Se entrenan más modelos que con la optimización manual. La selección de características se maneja a nivel del modelo. Esto significa que, a diferencia de la optimización manual, cada modelo de una versión puede tener una selección de características diferente.

  • Además del preprocesamiento automático que se aplica a todos los modelos de manera predeterminada, los datos de entrenamiento se procesan con varias transformaciones avanzadas. Estas transformaciones ayudan a garantizar que sus datos tengan un formato óptimo para los algoritmos de aprendizaje automático.

  • Para garantizar la calidad, se sigue entrenando un modelo de referencia, es decir, un modelo entrenado con todo el conjunto de características que configuró para la versión. Esto ayuda a comprobar si la optimización inteligente está, de hecho, mejorando las puntuaciones del modelo.

  • En el caso de los conjuntos de datos de entrenamiento más grandes, los modelos se entrenan en una variedad de relaciones de muestreo.  Esto ayuda a acelerar el proceso. Para obtener más información, consulte Muestreo de datos de entrenamiento.

Muestreo de datos de entrenamiento

Cuando está entrenando modelos con una gran cantidad de datos, AutoML utiliza el muestreo para entrenar modelos en una variedad de subconjuntos (relaciones de muestreo) del conjunto de datos original.  El muestreo se utiliza para agilizar el proceso de entrenamiento. Al principio del entrenamiento, los modelos se entrenan sobre una relación de muestreo pequeña. A medida que continúa el entrenamiento, los modelos se entrenan gradualmente en porciones de datos más grandes. Finalmente, los modelos se entrenan en todo el conjunto de datos (una relación de muestreo del 100 %).

Durante el análisis de los datos de entrenamiento del modelo, los modelos entrenados con menos del 100% del conjunto de datos de entrenamiento quedan ocultos en algunas vistas.

Procesamiento aplicado durante la optimización inteligente de modelos

El Resumen de entrenamiento del modelo muestra cómo se procesaron los datos de entrenamiento mediante la optimización inteligente de modelos. Las secciones siguientes contienen más detalles sobre cada uno de los elementos que ve en el registro.

Selección de características

La optimización inteligente de modelos ayuda a refinar los modelos eliminando características que podrían reducir el rendimiento predictivo. Durante la optimización inteligente de modelos, puede descartarse una característica por cualquiera de las siguientes razones:

  • Fuga de objetivo: se sospecha que esta característica se ha visto afectada por la fuga de objetivo. Características afectadas por la fuga del objetivo incluyen la información sobre la columna objetivo que está intentando predecir. Por ejemplo, la característica se deriva directamente del objetivo o incluye información que no se conocería en el momento de la predicción. Las características que provocan fugas de objetivos pueden darle una falsa sensación de seguridad sobre el rendimiento del modelo. En las predicciones del mundo real, hacen que el modelo tenga un funcionamiento muy deficiente.

  • Baja importancia de la permutación: La característica no tiene mucha influencia —si es que tiene alguna— en las predicciones del modelo. La eliminación de estas características mejora el rendimiento del modelo al reducir el ruido estadístico.

  • Altamente correlacionada: La característica está altamente correlacionada con otra u otras características del experimento. Las características que están demasiado correlacionadas no son adecuadas para su uso en modelos de entrenamiento.

En la pestaña Datos dentro del experimento, puede ver información sobre las características descartadas para cada modelo. La Información también se refiere a las características que se descartaron fuera del proceso de optimización del modelo inteligente. Para obtener más información sobre lo que significan los diferentes aspectos de la información, consulte Interpretación de la información sobre los conjuntos de datos.

Transformación de características

La optimización inteligente de modelos aplica una cantidad de transformaciones técnicas a nivel de características. Dichas transformaciones procesan los datos de su entrenamiento para que pueda utilizarse con mayor eficacia para crear un modelo fiable de aprendizaje automático. Las transformaciones de las características se aplican automáticamente según sea necesario. En el Resumen de entrenamiento del modelo, se le notifica acerca de cuándo se aplican las transformaciones de las características y qué características se ven afectadas.

Transformación de potencia

Los datos de características suelen contener naturalmente distribuciones con cierto grado de asimetría y desviación de una distribución normal. Antes de entrenar un modelo, puede ser útil aplicar algún procesamiento a los datos para normalizar las distribuciones de valores si parecen estar demasiado sesgadas. Este procesamiento ayuda a reducir el sesgo y a identificar valores atípicos.

Con la optimización inteligente de modelos, las características numéricas que superan un umbral de sesgo específico se transforman para tener una distribución más normal (o similar a la normal) utilizando transformaciones de potencia. Más concretamente, se utiliza la transformación de potencia de Yeo-Johnson.

Agrupamiento de características numéricas

Algunas características numéricas pueden contener patrones y distribuciones que no son fáciles de manejar mediante algoritmos de aprendizaje automático. Con la optimización inteligente de modelos, esto se soluciona en parte organizando los datos de características numéricas específicas en diferentes contenedores según sus rangos de valores. Se realiza un agrupamiento para que las características puedan transformarse en características categóricas.

Una vez finalizado el agrupamiento, las nuevas características categóricas se codifican en caliente (one-hot) y se utilizan en el entrenamiento. Más información sobre la codificación en caliente en Codificación categórica.

Detección y tratamiento de anomalías

Las anomalías son valores de datos que aparecen fuera del rango en el que razonablemente cabría esperar que cayeran. No es raro que haya valores atípicos en los datos de entrenamiento. Algunas anomalías podrían ser incluso deseables como forma de reflejar las posibilidades del mundo real. En otros casos, las anomalías pueden interferir con la capacidad de entrenar un modelo fiable.

Con la optimización inteligente de modelos, AutoML identifica posibles anomalías. Las filas en las que aparecen los valores atípicos se tratan entonces con un sistema de ponderación basado en algoritmos. Si un valor es muy sospechoso de ser una anomalía, el sistema de ponderación reduce la influencia que tiene en el modelo la fila correspondiente de los datos de entrenamiento.

Una vez entrenado su modelo, se le notifica el porcentaje de filas del conjunto de datos de entrenamiento original que fueron tratadas como datos anómalos.

Para más información, vea Detección y gestión de anomalías.

Desactivar la optimización inteligente

Con la optimización inteligente desactivada, optimizará el entrenamiento manualmente. La optimización manual puede resultar útil si necesita tener más control sobre el proceso de entrenamiento. En concreto, puede que le interese ejecutar una versión con optimización inteligente de modelos y, a continuación, desactivar el ajuste si necesita realizar un pequeño conjunto de ajustes manuales.

  1. En un experimento, haga clic en Esquema Ver configuración.

    Se abre el panel de configuración del experimento.

  2. Si ya ha realizado al menos una versión del experimento, haga clic en Nueva versión.

  3. En el panel, expanda Optimización del modelo.

  4. Cambie de Inteligente a Manual.

Consideraciones

Al trabajar con la optimización inteligente de modelos, tenga en cuenta lo siguiente:

  • El uso de la optimización inteligente de modelos no garantiza que su entrenamiento produzca modelos de alta calidad. Las fases de preparación del conjunto de datos y de configuración del experimento también son imprescindibles para producir modelos fiables. Si no dispone de un conjunto de datos bien preparado o si a su configuración le faltan características clave, no está garantizado que sus modelos funcionen bien en casos de uso en producción. Para obtener más información sobre estas etapas, consulte:

  • Cuando se activa la optimización inteligente de modelos para una versión, cada modelo de esta versión tendrá un conjunto independiente de características incluidas. Por otro lado, todos los modelos de una versión entrenada con optimización manual tendrán el mismo conjunto de características incluidas.

  • La optimización inteligente de modelos solo utiliza las características y los algoritmos que usted ha incluido en la configuración de la versión.

Optimización de hiperparámetros

La optimización de hiperparámetros no está disponible cuando la optimización inteligente de modelos está activada. Para activar la optimización de hiperparámetros, debe establecer la optimización del modelo en Manual.

Para obtener más información, consulte Optimización de hiperparámetros.

Ejemplo

Si desea ver un ejemplo que demuestra las ventajas de la optimización inteligente de modelos, consulte Ejemplo: entrenamiento de modelos con aprendizaje automático.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.