Configurar experimentos
La configuración de experimentos consiste en seleccionar el objetivo y las características que utilizará el modelo para predecir el objetivo. También puede configurar una serie de ajustes opcionales.
Para ayudarle en la selección de un objetivo, se analiza el conjunto de datos históricos y se muestran estadísticas de resumen acerca de cada columna del conjunto de datos. Se aplican varios pasos de preprocesamiento automático al conjunto de datos para garantizar que solo se incluyan los datos adecuados. Para obtener más detalles sobre el preprocesamiento de datos, consulte Preparación y transformación automática de los datos.
Tras ejecutar la v1, ya puede crear nuevas versiones del experimento si es necesario para refinar aún más el entrenamiento del modelo. Para obtener más información, consulte Perfeccionamiento de los modelos.
Requisitos y permisos
Si desea más información sobre los requisitos del usuario para trabajar con experimentos de ML, consulte Trabajar con experimentos.
La interfaz
Las siguientes secciones describen cómo navegar por la interfaz del experimento para configurarlo. Para obtener más información sobre la interfaz, consulte Navegar por la interfaz de usuario.
Navegación por pestañas
Cuando crea un experimento, se abre la pestaña Datos. Aquí puede configurar el objetivo y las características del experimento.
Después de ejecutar al menos una versión del experimento, habrá otras pestañas disponibles. Estas otras pestañas le permiten analizar los modelos que acaba de entrenar en la versión. Si necesita configurar versiones posteriores con selecciones de características diferentes, puede volver a la pestaña Datos.
Vista de esquema y vista de datos.
En la pestaña Datos, puede alternar entre las siguientes vistas:
-
Vista de esquema: La vista predeterminada. En esta vista, cada columna de su conjunto de datos está representada por una fila en el esquema con información y estadísticas.
-
Vista de datos: Una vista alternativa que puede utilizar para acceder a más información y datos de muestra de cada columna.
El panel Configuración del experimento
Haga clic en Ver configuración para abrir un panel en el que podrá personalizar aún más el entrenamiento del experimento. El panel puede abrirse con independencia de la pestaña que está viendo. Este panel proporciona varias opciones de configuración adicionales.
Con el panel de configuración del experimento, puede hacer lo siguiente:
-
Seleccionar un objetivo antes de entrenar la primera versión
-
Agregar o eliminar características
-
Configurar una nueva versión del experimento
-
Seleccionar si cambiar o actualizar el conjunto de datos de entrenamiento
-
Agregar o eliminar algoritmos
-
Cambiar los parámetros de optimización del modelo
Seleccionar un objetivo
La columna objetivo contiene los valores que desea que prediga el modelo de aprendizaje automático. Puede cambiar la columna objetivo hasta que comience el primer entrenamiento. Después de eso se bloqueará para la edición.
Haga lo siguiente:
En la vista de esquema o en la vista de datos, pase el ratón por encima de la columna.
Haga clic sobre el icono que aparece.
La columna objetivo ahora se indica mediante y las otras columnas disponibles se seleccionan automáticamente como características.
El objetivo puede seleccionarse alternativamente en el panel de configuración del entrenamiento.
Cuando se selecciona el objetivo, puede comenzar a ejecutar la primera versión del experimento. Más información en Entrenar los experimentos. Puede realizar una configuración adicional en este punto, la cual se describe a continuación, o ajustar la configuración después de haber revisado los resultados del entrenamiento.
A medida que avanza en el entrenamiento del experimento, se muestran explicaciones sobre cómo se interpretan y procesan sus datos. Para obtener más información, consulte Interpretación de la información sobre los conjuntos de datos.
Determinar el tipo de modelo creado
La columna que seleccione como objetivo determina el tipo de modelo que crea su experimento. Esto, a su vez, influye a la hora de determinar qué algoritmos se utilizan para entrenar el modelo. Es posible que algunas columnas de su conjunto de datos no se puedan seleccionar como objetivo para su experimento, o que se les aplique un procesamiento específico.
Los tipos de modelos son:
Modelo de clasificación binaria
Modelo de clasificación multiclase
Modelo de regresión
La siguiente tabla resume los factores de su objetivo que determinan el modelo
Tipo de modelo | Número de valores distintos en la columna | Tipo de característica requerida | Información adicional |
---|---|---|---|
Clasificación binaria | 2 | Cualquiera | - |
Clasificación multiclase | 3-10 | Cualquiera | Una columna con más de 10 clases distintas no numéricas no se puede seleccionar como objetivo. |
Regresión | Más de 10 | Numérica | - |
Para saber qué tipo de modelos entrena su experimento, haga clic en Ver configuración y expanda Algoritmos. El tipo de modelo es visible en el título de la sección.
Seleccionar columnas de características
Con el conjunto de objetivos, puede elegir cuál de las otras columnas disponibles incluir en el entrenamiento del modelo. Excluya cualquier característica que no desee que forme parte del modelo. Tenga en cuenta que la columna permanecerá en el conjunto de datos, pero el algoritmo de entrenamiento no la utilizará.
En la parte superior del panel de configuración del experimento, puede ver la cantidad de celdas de su conjunto de datos. Si el número supera el límite de su conjunto de datos, puede excluir características para estar por debajo del límite.
Puede seleccionar las columnas de características de varias maneras:
En la vista de esquema y la vista de datos
En las vistas principales, podrá hacer lo siguiente:
Desactive Incluir todas las características disponibles y luego seleccione solo las que desee incluir.
Desactive manualmente las casillas de verificación de las características que no desee incluir.
Realice una búsqueda y excluya o incluya todas las características de su resultado de búsqueda filtrado.
En el panel de personalización del entrenamiento
Si expande el panel de configuración del experimento, puede hacer lo siguiente:
Desactive manualmente las casillas de verificación de las características que no desee incluir.
Tras haber ejecutado la primera versión del experimento, puede definir el Número de características principales que se incluirán.
Cuando selecciona características, se les asigna automáticamente un tipo de característica. Los tipos de características posibles son:
Categórica
Numérica
Fecha
Texto libre
El tipo de característica se asigna en función de los datos contenidos en la columna de característica. Si una característica cumple determinados criterios, podría prepararse para constituir la base de características de ingeniería automática. Si lo desea, puede cambiar si la característica se utiliza para la ingeniería automática de características. Para obtener detalles completos sobre la ingeniería automática de características, consulte Ingeniería automática de características.
Es posible que algunas columnas de su conjunto de datos no se puedan seleccionar como características para su experimento, o que se les aplique un procesamiento específico. A medida que navega por el entrenamiento del experimento, se muestran explicaciones sobre cómo se interpretan y procesan sus datos. Para obtener más información, consulte Interpretación de la información sobre los conjuntos de datos.
Seleccionar algoritmos
Todos los algoritmos disponibles se incluyen de forma predeterminada y puede excluir cualquier algoritmo que no desee utilizar. Normalmente, haría esto como parte del refinamiento del modelo cuando haya visto los primeros resultados del entrenamiento. Más información en Perfeccionamiento de los modelos.
Cambiar los tipos de características
Cuando se carga un conjunto de datos, las columnas se tratan como categóricas, numéricas, de fecha o de texto libre en función del tipo de datos y otras características. En algunos casos, es posible que desee cambiar esta configuración.
Por ejemplo, si los días de la semana están representados por números del 1 al 7, cada número representa un valor categórico. De forma predeterminada, este se trata como un valor numérico clasificado continuo, por lo que deberá cambiar manualmente la configuración para que sea tratado como categórico.
Cuando se identifica que una columna contiene información de fecha y hora, esta se utiliza como base para nuevas características generadas mediante ingeniería automática. Cuando esto ocurre, la columna original (la característica principal) se trata como si tuviera el tipo de característica de fecha.
Puede cambiar la característica principal de una característica de fecha a una categórica o numérica. Por ejemplo, esto es útil cuando una característica se identifica como una fecha, pero usted necesita que se trate como una cadena de texto o número. Cuando lo haga, ya no podrá utilizar sus característica de ingeniería automática en el entrenamiento de experimentos.
Haga lo siguiente:
En Vista de esquema, localice la característica.
En la columna Tipo de característica de esta característica, haga clic en .
Seleccione un valor de la lista.
También puede cambiar los tipos de características desde la vista de datos. Localice la característica y haga clic en junto al tipo de característica actual. Seleccione un valor de la lista.
Puede ver todas las columnas que tienen un tipo de característica modificada en el panel de configuración del experimento en Tratamiento de datos.
Impacto en las predicciones
Cuando cambie manualmente el tipo de función de una característica y, a continuación, implemente un modelo resultante, las modificaciones del tipo de característica se aplicarán a la característica en el conjunto de datos de aplicación que se utilice en las predicciones realizadas con ese modelo.
Cambiar el conjunto de datos
Puede cambiar el conjunto de datos de entrenamiento antes de ejecutar la primera versión del experimento, así como después de ejecutar cualquier versión.
Si cambia el conjunto de datos antes de ejecutar la primera versión, perderá cualquier configuración que haya realizado antes de cambiar el conjunto de datos.
Haga lo siguiente:
En el panel de configuración del experimento, en Datos de entrenamiento, haga clic en Cambiar el conjunto de datos.
Seleccione un nuevo conjunto de datos.
Para obtener más información sobre cómo cambiar y actualizar el conjunto de datos durante el perfeccionamiento del modelo (después de ejecutar una versión del experimento), consulte Cambiar o actualizar el conjunto de datos.
Configuración de la optimización del modelo
Los siguientes ajustes pueden personalizarse para optimizar sus modelos:
Activar o desactivar la optimización inteligente de modelos
Activar o desactivar la optimización de hiperparámetros
Activar o desactivar el entrenamiento basado en el tiempo
Estas opciones pueden activarse o desactivarse para cada versión del experimento que ejecute.
Configuración de la optimización inteligente
De forma predeterminada, el experimento se ejecuta con la optimización inteligente de modelos. Con la optimización inteligente de modelos, AutoML maneja el proceso de refinamiento del modelo por usted, iterando la selección de características y aplicando transformaciones avanzadas a sus datos.
Para obtener más información sobre la optimización inteligente, consulte Optimización inteligente de modelos.
Puede desactivar este ajuste para perfeccionar manualmente los modelos que entrena. Por ejemplo, es posible que desee comenzar el entrenamiento de su modelo con la optimización inteligente de modelos y, a continuación, cambiar al perfeccionamiento manual para la v2 a fin de ajustar aún más la configuración.
Haga lo siguiente:
Haga clic en Ver configuración .
Si ya ha realizado al menos una versión del experimento, haga clic en Nueva versión.
En el panel, expanda Optimización del modelo.
Cambie de Inteligente a Manual.
Usando el deslizador, establezca el máximo de duración de la ejecución para el entrenamiento.
Configurar la optimización de hiperparámetros
Puede optimizar los modelos mediante la optimización de hiperparámetros. Tenga en cuenta que esta es una opción avanzada que podría aumentar significativamente el tiempo de entrenamiento. La optimización de hiperparámetros está disponible si desactiva la optimización inteligente.
Para obtener más información, consulte Optimización de hiperparámetros.
Haga lo siguiente:
Haga clic en Ver configuración .
Si ya ha realizado al menos una versión del experimento, haga clic en Nueva versión.
En el panel, expanda Optimización del modelo.
Cambie de Inteligente a Manual.
Marque la casilla de verificación Optimización de hiperparámetros.
Opcionalmente, establezca un límite de tiempo para su optimización. El límite de tiempo predeterminado es una hora.
Configurar el entrenamiento basado en el tiempo
Si desea que sus modelos se entrenen teniendo en cuenta una dimensión de serie temporal, active el entrenamiento basado en el tiempo para la versión del experimento. Para utilizar esta opción, debe tener una columna en su conjunto de datos que contenga la información de la serie de tiempo relevante.
Cuando se activa el entrenamiento basado en el tiempo, AutoML utiliza procesos especializados de validación cruzada e imputación de nulos para entrenar los modelos.
Para más información, vea Crear modelos en función del tiempo y Validación cruzada basada en el tiempo.
Haga lo siguiente:
Haga clic en Ver configuración .
Si ya ha realizado al menos una versión del experimento, haga clic en Nueva versión.
En el panel, expanda Optimización del modelo.
En División prueba-entrenamiento basada en el tiempo, seleccione el Índice de fechas que se utilizará para ordenar los datos.
Visualizar la información sobre los datos de entrenamiento
En la pestaña Datos del experimento, puede ver información sobre el manejo de los datos de entrenamiento. Esta información está disponible en la columna Información de la vista de esquema. La información mostrada depende de si ha ejecutado o no una versión con los datos de entrenamiento actuales. Los cambios en la columna Información pueden ayudarle a identificar por qué puede que las características no estén disponibles o por qué se han eliminado automáticamente.
Para obtener más información sobre lo que significan los diferentes aspectos de la información, consulte Interpretación de la información sobre los conjuntos de datos.