Configurar experimentos
La configuración de experimentos consiste en seleccionar el objetivo y las características que utilizará el modelo para predecir el objetivo. También puede configurar una serie de ajustes opcionales.
Para ayudarle en la selección de un objetivo, se analiza el conjunto de datos históricos y se muestran estadísticas de resumen acerca de cada columna del conjunto de datos. Se aplican varios pasos de preprocesamiento automático al conjunto de datos para garantizar que solo se incluyan los datos adecuados. Para obtener más detalles sobre el preprocesamiento de datos, consulte Preparación y transformación automática de los datos.
Tras ejecutar la v1, ya puede crear nuevas versiones del experimento si es necesario para refinar aún más el entrenamiento del modelo. Para más información, vea Refinar los modelos.
Requisitos y permisos
Si desea más información sobre los requisitos del usuario para trabajar con experimentos de ML, vea Trabajar con experimentos.
Vistas
La vista predeterminada es la vista de esquema, donde cada columna de su conjunto de datos está representada por una fila en el esquema con información y estadísticas. Para obtener más información y datos de muestra de cada columna, también tiene la vista de datos. Haga clic en y para cambiar entre las vistas.
Haga clic en para abrir o cerrar el panel lateral de Configuración del experimento. Aquí encontrará información sobre su experimento y la configuración actual.
Seleccionar un objetivo
La columna objetivo contiene los valores que desea que prediga el modelo de aprendizaje automático. Puede cambiar la columna objetivo hasta que comience el primer entrenamiento. Después de eso se bloqueará para la edición.
Haga lo siguiente:
-
Pase el cursor sobre la columna y haga clic en el icono que aparece.
La columna objetivo ahora se indica mediante y las otras columnas disponibles se seleccionan automáticamente como características.
Cuando se selecciona el objetivo, puede comenzar a ejecutar la primera versión del experimento. Más información en Entrenar los experimentos. Puede realizar una configuración adicional en este punto, la cual se describe a continuación, o ajustar la configuración después de haber revisado los resultados del entrenamiento.
A medida que navega por el entrenamiento del experimento, se muestran explicaciones sobre cómo se interpretan y procesan sus datos. Para más información, vea Información común que se encuentra en los datos de entrenamiento.
Determinar el tipo de modelo creado
La columna que seleccione como objetivo determina el tipo de modelo que crea su experimento. Esto, a su vez, influye a la hora de determinar qué algoritmos se utilizan para entrenar el modelo. Es posible que algunas columnas de su conjunto de datos no se puedan seleccionar como objetivo para su experimento, o que se les aplique un procesamiento específico.
Los tipos de modelos son:
-
Modelo de clasificación binaria
-
Modelo de clasificación multiclase
-
Modelo de regresión
La siguiente tabla resume los factores de su objetivo que determinan el modelo
Tipo de modelo | Número de valores distintos en la columna | Tipo de característica requerida | Información adicional |
---|---|---|---|
Clasificación binaria | 2 | Cualquiera | - |
Clasificación multiclase | 3-10 | Cualquiera | Una columna con más de 10 clases distintas no numéricas no se puede seleccionar como objetivo. |
Regresión | Más de 10 | Numérica | - |
Seleccionar columnas de características
Con el conjunto de objetivos, puede elegir cuál de las otras columnas disponibles incluir en el entrenamiento del modelo. Excluya cualquier característica que no desee que forme parte del modelo. Tenga en cuenta que la columna permanecerá en el conjunto de datos pero no será utilizada por el algoritmo de entrenamiento.
En la parte superior del panel Configuración del experimento, puede ver la cantidad de celdas de su conjunto de datos. Si el número supera el límite de su conjunto de datos, puede excluir características para estar por debajo del límite.
Puede seleccionar las columnas de características de varias maneras:
-
Desactive manualmente las casillas de verificación de las características que no desee incluir.
-
Haga clic en Excluir todas las características y luego seleccione solo las que desee incluir.
-
Realice una búsqueda y excluya o incluya todas las características de su resultado de búsqueda filtrado.
-
Tras haber ejecutado la primera versión del experimento, puede definir el Número de características principales que se incluirán.
Cuando selecciona características, se les asigna automáticamente un tipo de característica. Los tipos de características posibles son:
-
Categórica
-
Numérica
-
De fecha
-
De texto libre
El tipo de característica se asigna en función de los datos contenidos en la columna de característica. Si una característica cumple determinados criterios, podría prepararse para constituir la base de características de ingeniería automática. Si lo desea, puede cambiar si la característica se utiliza para la ingeniería automática de características. Para obtener detalles completos sobre la ingeniería automática de funciones, vea Ingeniería automática de características.
Es posible que algunas columnas de su conjunto de datos no se puedan seleccionar como características para su experimento, o que se les aplique un procesamiento específico. A medida que navega por el entrenamiento del experimento, se muestran explicaciones sobre cómo se interpretan y procesan sus datos. Para más información, vea Información común que se encuentra en los datos de entrenamiento.
Seleccionar algoritmos
Todos los algoritmos disponibles se incluyen de forma predeterminada y puede excluir cualquier algoritmo que no desee utilizar. Normalmente, haría esto como parte del refinamiento del modelo cuando haya visto los primeros resultados del entrenamiento. Más información en Refinar los modelos.
Cambiar los tipos de características
Cuando se carga un conjunto de datos, las columnas se tratan como categóricas, numéricas, de fecha o de texto libre, según el tipo de datos. En algunos casos, es posible que desee cambiar esta configuración.
Por ejemplo, si los días de la semana están representados por números del 1 al 7, cada número representa un valor categórico. De forma predeterminada, se trata como un valor numérico clasificado continuo, por lo que deberá cambiar manualmente la configuración para tratarlo como categórico. También tiene la capacidad de convertir un tipo de característica categórica en una característica numérica.
Cuando se identifica que una columna contiene información de fecha y hora, esta se utiliza como base para nuevas características generadas mediante ingeniería automática. Cuando esto sucede, la columna original (la característica principal) se considera como si tuviera el tipo de característica de fecha. Puede cambiar la característica principal de un tipo de característica de fecha a un tipo de característica categórica. Sin embargo, si hace esto, ya no podrá utilizar sus características de ingeniería automática en el entrenamiento del experimento.
Haga lo siguiente:
-
En la columna Tipo de característica, haga clic en .
-
Seleccione un valor de la lista.
Puede ver todas las columnas que tienen un tipo de característica modificada en el panel de Configuración del experimento en Tratamiento de datos.
Cambiar el conjunto de datos
Puede cambiar el conjunto de datos de entrenamiento antes de ejecutar la primera versión del experimento, así como después de ejecutar cualquier versión.
Si cambia el conjunto de datos antes de ejecutar la primera versión, perderá cualquier configuración que haya realizado antes de cambiar el conjunto de datos.
Haga lo siguiente:
En el panel de Configuración del experimento, en Datos de entrenamiento, haga clic en Cambiar el conjunto de datos.
Seleccione un nuevo conjunto de datos.
Para más información sobre cómo cambiar y actualizar el conjunto de datos durante el perfeccionamiento del modelo (después de ejecutar una versión del experimento), consulte Cambiar o actualizar el conjunto de datos.
Configurar la optimización de hiperparámetros
Puede optimizar el modelo mediante la optimización de hiperparámetros. Tenga en cuenta que esta es una opción avanzada que podría aumentar significativamente el tiempo de entrenamiento. Para más información, vea Optimización de hiperparámetros.
Haga lo siguiente:
En el panel Configuración del experimento, expanda la sección Optimización del modelo.
Marque la casilla de verificación Optimización de hiperparámetros.
Opcionalmente, establezca un límite de tiempo para su optimización. El límite de tiempo predeterminado es una hora.
Información común que se encuentra en los datos de entrenamiento
Dependiendo de la calidad de su conjunto de datos, puede haber limitaciones en cuanto a cómo puede usar partes específicas de los datos en la configuración de su experimento. La columna Conocimientos en la vista de esquema es útil para identificar características particulares de los campos de datos y cómo serán procesados por algoritmos de aprendizaje automático.
La tabla siguiente muestra posibles conocimientos o información que se podría mostrar en el esquema:
Información | Significado | Impacto en la configuración |
---|---|---|
Constante | La columna tiene el mismo valor para todas las filas. | La columna no se puede usar como objetivo o característica incluida. |
Codificado en caliente | El tipo de entidad es categórico y la columna tiene menos de 14 valores únicos. | Sin efecto en la configuración. |
Codificado por impacto | El tipo de entidad es categórico y la columna tiene 14 o más valores únicos. | Sin efecto en la configuración. |
Alta cardinalidad | La columna tiene demasiados valores únicos y puede afectar negativamente al rendimiento del modelo si se usa como una característica. | La columna no se puede utilizar como objetivo. Se excluirá automáticamente como característica, pero todavía se podrá incluir si fuera necesario. |
Datos escasos | La columna tiene demasiados valores nulos. | La columna no se puede usar como objetivo o característica incluida. |
Clase subrepresentada | La columna tiene una clase con menos de 10 filas. | La columna no se puede usar como objetivo, pero se puede incluir como característica. |
<number of> características generadas mediante ingeniería automática | La columna es la característica principal que se puede utilizar para generar características de ingeniería automática. | Si esta característica principal se interpreta como una característica de fecha, se elimina automáticamente de la configuración. Se recomienda que, en su lugar, utilice las características de fecha de ingeniería automática que se pueden generar a partir de ella. Es posible anular esta configuración e incluir la característica en lugar de las características generadas automáticamente. |
Característica generada mediante ingeniería automática | La columna es una característica diseñada automáticamente que puede generarse, o se ha generado, a partir de una característica de fecha principal. No aparecía en el conjunto de datos original. | Puede eliminar una o varias de estas características diseñadas automáticamente durante el entrenamiento del experimento. Si cambia el tipo de característica de la característica principal a categórica, se eliminan todas las características diseñadas automáticamente. |
No se pudo procesar como fecha | La columna posiblemente incluya información de fecha y hora, pero no se puede utilizar para crear características de fecha diseñadas automáticamente. | La característica se elimina de la configuración. Si las características de ingeniería automática se generaron previamente a partir de esta característica principal, se eliminarán de futuras versiones del experimento. No obstante, todavía puede utilizar la característica en el experimento, pero debe cambiar el tipo de característica a categórica. |
Texto libre posible | La columna posiblemente podría estar disponible para su uso como característica de texto libre. | El tipo de característica de texto libre se asigna a la columna. Debe ejecutar una versión del experimento para confirmar si la característica se puede procesar como texto libre. |
Texto libre | Se ha confirmado que la columna contiene texto libre. Puede procesarse como texto libre. | No se requieren configuraciones adicionales para esta característica. |
No se pudo procesar como texto libre | Tras un análisis más detallado, la columna no se puede procesar como texto libre. | Debe anular la selección de la característica en la configuración para la siguiente versión del experimento. Si la característica no tiene una alta cardinalidad, también puede cambiar el tipo de característica a categórica. |