Visualización de información sobre los datos de entrenamiento
A medida que añada sus datos de entrenamiento y ejecute versiones de este, podrá acceder a información sobre cómo se están manejando sus datos. La información proporciona perspectiva sobre el objetivo y las características de su experimento, como las características que se han descartado, que no están disponibles o que se codificarán con un procesamiento especial.
La columna Información se encuentra en la pestaña Datos cuando nos encontramos en la Vista de esquema. La información abreviada también está disponible en la vista de datos. La información se crea individualmente para cada modelo entrenado dentro del experimento.
La información se genera:
-
Tras haber añadido o modificado los datos de entrenamiento, pero sin haber ejecutado aún ninguna versión del experimento.
-
Una vez ejecutada cada versión del experimento. Se crea un conjunto independiente de informaciones para cada modelo entrenado.
La información puede ser distinta antes y después de ejecutar una versión. Esto se debe a que, a medida que comienza el entrenamiento, AutoML es capaz de preprocesar sus datos y diagnosticar más a fondo los problemas con los datos. Para obtener más información, consulte Preparación y transformación automática de los datos.
Visualización de la información antes del entrenamiento
Antes de ejecutar una versión del experimento, puede analizar la Información para ver cómo se están interpretando los datos de entrenamiento actuales. Esta información podría cambiar después de ejecutar la versión.
Haga lo siguiente:
En un experimento, asegúrese de que ha añadido los datos de entrenamiento que desea utilizar para la versión del experimento.
Abra la pestaña Datos.
Asegúrese de que está en la vista de esquema.
Analice la columna Información. La información sobre herramientas ofrece contexto adicional para la información. Para acceder a más explicaciones sobre lo que significa cada aspecto de la información, consulte Interpretación de la información sobre los conjuntos de datos.
Visualización de la información para un modelo
Después de que los modelos hayan terminado de entrenarse para una versión del experimento, seleccione un modelo e inspeccione cómo se han manejado los datos.
Haga lo siguiente:
Ejecute una versión del experimento y abra la pestaña Datos.
Seleccione un modelo en la lista desplegable de la barra de herramientas.
Asegúrese de que está en la vista de esquema.
Analice la columna Información. La información sobre herramientas ofrece contexto adicional para la información. Para acceder a más explicaciones sobre lo que significa cada aspecto de la información, consulte Interpretación de la información sobre los conjuntos de datos.
Interpretación de la información sobre los conjuntos de datos
La tabla siguiente muestra más datos sobre la información que se podría mostrar en el esquema:
Información | Significado | Impacto en la configuración | Cuando la información está determinada | Referencias adicionales |
---|---|---|---|---|
Constante | La columna tiene el mismo valor para todas las filas. | La columna no se puede usar como objetivo o característica incluida. | Antes y después de ejecutar la versión | Cardinalidad |
Codificado en caliente | El tipo de entidad es categórico y la columna tiene menos de 14 valores únicos. | Sin efecto en la configuración. | Antes y después de ejecutar la versión | Codificación categórica |
Codificado por impacto | El tipo de entidad es categórico y la columna tiene 14 o más valores únicos. | Sin efecto en la configuración. | Antes y después de ejecutar la versión | Codificación categórica |
Alta cardinalidad | La columna tiene demasiados valores únicos y puede afectar negativamente al rendimiento del modelo si se usa como una característica. | La columna no se puede utilizar como objetivo. Se excluirá automáticamente como característica, pero todavía se podrá incluir si fuera necesario. | Antes y después de ejecutar la versión | Cardinalidad |
Datos escasos | La columna tiene demasiados valores nulos. | La columna no se puede usar como objetivo o característica incluida. | Antes y después de ejecutar la versión | Imputación de nulos |
Clase subrepresentada | La columna tiene una clase con menos de 10 filas. | La columna no se puede usar como objetivo, pero se puede incluir como característica. | Antes y después de ejecutar la versión | - |
<number of> características generadas mediante ingeniería automática | La columna es la característica principal que se puede utilizar para generar características de ingeniería automática. | Si esta característica principal se interpreta como una característica de fecha, se elimina automáticamente de la configuración. Se recomienda que, en su lugar, utilice las características de fecha de ingeniería automática que se pueden generar a partir de ella. Es posible anular esta configuración e incluir la característica en lugar de las características generadas automáticamente. | Antes y después de ejecutar la versión | Ingeniería automática de características |
Característica generada mediante ingeniería automática | La columna es una característica diseñada automáticamente que puede generarse, o se ha generado, a partir de una característica de fecha principal. No aparecía en el conjunto de datos original. | Puede eliminar una o varias de estas características diseñadas automáticamente durante el entrenamiento del experimento. Si cambia el tipo de característica de la característica principal a categórica, se eliminan todas las características diseñadas automáticamente. | Antes y después de ejecutar la versión | Ingeniería automática de características |
No se pudo procesar como fecha | La columna posiblemente incluya información de fecha y hora, pero no se puede utilizar para crear características de fecha diseñadas automáticamente. | La característica se elimina de la configuración. Si las características de ingeniería automática se generaron previamente a partir de esta característica principal, se eliminarán de futuras versiones del experimento. No obstante, todavía puede utilizar la característica en el experimento, pero debe cambiar el tipo de característica a categórica. | Después de ejecutar la versión | Ingeniería de características de fecha |
Texto libre posible | La columna posiblemente podría estar disponible como característica de texto libre. | El tipo de característica de texto libre se asigna a la columna. Debe ejecutar una versión del experimento para confirmar si la característica se puede procesar como texto libre. | Antes de ejecutar la versión | Manejo de datos de texto libre |
Texto libre | Se ha confirmado que la columna contiene texto libre. Puede procesarse como texto libre. | No se requieren configuraciones adicionales para esta característica. | Después de ejecutar la versión | Manejo de datos de texto libre |
No se pudo procesar como texto libre | Tras un análisis más detallado, la columna no se puede procesar como texto libre. | Debe anular la selección de la característica en la configuración para la siguiente versión del experimento. Si la característica no tiene una alta cardinalidad, también puede cambiar el tipo de característica a categórica. | Después de ejecutar la versión | Manejo de datos de texto libre |
Fuga de objetivos | Se sospecha que esta característica se ha visto afectada por la fuga de objetivos. Si es así, incluye información sobre la columna objetivo que intenta predecir. Las características con fugas de objetivos pueden darle una falsa sensación de seguridad sobre el rendimiento del modelo. En las predicciones del mundo real, hacen que el modelo tenga un funcionamiento muy deficiente. | La característica no se ha utilizado para entrenar el modelo. | Después de ejecutar la versión | Fuga de datos |
Baja importancia de la permutación | La característica no tiene mucha influencia —si es que tiene alguna— en las predicciones del modelo. La eliminación de estas características mejora el rendimiento del modelo al reducir el ruido estadístico. | La característica no se ha utilizado para entrenar el modelo. | Después de ejecutar la versión | Comprensión de la importancia de la permutación |
Altamente correlacionada | La característica está altamente correlacionada con otra u otras características del experimento. Tener características muy correlacionadas entre sí disminuye el rendimiento del modelo. | La característica no se ha utilizado para entrenar el modelo. La característica con la que está altamente correlacionada no se ha descartado debido a la alta correlación, sino que podría haberse descartado por otro motivo, como una baja importancia de permutación. | Después de ejecutar la versión | Correlación |