Saltar al contenido principal Saltar al contenido complementario

Preparación y transformación automática de los datos

El conjunto de datos que ha seleccionado para su experimento se procesa previamente de forma automática para prepararlo para el entrenamiento del modelo. Los pasos de preprocesamiento incluyen la preparación y transformación de datos. Esto aumenta la calidad de los datos para brindarle un modelo que produce resultados precisos.

Se utiliza una variedad de técnicas de ciencia de datos para el procesamient previo de los datos. La mayoría de los pasos se realizan de forma predeterminada y funcionan bien en muchos tipos de usos. Conocer cuáles son estos pasos predeterminados, junto con los conceptos subyacentes, puede ayudarle a entender lo que necesita hacer con los datos para su caso de uso específico antes de utilizarlos para entrenar un modelo.

La información sobre los pasos de procesamiento previo se muestra en el panel de configuración Experimento

La sección de preprocesamiento de AutoML.

Configuración del experimento

Antes de que comience el preprocesamiento, AutoML realiza varios pasos preparatorios y ofrece una vista previa de cómo se tratarán sus datos. Se aplican los siguientes pasos:

  1. Se clasifican las columnas del conjunto de datos según el tipo de característica categórica, numérica, de fecha o de texto libre.

    • Los tipos de datos flotantes, dobles y decimales siempre se consideran numéricos.

    • Las columnas con un tipo de datos de cadena de texto, que contienen un promedio de menos de 50 caracteres, se clasifican como categóricas.

    • Las columnas con un tipo de datos de cadena de texto, que contienen un promedio de 50 caracteres o más, se clasifican como de texto libre. Sin embargo, en esta etapa, no se garantiza que estas columnas se puedan utilizar como características de texto libre. Los requisitos adicionales se verifican durante el preprocesamiento. Vea Pasos del preprocesamiento.

    • Los tipos de datos enteros siempre se consideran numéricos.

    • Los tipos de datos de fecha y marca de tiempo siempre se considera que tienen el tipo de característica de fecha. Durante la configuración del experimento, AutoML obtiene una vista previa de las características diseñadas automáticamente que podrían derivarse de la característica de fecha principal.

  2. Verifique cada columna para detectar dispersión, constantes y alta cardinalidad. Excluya la columna si:

    • La columna es 50 por ciento nula o más. La eliminación de registros que contienen un valor nulo para una característica puede llevar a descartar ejemplos de entrenamiento que de otro modo serían útiles. Alternativamente, la imputación de valores puede salvar el ejemplo, pero el registro se convierte en una mera aproximación a la realidad. Por lo tanto, a menudo es mejor excluir entidades con un alto número (más del 50 por ciento) de valores nulos. Tenga en cuenta que 0 nunca se considera nulo.

    • La columna tiene el mismo valor en todas las filas (constante). En otras palabras, la columna tiene una baja cardinalidad. Las características con un solo valor único no tienen valor predictivo.

    • La columna es categórica y tiene un 90 por ciento o más de valores únicos (alta cardinalidad). Demasiados valores únicos dificultan la generalización del modelo más allá del conjunto de datos de entrenamiento.

Es posible que se realicen ajustes en la forma en que se manejan los datos una vez que haya comenzado el preprocesamiento.

Pasos del preprocesamiento

Una vez que haya seleccionado una columna objetivo, las filas donde el valor de destino es nulo se identifican y separan, dejando filas donde el destino se conoce como conjunto de entrenamiento. Solo se utilizan los datos del conjunto de datos de entrenamiento para tomar decisiones en los pasos siguientes. Los pasos, junto con los metadatos, se guardarán y se aplicarán a cualquier dato nuevo para que el modelo haga predicciones.

El preprocesamiento se realiza en las características incluidas cada vez que ejecuta una nueva versión del experimento.

  1. Calcule y guarde la media para valores numéricos y la moda para valores categóricos.

  2. Impute los valores que faltan.Para más información, vea Imputación de nulos.

  3. Codifique las variables categóricas.

  4. Genere nuevas características a partir de columnas existentes en el conjunto de datos. Estas nuevas características de ingeniería automática pueden mejorar el rendimiento y la capacidad predictiva de los modelos que cree.

    Se comprueba la longitud media de las palabras de las columnas identificadas como posible texto libre. Si la columna tiene una longitud promedio de palabras superior a cinco palabras, se puede codificar como una característica de texto libre mediante ingeniería de características automática. En caso contrario, se muestra una advertencia. Si no se puede utilizar como texto libre, se debe anular la selección de la característica si tiene una alta cardinalidad.

  5. Calcule y guarde las estadísticas de resumen de cada columna para usarlas en el escalado de características.

  6. Estandarice cada columna con un escalado de características.

  7. Utilice la retención automática de datos de entrenamiento y la validación cruzada de cinco veces.Para más información, vea Datos retenidos y validación cruzada.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.