Preparación y transformación automática de los datos

El conjunto de datos que ha seleccionado para su experimento se procesa previamente de forma automática para prepararlo para el entrenamiento del modelo. Los pasos de preprocesamiento incluyen la preparación y transformación de datos. Esto aumenta la calidad de los datos para brindarle un modelo que produce resultados precisos.

Se utiliza una variedad de técnicas de ciencia de datos para el procesamient previo de los datos. La mayoría de los pasos se realizan de forma predeterminada y funcionan bien en muchos tipos de usos. Conocer cuáles son estos pasos predeterminados, junto con los conceptos subyacentes, puede ayudarle a entender lo que necesita hacer con los datos para su caso de uso específico antes de utilizarlos para entrenar un modelo.

Configuración del experimento

Antes de que comience el preprocesamiento, Qlik Predict realiza varios pasos preparatorios y ofrece una vista previa de cómo se tratarán sus datos. Algunos pasos dependen de su tipo de experimento y de otros factores. Se pueden aplicar los siguientes pasos:

Se clasifican las columnas del conjunto de datos según el tipo de característica categórica, numérica, de fecha o de texto libre.
- Los tipos de datos flotantes, dobles y decimales siempre se consideran numéricos.
- Las columnas con un tipo de datos de cadena de texto, que contienen un promedio de menos de 50 caracteres, se clasifican como categóricas.
- Las columnas con un tipo de datos de cadena de texto, que contienen un promedio de 50 caracteres o más, se clasifican como de texto libre. Sin embargo, en esta etapa, no se garantiza que estas columnas se puedan utilizar como características de texto libre. Los requisitos adicionales se verifican durante el preprocesamiento. Consulte Pasos del preprocesamiento.
- Los tipos de datos enteros siempre se consideran numéricos.
- Los tipos de datos de fecha y marca de tiempo siempre se considera que tienen el tipo de característica de fecha. Durante la configuración del experimento, Qlik Predict previsualiza las características de ingeniería automática que podrían derivarse de la característica de fecha padre.
Verifique cada columna para detectar dispersión, constantes y alta cardinalidad. Excluya la columna si:
- La columna es nula en un 50 por ciento o más. La eliminación de registros que contienen un valor nulo para una característica puede llevar a descartar ejemplos de entrenamiento que de otro modo serían útiles. Alternativamente, la imputación de valores puede salvar el ejemplo, pero el registro se convierte en una mera aproximación a la realidad. Por lo tanto, a menudo es mejor excluir entidades con un alto número (más del 50 por ciento) de valores nulos. Tenga en cuenta que 0 nunca se considera nulo.
- La columna tiene el mismo valor en todas las filas (constante). En otras palabras, la columna tiene una baja cardinalidad. Las características con un solo valor único no tienen valor predictivo.
- La columna es categórica y tiene un 90 por ciento o más de valores únicos (alta cardinalidad). Demasiados valores únicos dificultan la generalización del modelo más allá del conjunto de datos de entrenamiento.

Es posible que se realicen ajustes en la forma en que se manejan los datos una vez que haya comenzado el preprocesamiento.

Pasos del preprocesamiento

Después de haber seleccionado una columna objetivo, los siguientes pasos dependen del tipo de experimento. Para experimentos de clasificación y regresión, las filas donde el valor de destino es nulo se identifican y separan, dejando las filas donde el destino se conoce como conjunto de entrenamiento. Para experimentos de series temporales, los valores de destino ausentes se interpolan.

Solo se utilizan los datos del conjunto de datos de entrenamiento para tomar decisiones en los pasos siguientes. Los pasos, junto con los metadatos, se guardarán y se aplicarán a cualquier dato nuevo para que el modelo haga predicciones.

El preprocesamiento se realiza en las características incluidas cada vez que ejecuta una nueva versión del experimento. Algunos pasos dependen de su tipo de experimento y de otros factores.

Calcule y guarde la media para valores numéricos y la moda para valores categóricos.
Impute los valores que faltan. Para más información, vea Imputación de nulos.
Codifique las variables categóricas.
Para los modelos de series temporales, se realizan una serie de pasos para validar las propiedades del experimento configuradas por el usuario y para proporcionar información adicional al usuario una vez finalizado el entrenamiento:
- Se determina la ventana de previsión máxima.
- Se confirma el intervalo de tiempo del índice de fecha.
- Las agrupaciones de objetivo seleccionadas por el usuario se validan o, si no se especifican, se identifican si están presentes a partir de las características categóricas incluidas.
Genere nuevas características a partir de columnas existentes en el conjunto de datos. Estas nuevas características de ingeniería automática pueden mejorar el rendimiento y la capacidad predictiva de los modelos que cree.

Se comprueba la longitud media de las palabras de las columnas identificadas como posible texto libre. Si la columna tiene una longitud promedio de palabras superior a cinco palabras, se puede codificar como una característica de texto libre mediante ingeniería de características automática. En caso contrario, se muestra una advertencia. Si no se puede utilizar como texto libre, se debe anular la selección de la característica si tiene una alta cardinalidad.
Calcule y guarde las estadísticas de resumen de cada columna para usarlas en el escalado de características.
Estandarice cada columna con un escalado de características.
Realice un análisis de las características que han sido seleccionadas para la detección de sesgos, devolviendo métricas de sesgo de datos y la correspondiente información. Para más información, vea Detección de sesgos en modelos de aprendizaje automático.
Utilice la retención automática de datos de entrenamiento y la validación cruzada de cinco veces. Para más información, vea Datos retenidos y validación cruzada.
Calcular varias estadísticas sobre el conjunto de datos con mayor certeza. Por ejemplo, puede haber nueva información disponible sobre el tamaño del conjunto de datos, el recuento de filas y celdas, y las proporciones de valores nulos. Para más información, vea Limitaciones del conjunto de datos de entrenamiento y de la creación de perfiles.

Más información

Ingeniería automática de características

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios