Saltar al contenido principal Saltar al contenido complementario

Ingeniería automática de características

Con la ingeniería automática de características Qlik AutoML puede utilizar características de sus datos de entrenamiento para crear nuevas características. Estas nuevas características de ingeniería automática le permiten descubrir nuevos patrones en sus datos y pueden mejorar en gran medida el rendimiento de sus modelos de aprendizaje automático.

La ingeniería de características es el proceso de crear nuevas columnas de características a partir de las actuales. AutoML puede realizar automáticamente ingeniería de características para mejorar el manejo de ciertos tipos de datos. Para obtener información general sobre ingeniería de características, vea . Crear nuevas columnas de características

Las características diseñadas automáticamente y las características principales de las que derivan van marcadas con un icono De ingeniería automática.

Tras seleccionar un conjunto de datos para utilizarlo en su experimento, se analiza el conjunto de datos y se identifica si las columnas que posee contienen determinados tipos de datos. Esos tipos de datos permiten a AutoML asignar un tipo de característica a cada columna del conjunto de datos. A cada columna se le asigna uno de los siguientes tipos de característica:

  • Categórica

  • Numérica

  • De fecha

  • Texto libre

Cuando es posible, AutoML muestra una lista de características de ingeniería automática que pueden crearse a partir de otras características principales elegibles. Esta lista de características diseñadas automáticamente se va refinando y reduciendo a medida que comienza el preprocesamiento. Incluir características de ingeniería automática en su experimento es recomendable, pero opcional. Puede eliminar características individuales de ingeniería automática antes de iniciar el entrenamiento y al configurar cada nueva versión del experimento.

Para obtener más información sobre los procesos completados antes de que comience el entrenamiento del experimento, vea Preparación y transformación automática de los datos.

Ingeniería de características de fecha

AutoML genera características diseñadas automáticamente a partir de columnas elegibles con el tipo de característica de fecha, que se ha identificado que contienen información de fecha y hora. Las características diseñadas automáticamente y las características principales de las que derivan van marcadas con un icono De ingeniería automática.

Cuando Qlik Cloud Analítica perfila el conjunto de datos de entrenamiento que ha seleccionado para usar en AutoML, vincula ciertos tipos de datos al tipo de característica de fecha. Esto incluye los siguientes tipos de datos:

  • Date

  • Datetime

  • Time

  • Timestamp

Las características a las que se les asigna cualquiera de estos tipos de datos durante la creación de perfiles reciben el tipo de característica de fecha. Para obtener información sobre las estadísticas de perfil disponibles que pueden verse para sus campos de datos, consulte Vista de la lista de perfiles.

Cuando es posible, AutoML muestra una lista de características de ingeniería automática que pueden crearse a partir de otras características principales elegibles. En el experimento se incluyen por defecto las características automáticas de fecha. Si decide incluirlas, las nuevas características se generarán después de la versión 1 del experimento.

Nota informativaSe recomienda volver a entrenar los modelos entrenados antes del 29 de agosto de 2023 si incluyen características que contengan fechas o marcas de tiempo.

Las características de fecha de ingeniería automática tienen el tipo de característica numérico. Se incluyen en el experimento por defecto, pero son opcionales. Puede eliminar algunas de ellas, o todas, antes de iniciar el entrenamiento del experimento, o al configurar la siguiente versión del experimento. Cuando se incluyen características de fecha de ingeniería automática, la característica de fecha original fuente se elimina del experimento.

En su lugar, puede incluir la característica de fecha principal en el experimento. Cuando se elige esta opción, el tipo de característica de la característica principal cambia de fecha a categórica, y las características de fecha de ingeniería automática dejan de ser utilizables. Se recomienda utilizar las características de ingeniería automática disponibles en su experimento, ya que aportan un rendimiento mejorado a sus modelos de aprendizaje automático.

Las características de fecha de ingeniería automática no cuentan para el tamaño del conjunto de datos de AutoML (recuentos máximos de celdas en los conjuntos de datos de entrenamiento y los conjuntos de datos de aplicación) que se ha especificado en su suscripción a Qlik Cloud. Únicamente cuentan las celdas de la columna de fecha original.

Vista de esquema que muestra las características de ingeniería automática que pueden generarse a partir de una característica principal de fecha "Fecha de factura". Observe la diferencia entre el Tipo de datos y el Tipo de característica de cada característica.

Vista de esquema en el entrenamiento del experimento, que muestra la característica principal identificada como característica de fecha con los posibles rasgos de ingeniería automática que pueden crearse a partir de ella.

Usar las características de la fecha como objetivo del experimento

En el caso poco frecuente de que desee utilizar una característica con información de fecha y hora como objetivo de su experimento, el tipo de característica de la columna cambiará de fecha a categórica y se eliminarán las características de ingeniería automática. Si selecciona otro objetivo y más tarde desea añadir la característica de fecha y hora como característica normal, tendrá que volver a cambiarla manualmente al tipo de característica de fecha si es necesario. Si devuelve la característica al tipo de característica de fecha, las características de fecha de ingeniería automática se generarán de nuevo.

Para más información sobre cómo cambiar los tipos de características, vea Cambiar los tipos de características.

Características de fecha de ingeniería automática disponibles

Al generar características de fecha automáticas a partir de una columna de su conjunto de datos, AutoML extrae y calcula componentes específicos de cada valor de fecha y fecha-hora, aislando cada componente en su propia columna. En la tabla siguiente se enumeran las características de ingeniería automática que puede generar AutoML.

Lista de características de ingeniería automática que pueden derivarse de una característica de fecha y hora
Característica generada mediante ingeniería automática Tipo de datos Tipo de característica Descripción
YEAR Entero Numérica Campo de año analizado directamente desde la fecha o marca de tiempo de origen.
MONTH Entero Numérica Campo de mes analizado directamente desde la fecha o marca de tiempo de origen.
DAY Entero Numérica Campo de día analizado directamente desde la fecha o marca de tiempo de origen.
HOUR Entero Numérica Campo de hora analizado directamente desde la marca de tiempo de origen.
MINUTE Entero Numérica Campo de hora analizado directamente desde la marca de tiempo de origen.
SECOND Entero Numérica Campo de segundo analizado directamente desde la marca de tiempo de origen.
DAYOFWEEK Entero Numérica Día de la semana, calculado a partir del día, mes y año de origen.
WEEK Entero Numérica Semana del año, calculada a partir del día, mes y año de origen.

Para cada nueva característica creada, el nombre de la columna original tiene el sufijo de la característica de ingeniería automática aplicable.

Características de fecha generadas automáticamente en el panel de configuración del experimento

La sección Características en el panel de configuración del experimento muestra características generadas automáticamente.

Características de fecha generadas automáticamente en las predicciones

Las características de fecha de ingeniería automática se generan cuando se utiliza el conjunto de datos de entrenamiento para crear un modelo, el cual se implementa y se utiliza como una implementación de ML para hacer predicciones sobre nuevos datos (el conjunto de datos de aplicación).

Cuando se implementa un modelo entrenado con características de fecha de ingeniería automática para realizar predicciones, no es necesario que el conjunto de datos de aplicación en el que se generan las predicciones incluya las características de fecha de ingeniería automática. AutoML genera las características de ingeniería automática para el conjunto de datos de aplicación antes de realizar la predicción. No obstante, el conjunto de datos de aplicación debe incluir la característica de fecha principal y el perfil de la columna debe tener el tipo de datos Date, Datetime, Timestamp o Time.

Los conjuntos de datos de predicción creados por una implementación de ML, incluidos SHAP y los conjuntos de datos de aplicación, incluirán las características de fecha de ingeniería automática.

Características de fecha generadas automáticamente en predicciones en tiempo real

Para que la API de predicciones en tiempo real pueda procesar sus campos de fecha y marcas de tiempo, la carga útil JSON que envíe a la API de predicciones en tiempo real debe seguir los siguientes requisitos:

  • Los valores de fecha y hora deben ser cadenas con un formato de acuerdo con los estándares ISO 8601.

  • Los datos dentro de cada columna deben ser de la misma zona horaria.

Nota informativaLos datos que utilice para entrenar su modelo no tienen que seguir estos requisitos.

Manejo de datos de texto libre

El texto libre (por ejemplo, datos de cadenas de texto introducidas en formularios) requiere un procesamiento especial por parte de los algoritmos de aprendizaje automático para que sea útil en un modelo. En Qlik AutoML, el procesamiento de texto libre es una forma de ingeniería automática de características. Técnicamente hablando, este procesamiento utiliza el método TF-IDF (term frequency - inverse document frequency): Frecuencia de término - frecuencia de documento inversa.

AutoML admite el procesamiento por separado para características con datos de texto libre en inglés.

Si una columna de sus datos de entrenamiento contiene texto libre, se le asigna el tipo de característica de texto libre. También se puede utilizar como característica categórica, aunque se desaconseja encarecidamente si tiene una cardinalidad alta (demasiados valores únicos).

Puede seleccionar un máximo de tres columnas para utilizarlas como características de texto libre en un experimento.

Nota informativaSe recomienda volver a entrenar los modelos que se entrenaron antes del 23 de enero de 2024 si utilizan campos que contienen datos de texto libre.

Requisitos para la codificación de texto libre

Para que una columna que contiene texto libre se codifique correctamente como texto libre, debe cumplir dos requisitos. Estos requisitos se verifican en diferentes etapas de la creación del experimento.

Los requisitos son:

  • La columna debe tener una longitud promedio de 50 caracteres o más.

  • La columna debe tener una longitud promedio de cinco o más palabras.

Tratar una característica como texto libre

El proceso de tratar una característica como texto libre es el siguiente:

  1. Cuando selecciona sus datos de entrenamiento, Qlik AutoML identifica características que posiblemente puedan procesarse como texto libre. Van marcadas con Texto libre posible en la vista de esquema y tendrán el tipo de característica de texto libre.

  2. Después de ejecutar la versión 1 del experimento, se completan análisis adicionales. En este punto, es posible que las características marcadas inicialmente como posible texto libre no se puedan utilizar como funciones de texto libre.

    Si las características que no se pueden utilizar como texto libre tienen una cardinalidad alta, se recomienda anular su selección del experimento. Estas características, cuando se tratan como categóricas, no aportan ningún valor al rendimiento del modelo.

    Si las características que no se pueden utilizar como texto libre no tienen una cardinalidad alta, puede incluirlas en su experimento haciendo clic en Tratar como categóricas o cambiando su Tipo de característica de texto libre a categórica. Si deja el tipo de característica como texto libre, también se tratará internamente como categórica y se codificará con impacto.

Para más detalles sobre el preprocesamiento, vea Preparación y transformación automática de los datos.

Para más información sobre cada una de las ideas que se muestran en la vista de esquema, vea Información común que se encuentra en los datos de entrenamiento.

Utilizar una característica de texto libre como objetivo del experimento

En casos excepcionales, se puede seleccionar una característica de texto libre como objetivo. Si la característica cumple con todos los requisitos para la codificación de texto libre y contiene entre dos y diez valores únicos, se puede utilizar como objetivo. En estos casos, el experimento se define como un problema de clasificación binaria estándar o de clasificación multiclase.

Características de texto libre en las predicciones.

Cuando implementa un modelo entrenado con una característica de texto libre, la implementación de ML resultante puede generar predicciones siempre que se cumplan los siguientes requisitos para el conjunto de datos aplicado:

  • Los nombres de las columnas de la característica deben ser idénticos entre el conjunto de datos de entrenamiento y el conjunto de datos de aplicación.

  • La columna del conjunto de datos de aplicación, que corresponde a la característica de texto libre en los datos de entrenamiento, debe contener datos de cadena de texto.

Nota de avisoSiempre que se cumplan los requisitos anteriores, la predicción se ejecutará correctamente. En otras palabras, la predicción se ejecutará correctamente incluso si la columna correspondiente en el conjunto de datos de aplicación no contiene texto libre. Una predicción generada en esta situación no se considera fiable. Asegúrese siempre de que la columna equivalente en su conjunto de datos de aplicación, que corresponde a una característica de texto libre en sus datos de entrenamiento, contenga texto libre.

Consideraciones

Incluir funciones de texto libre en su experimento aumenta la complejidad del experimento y los procesos necesarios para ejecutarlo. Es posible que los gráficos de importancia de la permutación no estén disponibles para los modelos resultantes si sus datos de texto libre son demasiado complejos.

Resolución de problemas

El uso de datos de texto libre para entrenar un modelo puede ser un proceso que requiere muchos recursos. Es posible que encuentre un error al incluir columnas de texto libre que contengan una gran cantidad de palabras únicas como características.

A continuación se ofrecen algunas pautas para resolver estos errores:

  • Reduzca el subconjunto de datos en su conjunto de datos de entrenamiento para incluir menos filas de texto libre.

  • Elimine las características de texto libre que no necesite incluir en el entrenamiento del modelo.

  • Trate una o más columnas de texto libre como características categóricas, en lugar de texto libre. Tenga en cuenta que esto no se recomienda si estas características de texto libre contienen una alta cardinalidad.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.