Ingeniería automática de características
Con la ingeniería automática de características Qlik AutoML puede utilizar características de sus datos de entrenamiento para crear nuevas características. Estas nuevas características de ingeniería automática le permiten descubrir nuevos patrones en sus datos y pueden mejorar en gran medida el rendimiento de sus modelos de aprendizaje automático.
La ingeniería de características es el proceso de crear nuevas columnas de características a partir de las actuales. AutoML puede realizar automáticamente ingeniería de características para mejorar el manejo de ciertos tipos de datos. Para obtener información general sobre ingeniería de características, vea Crear nuevas columnas de características.
Las características diseñadas automáticamente y las características principales de las que derivan van marcadas con un icono .
Tras seleccionar un conjunto de datos para utilizarlo en su experimento, se analiza el conjunto de datos y se identifica si las columnas que posee contienen determinados tipos de datos. Esos tipos de datos permiten a AutoML asignar un tipo de característica a cada columna del conjunto de datos. A cada columna se le asigna uno de los siguientes tipos de característica:
-
Categórica
-
Numérica
-
Fecha
-
Texto libre
Cuando es posible, AutoML muestra una lista de características de ingeniería automática que pueden crearse a partir de otras características principales elegibles. Esta lista de características diseñadas automáticamente se va refinando y reduciendo a medida que comienza el preprocesamiento. Incluir características de ingeniería automática en su experimento es recomendable, pero opcional. Puede eliminar características individuales de ingeniería automática antes de iniciar el entrenamiento y al configurar cada nueva versión del experimento.
Para obtener más información sobre los procesos completados antes de que comience el entrenamiento del experimento, vea Preparación y transformación automática de los datos.
Ingeniería de características de fecha
AutoML genera características diseñadas automáticamente a partir de columnas elegibles con el tipo de característica de fecha, que se ha identificado que contienen información de fecha y hora. Las características diseñadas automáticamente y las características principales de las que derivan van marcadas con un icono .
Cuando Analítica de Qlik Cloud perfila el conjunto de datos de entrenamiento que ha seleccionado para usar en AutoML, vincula ciertos tipos de datos al tipo de característica de fecha. Esto incluye los siguientes tipos de datos:
-
Date
-
Datetime
-
Time
-
Timestamp
Las características a las que se les asigna cualquiera de estos tipos de datos durante la creación de perfiles reciben el tipo de característica de fecha. Para obtener información sobre las estadísticas de perfil disponibles que pueden verse para sus campos de datos, consulte Vista de la lista de perfiles.
Cuando es posible, AutoML muestra una lista de características de ingeniería automática que pueden crearse a partir de otras características principales elegibles. En el experimento se incluyen por defecto las características automáticas de fecha. Si decide incluirlas, las nuevas características se generarán después de la versión 1 del experimento.
Las características de fecha de ingeniería automática tienen el tipo de característica numérico. Se incluyen en el experimento por defecto, pero son opcionales. Puede eliminar algunas de ellas, o todas, antes de iniciar el entrenamiento del experimento, o al configurar la siguiente versión del experimento. Cuando se incluyen características de fecha de ingeniería automática, la característica de fecha principal original se elimina del experimento.
En su lugar, puede incluir la función de fecha principal como una función categórica o numérica. Si lo hace, las funciones de fecha automática dejarán de ser utilizables. En la mayoría de los casos, se recomienda utilizar las característica de ingeniería automática disponibles en su experimento, ya que aportan un mejor rendimiento a sus modelos de aprendizaje automático. Sin embargo, puede haber escenarios en los que una columna se identifique como una característica de fecha pero usted necesite que se trate como categórica o numérica. En esos casos, puede cambiar manualmente el tipo de característica.
Las características de fecha de ingeniería automática no cuentan para el tamaño del conjunto de datos de AutoML (recuentos máximos de celdas en los conjuntos de datos de entrenamiento y los conjuntos de datos de aplicación) que se ha especificado en su suscripción a Qlik Cloud. Únicamente cuentan las celdas de la columna de fecha original.
Usar las características de la fecha como objetivo del experimento
En el caso poco frecuente de que desee utilizar una característica con información de fecha y hora como objetivo de su experimento, el tipo de característica de la columna cambiará de fecha a categórica y se eliminarán las características de ingeniería automática. Si selecciona otro objetivo y más tarde desea añadir la característica de fecha y hora como característica normal, tendrá que volver a cambiarla manualmente al tipo de característica de fecha si es necesario. Si devuelve la característica al tipo de característica de fecha, las características de fecha de ingeniería automática se generarán de nuevo.
Para más información sobre cómo cambiar los tipos de características, vea Cambiar los tipos de características.
Características de fecha de ingeniería automática disponibles
Al generar características de fecha automáticas a partir de una columna de su conjunto de datos, AutoML extrae y calcula componentes específicos de cada valor de fecha y fecha-hora, aislando cada componente en su propia columna. En la tabla siguiente se enumeran las características de ingeniería automática que puede generar AutoML.
Característica generada mediante ingeniería automática | Tipo de datos | Tipo de característica | Descripción |
---|---|---|---|
YEAR | Entero | Numérica | Campo de año analizado directamente desde la fecha o marca de tiempo de origen. |
MONTH | Entero | Numérica | Campo de mes analizado directamente desde la fecha o marca de tiempo de origen. |
DAY | Entero | Numérica | Campo de día analizado directamente desde la fecha o marca de tiempo de origen. |
HOUR | Entero | Numérica | Campo de hora analizado directamente desde la marca de tiempo de origen. |
MINUTE | Entero | Numérica | Campo de hora analizado directamente desde la marca de tiempo de origen. |
SECOND | Entero | Numérica | Campo de segundo analizado directamente desde la marca de tiempo de origen. |
DAYOFWEEK | Entero | Numérica | Día de la semana, calculado a partir del día, mes y año de origen. |
WEEK | Entero | Numérica | Semana del año, calculada a partir del día, mes y año de origen. |
Para cada nueva característica creada, el nombre de la columna original tiene el sufijo de la característica de ingeniería automática aplicable.
Características de fecha generadas automáticamente en las predicciones
Las características de fecha de ingeniería automática se generan cuando se utiliza el conjunto de datos de entrenamiento para crear un modelo, el cual se implementa y se utiliza como una implementación de ML para hacer predicciones sobre nuevos datos (el conjunto de datos de aplicación).
Cuando se implementa un modelo entrenado con características de fecha de ingeniería automática para realizar predicciones, no es necesario que el conjunto de datos de aplicación en el que se generan las predicciones incluya las características de fecha de ingeniería automática. AutoML genera las características de ingeniería automática para el conjunto de datos de aplicación antes de realizar la predicción. No obstante, el conjunto de datos de aplicación debe incluir la característica de fecha principal y el perfil de la columna debe tener el tipo de datos Date, Datetime, Timestamp o Time.
Los conjuntos de datos de predicción creados por una implementación de ML, incluidos SHAP y los conjuntos de datos de aplicación, incluirán las características de fecha de ingeniería automática.
Características de fecha generadas automáticamente en predicciones en tiempo real
Para que la API de predicciones en tiempo real pueda procesar sus campos de fecha y marcas de tiempo, la carga útil JSON que envíe a la API de predicciones en tiempo real debe seguir los siguientes requisitos:
-
Los valores de fecha y hora deben ser cadenas con un formato de acuerdo con los estándares ISO 8601.
-
Los datos dentro de cada columna deben ser de la misma zona horaria.
Manejo de datos de texto libre
El texto libre (por ejemplo, datos de cadenas de texto introducidas en formularios) requiere un procesamiento especial por parte de los algoritmos de aprendizaje automático para que sea útil en un modelo. En Qlik AutoML, el procesamiento de texto libre es una forma de ingeniería automática de características. Técnicamente hablando, este procesamiento utiliza el método TF-IDF (term frequency - inverse document frequency): Frecuencia de término - frecuencia de documento inversa.
AutoML admite el procesamiento por separado para características con datos de texto libre en inglés.
Si una columna de sus datos de entrenamiento contiene texto libre, se le asigna el tipo de característica de texto libre. También se puede utilizar como característica categórica, aunque se desaconseja encarecidamente si tiene una cardinalidad alta (demasiados valores únicos).
Puede seleccionar un máximo de tres columnas para utilizarlas como características de texto libre en un experimento.
Requisitos para la codificación de texto libre
Para que una columna que contiene texto libre se codifique correctamente como texto libre, debe cumplir dos requisitos. Estos requisitos se verifican en diferentes etapas de la creación del experimento.
Los requisitos son:
-
La columna debe tener una longitud promedio de 50 caracteres o más.
-
La columna debe tener una longitud promedio de cinco o más palabras.
Tratar una característica como texto libre
El proceso de tratar una característica como texto libre es el siguiente:
-
Cuando selecciona sus datos de entrenamiento, Qlik AutoML identifica características que posiblemente puedan procesarse como texto libre. Van marcadas con Texto libre posible en la vista de esquema y tendrán el tipo de característica de texto libre.
-
Después de ejecutar la versión 1 del experimento, se completan análisis adicionales. En este punto, es posible que las características marcadas inicialmente como posible texto libre no se puedan utilizar como funciones de texto libre.
Si las características que no se pueden utilizar como texto libre tienen una cardinalidad alta, se recomienda anular su selección del experimento. Estas características, cuando se tratan como categóricas, no aportan ningún valor al rendimiento del modelo.
Si las características que no se pueden utilizar como texto libre no tienen una cardinalidad alta, puede incluirlas en su experimento haciendo clic en Tratar como categóricas o cambiando su Tipo de característica de texto libre a categórica. Si deja el tipo de característica como texto libre, también se tratará internamente como categórica y se codificará con impacto.
Para más detalles sobre el preprocesamiento, vea Preparación y transformación automática de los datos.
Para más información sobre cada una de las ideas que se muestran en la vista de esquema, vea Visualizar la información sobre los datos de entrenamiento.
Utilizar una característica de texto libre como objetivo del experimento
En casos excepcionales, se puede seleccionar una característica de texto libre como objetivo. Si la característica cumple con todos los requisitos para la codificación de texto libre y contiene entre dos y diez valores únicos, se puede utilizar como objetivo. En estos casos, el experimento se define como un problema de clasificación binaria estándar o de clasificación multiclase.
Características de texto libre en las predicciones.
Cuando implementa un modelo entrenado con una característica de texto libre, la implementación de ML resultante puede generar predicciones siempre que se cumplan los siguientes requisitos para el conjunto de datos aplicado:
-
Los nombres de las columnas de la característica deben ser idénticos entre el conjunto de datos de entrenamiento y el conjunto de datos de aplicación.
-
La columna del conjunto de datos de aplicación, que corresponde a la característica de texto libre en los datos de entrenamiento, debe contener datos de cadena de texto.
Consideraciones
Incluir funciones de texto libre en su experimento aumenta la complejidad del experimento y los procesos necesarios para ejecutarlo. Es posible que los gráficos de importancia de la permutación no estén disponibles para los modelos resultantes si sus datos de texto libre son demasiado complejos.
Resolución de problemas
El uso de datos de texto libre para entrenar un modelo puede ser un proceso que requiere muchos recursos. Es posible que encuentre un error al incluir columnas de texto libre que contengan una gran cantidad de palabras únicas como características.
A continuación se ofrecen algunas pautas para resolver estos errores:
-
Reduzca el subconjunto de datos en su conjunto de datos de entrenamiento para incluir menos filas de texto libre.
-
Elimine las características de texto libre que no necesite incluir en el entrenamiento del modelo.
-
Trate una o más columnas de texto libre como características categóricas, en lugar de texto libre. Tenga en cuenta que esto no se recomienda si estas características de texto libre contienen una alta cardinalidad.