Manejo de los datos de texto libre
El texto libre (por ejemplo, datos de cadenas de texto introducidas en formularios) requiere un procesamiento especial por parte de los algoritmos de aprendizaje automático para que sea útil en un modelo. En Qlik Predict, el procesamiento de texto libre es una forma de ingeniería automática de características. Técnicamente hablando, este procesamiento utiliza el método TF-IDF (term frequency - inverse document frequency): Frecuencia de término - frecuencia de documento inversa.
Qlik Predict admite el procesamiento por separado de características con datos de texto libre en inglés.
Si una columna de sus datos de entrenamiento contiene texto libre, se le asigna el tipo de característica de texto libre. También se puede utilizar como característica categórica, aunque se desaconseja encarecidamente si tiene una cardinalidad alta (demasiados valores únicos).
Puede seleccionar un máximo de tres columnas para utilizarlas como características de texto libre en un experimento.
Requisitos para la codificación de texto libre
Para que una columna que contiene texto libre se codifique correctamente como texto libre, debe cumplir dos requisitos. Estos requisitos se verifican en diferentes etapas de la creación del experimento.
Los requisitos son:
-
La columna debe tener una longitud promedio de 50 caracteres o más.
-
La columna debe tener una longitud promedio de cinco o más palabras.
Tratar una característica como texto libre
El proceso de tratar una característica como texto libre es el siguiente:
-
Cuando selecciona sus datos de entrenamiento, Qlik Predict identifica las características que posiblemente puedan procesarse como texto libre. Van marcadas con Texto libre posible en la vista de esquema y tendrán el tipo de característica de texto libre.
-
Después de ejecutar la versión 1 del experimento, se completan análisis adicionales. En este punto, es posible que las características marcadas inicialmente como posible texto libre no se puedan utilizar como funciones de texto libre.
Si las características que no se pueden utilizar como texto libre tienen una cardinalidad alta, se recomienda anular su selección del experimento. Estas características, cuando se tratan como categóricas, no aportan ningún valor al rendimiento del modelo.
Si las características que no se pueden utilizar como texto libre no tienen una cardinalidad alta, puede incluirlas en su experimento haciendo clic en Tratar como categóricas o cambiando su Tipo de característica de texto libre a categórica. Si deja el tipo de característica como texto libre, también se tratará internamente como categórica y se codificará con impacto.
Para más detalles sobre el preprocesamiento, vea Preparación y transformación automática de los datos.
Para más información sobre cada una de las ideas que se muestran en la vista de esquema, vea Visualizar información sobre los datos de entrenamiento.
Utilizar una característica de texto libre como objetivo del experimento
En casos excepcionales, se puede seleccionar una característica de texto libre como objetivo. Si la característica cumple con todos los requisitos para la codificación de texto libre y contiene entre dos y diez valores únicos, se puede utilizar como objetivo. En estos casos, el experimento se define como un problema de clasificación binaria estándar o de clasificación multiclase.
Características de texto libre en las predicciones.
Para conocer los requisitos para ejecutar predicciones con un modelo implementado entrenado con características de texto libre, consulte Trabajar con características de texto libre en las predicciones.
Consideraciones
Incluir funciones de texto libre en su experimento aumenta la complejidad del experimento y los procesos necesarios para ejecutarlo. Es posible que los gráficos de importancia de la permutación no estén disponibles para los modelos resultantes si sus datos de texto libre son demasiado complejos.
Resolución de problemas
El uso de datos de texto libre para entrenar un modelo puede ser un proceso que requiere muchos recursos. Es posible que encuentre un error al incluir columnas de texto libre que contengan una gran cantidad de palabras únicas como características.
A continuación se ofrecen algunas pautas para resolver estos errores:
-
Reduzca el subconjunto de datos en su conjunto de datos de entrenamiento para incluir menos filas de texto libre.
-
Elimine las características de texto libre que no necesite incluir en el entrenamiento del modelo.
-
Trate una o más columnas de texto libre como características categóricas, en lugar de texto libre. Tenga en cuenta que esto no se recomienda si estas características de texto libre contienen una alta cardinalidad.
Limitaciones
-
La ingeniería de características de texto libre automática solo está disponible para conjuntos de datos de entrenamiento dentro de ciertos límites de tamaño. Para más información, vea Limitaciones del conjunto de datos de entrenamiento y de la creación de perfiles.
-
La ingeniería automática de características de texto libre no está disponible para experimentos de series temporales.