Traitement des données de type texte libre

Pour pouvoir être utile dans un modèle, le texte libre (par exemple, des données de type chaîne textuelle saisies dans des formulaires) nécessite un traitement spécial par des algorithmes d'apprentissage automatique. Dans Qlik Predict, le traitement du texte libre est une forme d'ingénierie automatique des caractéristiques. D'un point de vue technique, ce traitement utilise la méthode TF-IDF (Term Frequency - Inverse Document Frequency (Fréquence des termes - Fréquence inverse des documents)).

Qlik Predict supporte le traitement distinct des caractéristiques contenant des données de type texte libre en anglais.

Si une colonne de vos données d'apprentissage contient un texte libre, le type de caractéristique Texte libre lui est attribué. Elle peut également être utilisée sous forme de caractéristique catégorique, même si cela est vivement déconseillé en cas de forte cardinalité (trop grand nombre de valeurs uniques).

Vous pouvez sélectionner un maximum de trois colonnes à utiliser sous forme de caractéristiques de type texte libre dans une expérimentation.

Il est recommandé de renouveler l'apprentissage des modèles formés avant le 23 janvier 2024, s'ils utilisent des champs composés de données de type texte libre.

Conditions requises pour le chiffrement de texte libre

Pour chiffrer correctement une colonne contenant un texte libre sous forme de texte libre, celle-ci doit remplir deux conditions. Ces conditions sont vérifiées à différentes phases de la création de l'expérimentation.

Les conditions préalables requises sont les suivantes :

La colonne doit avoir une longueur de caractères moyenne de 50 caractères ou plus.
La colonne doit avoir une longueur de mots moyenne de cinq mots ou plus.

Traitement d'une caractéristique sous forme de texte libre

Le processus de traitement d'une caractéristique sous forme de texte libre est le suivant :

Lorsque vous sélectionnez vos données d'apprentissage, Qlik Predict identifie les caractéristiques susceptibles d'être traitées sous forme de texte libre. Elles sont marquées de l'information Texte libre possible dans la vue de schéma et leur type de caractéristique est Texte libre.
Une fois la v1 de l'expérimentation terminée, une analyse supplémentaire est effectuée. À ce stade, les caractéristiques initialement marquées comme Texte libre possible peuvent s'avérer inutilisables comme caractéristiques de type texte libre.

Si les caractéristiques inutilisables sous forme de type Texte libre présentent une forte cardinalité, il est recommandé de les désélectionner de l'expérimentation. Ces caractéristiques, quand elles sont traitées comme étant catégoriques, n'apportent aucune valeur aux performances du modèle.

Si les caractéristiques inutilisables sous forme de texte libre ne présentent pas de forte cardinalité, vous pouvez les inclure dans votre expérimentation en cliquant sur Traiter comme catégorique, ou en remplaçant leur Type de caractéristique Texte libre par Catégorique. Si vous conservez le type de caractéristique Texte libre, elles seront également traitées en interne comme des caractéristiques catégoriques et feront l'objet d'un impact encoding.

Pour des informations détaillées complètes sur le prétraitement, voir Préparation et transformation automatiques des données.

Pour plus d'informations sur chacune des informations analytiques apparaissant dans la vue Schéma, voir Affichage d'informations analytiques sur les données d'apprentissage.

Utilisation d'une caractéristique de type texte libre comme cible de l'expérimentation

Dans de rares cas, il est possible de sélectionner comme cible une caractéristique de type texte libre. Si la caractéristique remplit l'ensemble des conditions requises pour le chiffrement de texte libre et si elle contient entre deux et dix valeurs uniques, elle peut être utilisée comme cible. Dans ces scénarios, l'expérimentation est définie comme un problème de classification multiclasse ou de classification binaire standard.

Caractéristiques de type texte libre dans les prédictions

Pour en savoir plus sur les conditions d'exécution de prédictions avec un modèle déployé dont l'apprentissage a été effectué avec des caractéristiques de texte libre, consultez Utilisation de caractéristiques de texte libre dans les prédictions.

Considérations

L'inclusion dans votre expérimentation de fonctions de texte libre augmente la complexité de l'expérimentation et les processus nécessaires pour l'exécuter. Il est possible que les graphiques Permutation importance ne soient pas disponibles pour les modèles obtenus si les données sous forme de texte libre sont suffisamment complexes.

Dépannage

L'utilisation de données sous forme de texte libre pour former un modèle peut être un processus très gourmand en ressources. Il se peut que vous rencontriez une erreur, lorsque vous incluez des colonnes de texte libre contenant de grands nombres de termes uniques comme caractéristiques.

Pour résoudre ces erreurs, voici quelques conseils :

Réduisez le sous-jeu de données de votre jeu de données d'apprentissage pour y inclure moins de lignes de texte libre.
Retirez les caractéristiques de type texte libre que vous n'avez pas besoin d'inclure dans l'apprentissage du modèle.
Traitez une ou plusieurs colonnes de texte libre comme des caractéristiques catégoriques au lieu de caractéristiques de type texte libre. Notez que cela n'est pas recommandé, si ces caractéristiques de type texte libre présentent une forte cardinalité.

Limitations

L'ingénierie automatique des caractéristiques de texte libre n'est disponible que pour les jeux de données d'apprentissage respectant certaines limites de taille. Pour plus d'informations, consultez Limitations relatives aux jeux de données d'apprentissage et au profilage.
L'ingénierie automatique des caractéristiques de texte libre n'est pas disponible pour les expérimentations de série temporelle.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici