Accéder au contenu principal Passer au contenu complémentaire

Transformer des messages en mots

Availability-noteDéprécié·e

Procédure

  1. Double-cliquez sur le tModelEncoder nommé Tokenize pour ouvrir sa vue Component. Ce composant transforme les SMS en mots.
  2. Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.
  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.
  4. Du côté de la sortie, cliquez sur le bouton [+] pour ajouter une ligne et, dans la colonne Column, renommez-la sms_tokenizer_words. Cette colonne est utilisée pour contenir les messages transformés.
  5. Dans la colonne Type, sélectionnez Object pour la ligne sms_tokenizer_words.
  6. Cliquez sur OK pour valider ces modifications.
  7. Dans la table Transformations, ajoutez une ligne en cliquant sur le bouton [+] et en procédant comme suit :
    1. Dans la colonne Input column, sélectionnez la colonne fournissant les données à transformer en caractéristiques. Dans ce scénario, sélectionnez sms_contents.
    2. Dans la colonne Output column, sélectionnez la colonne contenant les caractéristiques. Dans ce scénario, sélectionnez sms_tokenizer_words.
    3. Dans la colonne Transformation, sélectionnez l'algorithme à utiliser pour la transformation. Dans ce scénario, sélectionnez Regex tokenizer.
    4. Dans la colonne Parameters, saisissez les paramètres que vous souhaitez personnaliser pour les utiliser dans l'algorithme sélectionné. Dans ce scénario, saisissez pattern=\\W;minTokenLength=3.

Résultats

En utilisant cette transformation, le tModelEncoder sépare chaque message d'entrée par des espaces blancs, sélectionne uniquement les mots contenant au moins trois lettres et écrit le résultat de la transformation dans la colonne sms_tokenizer_words. Les symboles monétaires, les valeurs numériques, les signes de ponctuation et les mots comme a, an ou to sont exclus de cette colonne.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.