Accéder au contenu principal

tNLPPreprocessing

Ce composant prépare un échantillon de texte et le divise en tokens. Les tokens peuvent être des mots, des nombres ou des signes de ponctuation.

Le tNLPPreprocessing écrit en sortie une colonne contenant tous les tokens du texte d'entrée, séparés par des tabulations. Vous pouvez convertir la sortie au format CoNLL et annoter manuellement le texte. Ensuite, vous pouvez utiliser ces données pour entraîner un modèle et générer des caractéristiques à l'aide du tNLPModel.

Ce composant s'exécute uniquement avec les versions de Spark 1.6 et 2.0.

Pour plus de technologies supportées par Talend, consultez Composants Talend.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.