tNLPPreprocessing
Ce composant prépare un échantillon de texte et le divise en tokens. Les tokens peuvent être des mots, des nombres ou des signes de ponctuation.
Le tNLPPreprocessing écrit en sortie une colonne contenant tous les tokens du texte d'entrée, séparés par des tabulations. Vous pouvez convertir la sortie au format CoNLL et annoter manuellement le texte. Ensuite, vous pouvez utiliser ces données pour entraîner un modèle et générer des caractéristiques à l'aide du tNLPModel.
Ce composant s'exécute uniquement avec les versions de Spark 1.6 et 2.0.
Pour plus de technologies supportées par Talend, consultez Composants Talend.