tJapaneseTokenize
Ce composant segmente du texte japonais.
La segmentation est une étape de pré-traitement importante et prépare du texte pour une analyse ultérieure, la translittération, la fouille de textes ou des tâches de traitement du langage naturel.
Contrairement à l'anglais et au français, aucun espace ne marque les limites entre les mots en japonais. Segmenter du texte japonais est donc plus difficile.
En se basant sur le dictionnaire IPADIC, le tJapaneseTokenize déduit l'existence des limites entre les mots et ajoute un espace pour séparer les segments.
Le dictionnaire IPADIC a été développé par l'Agence de Promotion des technologies de l'Information japonaise (IPA). Ce dictionnaire est basé sur le corpus de l'IPA et est le dictionnaire le plus utilisé pour segmenter du texte en japonais.
En mode local, les versions 1.6, 2.1, 2.3, 2.4 et 3.0 d'Apache Spark sont supportées.
Pour plus de technologies supportées par Talend, consultez Composants Talend.
Selon le produit Talend que vous utilisez, ce composant peut être utilisé dans un framework de Jobs, dans plusieurs, ou dans tous les frameworks :
- Standard : consultez Propriétés du tJapaneseTokenize Standard.
Le composant de ce framework est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform et dans Talend Data Fabric.
- Spark Batch : consultez Propriétés du tJapaneseTokenize pour Apache Spark Batch.
Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.
- Spark Streaming : consultez Propriétés du tJapaneseTokenize pour Apache Spark Streaming.
Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.