Traiter du langage naturel à l'aide du Studio Talend
Qu'est-ce que le traitement du langage naturel ?
- 
                        
la division d'un texte en termes individuels, qui sont des unités linguistiques basiques telles que des mots ou des signes de ponctuation,
 - 
                        
la segmentation de phrases, qui consiste à segmenter les données d'entrée en phrases, en se basant sur les caractères marquant la fin d'une phrase tels que le point ou le point d'interrogation,
 - 
                        
la reconnaissance d'entités nommées, qui consiste à rechercher et à classer des noms de personnes, des dates ainsi que des noms de lieux et d'organisations au sein d'un texte.
 
- 
                        
extraire des noms de personnes ou d'entreprises à partir de ressources textuelles,
 - 
                        
regrouper des discussions autour d'un même sujet sur un forum,
 - 
                        
trouver des discussions où certaines personnes sont nommées sans que ces personnes n'y participent,
 - 
                        
établir un lien entre des entités.
 
Workflow
- 
                        
le premier Job comprend les composants tNLPPreprocessing et tNormalize,
 - 
                        
le second Job comprend un tNLPModel.
 
La seconde phase est implémentée dans un troisième Job comprenant un tNLPPredict.
         - 
                        
divise un échantillon de texte en termes individuels,
 - 
                        
nettoie l'échantillon de texte en supprimant toutes les balises HTML.
 
Ensuite, le tNormalize convertit les termes individuels au format CoNLL.
            - 
                        
crée des caractéristiques pour chaque terme individuel,
 - 
                        
apprend un modèle de classification.
 
Le tNLPPredict libelle automatiquement les données textuelles à l'aide du modèle de classification généré par le tNLPModel.