Accéder au contenu principal Passer au contenu complémentaire

Traiter du langage naturel à l'aide du Studio Talend

À l'aide du Studio Talend et de l'apprentissage automatique sur Spark, vous pouvez apprendre à un ordinateur à comprendre la façon dont les humains apprennent et utilisent le langage naturel.

Qu'est-ce que le traitement du langage naturel ?

Le traitement du langage naturel comprend les tâches suivantes :
  • la division d'un texte en termes individuels, qui sont des unités linguistiques basiques telles que des mots ou des signes de ponctuation,

  • la segmentation de phrases, qui consiste à segmenter les données d'entrée en phrases, en se basant sur les caractères marquant la fin d'une phrase tels que le point ou le point d'interrogation,

  • la reconnaissance d'entités nommées, qui consiste à rechercher et à classer des noms de personnes, des dates ainsi que des noms de lieux et d'organisations au sein d'un texte.

Le traitement du langage naturel est utile pour :
  • extraire des noms de personnes ou d'entreprises à partir de ressources textuelles,

  • regrouper des discussions autour d'un même sujet sur un forum,

  • trouver des discussions où certaines personnes sont nommées sans que ces personnes n'y participent,

  • établir un lien entre des entités.

Le traitement du langage naturel peut vous aider à établir un lien entre des profils d'utilisateurs et des noms mentionnés dans un texte, entre des personnes et des organisations, ou entre des personnes et toute information qui peut être utilisée pour les réidentifier.

Workflow

L'apprentissage automatique sur Spark se compose généralement de deux phases : la première phase calcule un modèle en se basant sur l'historique des données et les heuristiques mathématiques. La seconde phase applique le modèle sur des données textuelles. Dans Studio Talend, la première phase est implémentée par deux Jobs :
  • le premier Job comprend les composants tNLPPreprocessing et tNormalize,

  • le second Job comprend un tNLPModel.

La seconde phase est implémentée dans un troisième Job comprenant un tNLPPredict.

Dans ce workflow, le tNLPPreprocessing :
  • divise un échantillon de texte en termes individuels,

  • nettoie l'échantillon de texte en supprimant toutes les balises HTML.

Ensuite, le tNormalize convertit les termes individuels au format CoNLL.

Vous pouvez ensuite annoter les termes individuels et ajouter des caractéristiques optionnelles en modifiant les fichiers manuellement. Par exemple, vous pouvez ajouter le libellé PER aux noms de personnes :
Ensuite, vous pouvez utiliser le texte divisé en termes individuels que vous avez annoté avec le tNLPModel dans le second Job où le tNLPModel :
  • crée des caractéristiques pour chaque terme individuel,

  • apprend un modèle de classification.

Le tNLPPredict libelle automatiquement les données textuelles à l'aide du modèle de classification généré par le tNLPModel.

Par exemple, vous pouvez extraire les entités nommées avec le libellé <PER> :

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.