Talend Studioを使用する自然言語処理

Talend StudioおよびSparkの機械学習を使用することで、人が自然言語をどのように学習し、使用するのかをコンピューターに教え、理解させることができます。

自然言語処理とは何か?

自然言語処理タスクは次のとおりです。

自然言語処理は次の処理に便利です。

自然言語処理は、テキスト内のユーザープロファイルとメンションの間、人と組織の間、または、再識別に使用されるその他の情報と人との間にリンクを作成するのに役立ちます。

Sparkの機械学習は通常、次の2フェーズになっています: 最初のフェーズでは、履歴データと数学的なヒューリスティックをベースにモデルを計算します。2番目のフェーズでは、テキストデータにモデルを適用します。Talend Studioでは、最初のフェーズが2つのジョブによって実装されます。

他方、第2のフェーズはtNLPPredictコンポーネントを使用する第3のジョブによって実装されます。

このワークフローでは、tNLPPreprocessingは次の処理を行います。

次に、tNormalizeによってトークンがCoNLL形式に変換されます。

ここで、トークンに手動でラベル付けし、ファイルを編集してオプション機能を追加できます。たとえば、人名にPERのラベルを付けることができます:

次に、2番目のジョブでtNLPModelを使用してラベル付けした、トークン化されたサンプルテキストを使用します。ここでは、tNLPModelを使用して以下のオペレーションを実行します。

tNLPPredictは、tNLPModelによって生成された分類モデルを使用して、テキストデータに自動的にラベル付けします。

たとえば、<PER>ラベルの付いたネームドエンティティを抽出できます:

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。