tNLPPreprocessing
テキストサンプルのプレパレーションを行い、複数のトークンに分割します。トークンは、単語、数字、または句読点の場合があります。
tNLPPreprocessingは、入力テキスト用のすべてのトークンを含むカラムを、タブで区切られた形式で出力します。出力はCoNLL形式に変換し、テキストに手動で注釈を付けることができます。次に、tNLPModelコンポーネントでそれを使用して、モデルとデザイン機能のトレーニングを行うことができます。
このコンポーネントは、Spark 1.6と2.0でのみ実行できます。
Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。