メイン コンテンツをスキップする 補完的コンテンツへスキップ

トークン化されたテキストをCoNLL形式に変換する

分類モデルをテキストから学習できるようにするには、このテキストをトークンに分割し、tNormalizeを使用してCoNLL形式に変換する必要があります。

手順

  1. tNLPPreprocessingコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. [Sync columns] (カラムを同期)をクリックすると、ジョブで接続している先行コンポーネントからスキーマが取得されます。
    1. [NLP Library] (NLPライブラリー)リストから、トークン化に使用するライブラリーを選択します。このサンプルでは、ScalaNLPが使用されています。
  2. [Column to preprocess] (前処理するカラム)リストから、トークンに分割するテキストが保存されているカラムを選択します(このサンプルではmessage)。
  3. tFilterColumnsコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
  4. [Edit schema] (スキーマを編集)をクリックして、tokensカラムを出力スキーマに追加します。これが正規化するカラムであるためです。続いて、[OK]をクリックして確定します。
  5. tNormalizeコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. [Sync columns] (カラムを同期)をクリックすると、ジョブで接続している先行コンポーネントからスキーマが取得されます。
    2. [Column to normalize] (正規化するカラム)リストからtokensを選択します。
    3. 出力ファイルで[Item separator] (アイテム区切り)フィールドに"\t"を入力して、トークンをタブで区切ります。
  6. tFileOutputDelimitedコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. [Sync columns] (カラムを同期)をクリックすると、ジョブで接続している先行コンポーネントからスキーマが取得されます。
    2. [Folder] (フォルダー)フィールドに、CoNLLファイルを保存するフォルダーへのパスを指定します。
    3. [Row Separator] (行区切り)フィールドに"\n"を入力します。
    4. [Field Separator] (フィールド区切り)フィールドに"\t"を入力して、フィールドをタブで区切ります。
  7. F6を押してジョブを保存し、実行します。

タスクの結果

指定したフォルダーに出力ファイルが作成されます。ファイルには、行ごとに1つのトークンがある単一カラムが含まれています。

このテキストデータから分類モデルを学習するには、その前に人名にはPER、他のトークンにはOのラベルを手動で付けます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。