メイン コンテンツをスキップする 補完的コンテンツへスキップ

Elasticsearchでクリーンで重複除去済みのデータをインデックス化する

始める前に

  • ElasticsearchクラスターとElasticsearchヘッドは、ジョブ実行前に開始されます。

    Elasticsearchクラスターを参照するためのプラグインであるElasticsearchヘッドの詳細は、https://mobz.github.io/elasticsearch-head/をご覧ください。

手順

  1. tMatchIndexコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
  2. [Elasticsearch configuration] (Elasticsearch設定)エリアで、使用するElasticsearchシステムをホストするクラスターのロケーションを[Nodes] (ノード)フィールドに入力します。サンプル:

    "localhost:9200"

  3. Elasticsearch内に作成するインデックスを[Index] (インデックス)フィールドに入力します。サンプル:

    education-agencies-chicago

  4. [Index] (インデックス)フィールドで指定したElasticsearchインデックスをクリーン化する必要がある場合は、[Reset index] (インデックスのリセット)チェックボックスをオンにします。
  5. ペアリングモデルファイルを取得するローカルフォルダーへのパスを、[Pairing model folder] (ペアリングモデルフォルダー)に入力します。
  6. F6を押してジョブを保存し、実行します。

タスクの結果

tMatchIndexによって、Elasticsearch内にeducation-agencies-chicagoインデックスが作成され、クリーンなデータが入力され、ブロッキングキーの値をベースに最適なサフィックスが計算されました。

プラグインのElasticsearchヘッドを使用して、tMatchIndexによって作成されたインデックスを参照できます。

これで、インデックスが作成されたデータをtMatchIndexPredictコンポーネントの参照データセットとして使用できるようになりました。

連続マッチングを行う方法の例は、tMatchIndexPredictを使用して継続的マッチングを行うを参照してください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。