Elasticsearchで参照データセットをインデックス化する
このシナリオは、サブスクリプションベースのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricにのみ適用されます。
このジョブでは、tMatchIndexコンポーネントによりElasticsearchのインデックスが作成され、シカゴの教育センターのリストを含むクリーンで重複除去されたデータセットが入力されます。
シカゴの教育センターのリストを含むデータセットですべてのマッチング操作を実行した後は、同じスキーマを持つ新しいデータレコードを取得する際にマッチングプロセスを最初から実行する必要はありません。tMatchIndexコンポーネントを使用すると、継続的にマッチングを行う目的で、このElasticsearchのクリーンなデータセットのインデックスを作成できます。
Elasticsearchで参照データセットのインデックス化を行う前に以下のようにします:
-
tMatchPairingを使用してペアリングモデルを生成します。
詳細は、疑わしいペアを計算してにサンプルを書き込むおよびソースデータの疑わしいペアと疑わしいサンプルを計算をご覧ください。
-
インデックスを作成する入力データがクリーンで重複除去されていることを確認します。
データセットをクリーンアップして重複を排除する方法の例は、 tMatchPredictによってラベル付けされた疑わしいペアおよびtMatchPairingから計算されたユニーク行からのクリーンデータの作成をご覧ください。
-
ElasticsearchクラスターではElasticsearch 5+を実行している必要があります。