tMatchIndexPredictを使用して継続的マッチングを行う
このシナリオは、サブスクリプションベースのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricにのみ適用されます。
tMatchIndexを使用してElasticsearchでルックアップデータをインデックス化すると、マッチングプロセスをゼロから再開する必要がありません。tMatchIndexPredictコンポーネントは、新しいデータレコードをElasticsearchに保存されているルックアップと比較します。
この例では、シカゴの幼児教育センターにおける10種類の異なるソースからのリストが、Elasticsearchでクリーン化、重複除去され、インデックスが作成されています。シカゴの幼児教育センターに関する情報を含む新しいレコードを、Elasticsearchに保存されている参照データセットと照合してマッチングしようとしています。
tMatchIndexPredictはペアリングモデルと一致モデルを使用し、入力データからのレコードと、Elasticsearch内でインデックスが作成された参照データセットからのマッチングレコードをグルーピングし、サスペクトペアにラベル付けします。
tMatchIndexPredictは、重複している可能性のあるレコードとユニークなレコードを別々のファイルに出力します。
-
ペアリングモデルが生成済みであること。
ペアリングモデルの生成方法の例は、ソースデータの疑わしいペアと疑わしいサンプルを計算および疑わしいペアを計算してにサンプルを書き込むをご覧ください。
-
マッチングモデルが生成済みであること。
一致モデルを生成する方法の例は 一致モデルの生成 and グルーピングキャンペーンから一致モデルを生成をご覧ください。
-
クリーンで重複除去済みのデータがElasticsearchでインデックスが作成されており、新しいデータレコードと照合してマッチングし、ユニークなレコードまたはサスペクト重複のどちらであるかを判定できるようになっていること。
詳細は、Elasticsearchで参照データセットをインデックス化をご覧ください。
-
Elasticsearch検索クラスターではElasticSearch 5+を実行している必要があります。