継続的マッチングを実行
クリーンなデータセットに対して新しいレコードをマッチングさせる場合は、マッチングプロセスを最初からやり直す必要はありません。
継続的マッチングは、クリーンなデータセットを再利用してインデックスを作成すれば実行できます。継続的マッチングタスクを実行するためには、Elasticsearchのバージョン5.1.2以降が稼働している必要があります。
連続マッチングの処理は以下のステップで構成されています。
- まず、データセットからクリーンなレコードと重複除去されたレコードを分離するためのサフィックスを計算し、tMatchIndexを使ってElasticsearchでインデックス化します。
tMatchIndexを使ってElasticsearchでデータをインデックス化するサンプルは、このシナリオをご覧ください。
- 次のステップは、tMatchIndexPredictを使って、インデックス化されたレコードと同じスキーマを持つ新しいレコードを比較し、マッチングするレコードとマッチングしないレコードを出力することです。このコンポーネントでは、tMatchPairingやtMatchModelによって生成されたペアリングおよびマッチングモデルが使われます。
参照データセットのレコードに対して新しいレコードをマッチングさせるサンプルは、このシナリオをご覧ください。
次に、tRuleSurvivorshipを使って、マッチングしないレコードをクリーンアップして重複除去し、tMatchIndexを使ってElasticsearchでインデックス化されたクリーンデータセットを入力します。