tMatchIndex
継続的マッチングを目的に、ElasticSearchで、クリーンで重複除去されたデータセットをインデックス化します。
tMatchIndexコンポーネントを使用してElasticSearchでデータセットをインデックス化する前に、このデータセットに対し、マッチングタスクと重複除去タスクをすべて済ませておく必要があります。
- tMatchPairingを使用して、ペアリングモデルを生成し、サスペクト重複のペアが計算済みであること。
- サスペクトペアのサンプルに手動でラベル付けを済ませていること。またはTalend Data Stewardshipを使用してtMatchModelでマッチングモデルを生成済みであること。
- tMatchPredictを使用して、ペアリングモデルとマッチングモデルをベースに、サスペクトペアのラベルを予測していること。
- tRuleSurvivorshipを使用して、データセットをクリーン化し、重複除去していること。
以上が整えば、同じスキーマを持つ新しいデータレコードを取得する時に、マッチングプロセスをゼロから再開する必要はありません。継続的マッチングを目的に、tMatchIndexを使用してElasticSearchでクリーンなデータセットをインデックス化できます。
tMatchIndexコンポーネントは、バージョン6.4.2までのElasticsearchをサポートしています。
このコンポーネントは、Elasticsearch認証をサポートしていないため、Databricksでは実行できません。
ローカルモードでは、Apache Spark 2.4がサポートされています。
デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。