Q-gramとLevenshteinアルゴリズムを使用したエントリーのマッチング
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
このシナリオでは、VSRアルゴリズムをベースとするマッチングルールを使用するジョブについて説明します。ジョブの目的は次のとおりです。
-
長さqのgramをいくつか作成するために、参照入力ファイル内のエントリーに基づいて文字列を長さq (q=3)の文字ブロックに分割することで、nameカラム内のエントリーのマッチングを行う。マッチング結果は、q-gramマッチに対して取り得るq-gramの数となります。
-
入力ファイルのemailカラム内のエントリー間の編集距離を、参照入力ファイル内の同エントリーに基づいてチェックする。
これら2つのマッチングタイプの出力は、3つの出力ファイルに書き込まれます: 最初のファイルにはマッチングの値、2番目のファイルにはマッチング候補の値、3番目のファイルにはルックアップファイル内にマッチングがない値。
このシナリオでは、メインおよび参照入力スキーマがリポジトリーに保存済みであることが前提です。リポジトリーにスキーマメタデータを保管する方法は、Talend Studioでメタデータを管理をご覧ください。
メイン入力テーブルには次の7つのカラムが含まれています: code、name、address、zipcode、city、email、col7。nameカラムとemailカラムのファジーマッチを含めようとしています。