T-Swooshアルゴリズム

このシナリオでは、Jaro-Winklerマッチングメソッドをlnameカラムとfnameカラムに使って、入力ファイル内のカラムを比較する基本的なジョブについて説明します。次に、出力レコードを次の出力フローにグルーピングします。

[Uniques] (一意): グループサイズ(レコードで計算された最小距離)が1に等しいレコードをリスト表示します。
[Matches] (マッチング): グループのクオリティが[Confident match threshold] (信頼できるマッチングしきい値)フィールドで定義したしきい値と同等かそれ以上のレコードをリスト表示します。
[Suspects] (サスペクト): グループのクオリティが[Confident match threshold] (信頼できるマッチングしきい値)フィールドで定義したしきい値を下回るレコードをリスト表示します。

グループのクオリティは、グループのすべてのレコードペア間で計算された最小距離です。

このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

重要: Apache Spark BatchコンポーネントはT-Swooshアルゴリズムをサポートしていないので、このシナリオでは標準コンポーネントを使用します。

ジョブを設定

手順

tFixedFlowInputコンポーネント、tMatchGroupコンポーネント、および3つのtLogRowコンポーネントを[Palette] (パレット)からデザインワークスペースにドロップします。
[Main] (メイン)リンクを使ってtFixedFlowInputをtMatchGroupに接続します。
tMatchGroupコンポーネントをクリックして、[Advanced settings] (詳細設定)ビューで[Separate output] (出力を分割する)チェックボックスをオンにします。
[Uniques] (ユニーク)、[Matches] (マッチング)、および[Suspects] (サスペクト)リンクを使って、tMatchGroupを3つのtLogRowコンポーネントに接続します。

入力コンポーネントを設定

このタスクについて

入力データには次の7つのカラムが含まれています: lname、fname、middle_name、address、city、state_province、postal_code。データには、重複、名前のスペルの相違や間違い、同一顧客に異なる情報などの問題があります。

手順

tFixedFlowInputコンポーネントをダブルクリックし、[Basic settings] (基本設定)ビューを開きます。
[Built-in] (組み込み)を選択して、[Edit Schema] (スキーマを編集)の横にある[…]ボタンをクリックします。
7つのカラムを定義し、[OK]をクリックします。
[Use Inline Content(delimited file)] (インラインコンテンツを使用: 区切りファイル)を選択します。
[Row Separator] (行区切り)フィールドと[Field Separator] (フィールド区切り)フィールドに入力します。
入力データを[Content] (コンテンツ)フィールドに入力します。

tMatchGroupコンポーネントを設定する

手順

tMatchGroupコンポーネントをクリックして、[Basic settings] (基本設定)ビューを表示します。
[Matching Algorithm] (マッチングアルゴリズム)リストでT-Swooshを選択します。
[Sync columns] (カラムを同期)をクリックして、前のコンポーネントからスキーマを取得します。
[Edit schema] (スキーマを編集)ボタンをクリックして入力および出力スキーマを表示し、必要に応じて出力スキーマに変更を施します。
このコンポーネントの出力スキーマには、読み取り専用の出力標準カラムがあります。詳細は、tMatchGroupの標準プロパティをご覧ください。
OKをクリックしてダイアログボックスを閉じます。
[Advanced settings] (詳細設定)タブをクリックし、次のチェックボックスをオンにします。
1. [Separate output] (別の出力)
  
  コンポーネントには、[Uniques] (一意)、[Matches] (マッチング) 、[Suspects] (サスペクト)という3つの個別の出力フローがあります。
  
  このチェックボックスをオンにしていないと、tMatchGroupコンポーネントに含まれる出力フローは1つだけとなり、そこにすべての出力データがまとめられます。シナリオサンプルは、Identificationのセクションで同じ機能キーを持つ出力フロー重複レコード内でカラムを比較し、グルーピングするをご覧ください。
2. [Sort the output data by GID] (出力データをGIDでソート)
3. [Output distance details] (距離の詳細を出力)
4. [Display detailed labels] (詳細ラベルの表示)
5. ウィザードオープン時にマッチング計算を無効化
[Configure match rules] (マッチングルールの設定)の横にある[...]ボタンをクリックし、コンポーネントの設定とマッチングルールを定義します。
設定ウィザードを使用して、Talend Studioで作成およびテストし、リポジトリーに保存したマッチングルールをインポートし、マッチングジョブで使用できます。詳細は、リポジトリーからマッチングルールをインポートをご覧ください。

コンポーネントの基本設定で選択したのと同じタイプのルールをインポートまたは定義することが重要です。それ以外の場合、ジョブは2つのアルゴリズム間で互換性のないパラメーターのデフォルト値で実行されます。
マッチングルールを次のように定義します。
1. [Key definition] (キー定義)テーブルで[+]ボタンをクリックし、マッチング操作を行うカラム(このシナリオではfnameとlname)をリストに追加します。
  
  情報メモ注: 日付カラムにアルゴリズムやマッチングアルゴリズムを適用すると、日付形式で比較する内容を決定できます。
  たとえば、日付の年のみを比較する場合は、コンポーネントスキーマで日付カラムのタイプを[Date]に設定し、[Date Pattern] (日付パターン)フィールドにyyyyと入力します。コンポーネントでは、スキーマで定義されたパターンに基づき、日付形式を文字列に変換してから文字列比較が開始されます。
2. [Matching Function] (マッチングファンクション)カラムをクリックし、マッチングオペレーションに使用する方法としてJaro-Winklerをリストから選択します。
  
  マッチングタイプとして[custom] (カスタム)を選択する場合は、[Custom Matcher] (カスタムマッチャー)カラム内に使用する必要のあるカスタムクラス(外部マッチングアルゴリズム)をポイントするパスを設定する必要があります。このパスは、ライブラリーファイル(.jarファイル)で自身で定義します。
3. [Tokenized measure] (トークン化された測定)リストで[No] (いいえ)を選択します。
4. [Threshold] (しきい値カラムのセルをクリックし、fnameに0.7、lnameに0.4を入力します。
5. [Confidence Weight] (重み付け)カラムのセルをクリックし、キー属性として使う2つのカラムに数値の重みを設定します: fnameには1、lnameには4。
6. [Handle Null] (Nullを処理)カラムのセルをクリックし、カラム内のNull属性の処理に使用するnullオペレーターを選択します。このサンプルでは、一致結果にnull値の影響が最小となるように、[Null Match NONE] (Nullのマッチングなし)を選択します。
7. [Survivorship Function] (サバイバーシップ機能)で[Most common] (最も一般的)を選択します。
上記の手順を繰り返して、2番目のマッチングルールを定義し、パラメーターを次のように設定します。
1. [+]ボダン([Duplicate Rule] (重複したルール))をクリックします。
2. [Input Key Attribute] (入力キー属性): address
3. [Matching Function] (マッチングファンクション): Jaro
4. [Tokenized Measure] (トークン化された測定): [No] (いいえ)
5. [Threshold] (しきい値): 0.8
6. [Confidence Weight] (信頼度の重み付け): 1
7. [Handle Null] (Nullを処理): [Null Match NONE] (Nullのマッチングなし)
8. [Survivorship Function] (サバイバーシップ機能): [Most common] (最も一般的)
各[Match Rule] (マッチングルール)の[Match Threshold] (マッチングしきい値)パラメーターを0.8に設定します。
[Hide groups of less than] (未満でグループを非表示)パラメーターを2に設定します。このパラメーターを使うと、小さいサイズのグループを非表示にできます。
[Chart] (チャート)ボタンをクリックして、定義済みの設定でジョブを実行し、マッチング結果をウィザードに直接表示します。

マッチングチャートは、分析されたデータの重複の全体図が表示されます。また、マッチングテーブルには各グループの項目マッチングに関する詳細が示され、マッチングチャートの色に基づいてグループが色分けされます。

ジョブはレコードにORマッチングオペレーションを実行します。ルールに基づいてレコードを評価します。MATCHING_DISTANCESカラムを見ると、どのルールがどのレコードに使用されたかを理解できます。
たとえば2番目のデータグループ(赤レンガ色)では、最後のAmicレコードはaddress1をキー属性として使う2番目のルールに従ってマッチングされます。他方、グループ内のその他のレコードは、lnameとfnameをキー属性として使う最初のルールに従ってマッチングされます。

このサンプルでわかるように、GRP_QUALITYカラムは[Match Threshold] (マッチングしきい値)パラメーターよりも小さくできます。これは、[Match Threshold] (マッチングしきい値)以上のマッチングスコアを持つレコードペアからグループが作成されますが、すべてのレコードが互いに比較されるわけではないためです。他方、GRP_QUALITYはグループ内のすべてのレコードペアを考慮に入れます。

ジョブの確定と実行

手順

各tLogRowコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを表示します。
[Table (print values in cells of a table)] (テーブル(テーブルのセルの出力値))を選択します。
ジョブを保存し、[F6]を押して実行します。

タスクの結果

レコードが3つの異なるグループにまとめられていることが確認できます。各レコードが、グループ内で計算された最小距離であるグループスコアの値に従って、3つのグループのどれかにリスト表示されます。

各グループの識別子(Stringデータ型のもの)が、対応するレコードの横にあるGIDカラム内にリスト表示されます。この識別子は、古いリリースから移行したジョブの場合はLongというデータ型のものです。グループ識別子をStringにするには、インポートしたジョブ内のtMatchGroupコンポーネントを、Talend Studioの[Palette] (パレット)からのtMatchGroupに置き換えます。

3つの出力ブロックのそれぞれのレコード数がGRP_SIZEカラム内にリスト表示され、マスターレコードでのみ計算されます。MASTERカラムは、対応するレコードがマスターレコードかそうでないかをTrueまたはFalseで示します。SCOREカラムには、Jaro-WinklerとJaroマッチングアルゴリズムに従い、入力レコードとマスターレコードの間の計算距離がリスト表示されます。

ジョブは最初のルールを基にレコードを評価し、そこでマッチングしたレコードは2番目のルールでは評価しません。

グループスコアがマッチング間隔(適用するルールに応じて0.95または0.85)の間にあるすべてのレコード、およびtMatchGroupの詳細設定で定義されている信頼しきい値が、[Suspects] (サスペクト)出力フロー内にリスト表示されます。

グループスコアがマッチング可能性のどれか以上であるレコードのすべてが、[Matches] (マッチング)出力フロー内にリスト表示されます。

グループサイズが1に等しいレコードのすべてが、[Uniques] (一意)出力フロー内にリスト表示されます。

出力レコードを単一の出力フローにグルーピングする別のシナリオは、Identificationのセクションで同じ機能キーを持つ出力フロー重複レコード内でカラムを比較し、グルーピングするをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください