Simple VSRアルゴリズム
-
[Uniques] (一意): グループサイズ(レコードで計算された最小距離)が1に等しいレコードをリスト表示します。
-
[Matches] (マッチング): グループスコア(レコードで計算された最小距離)が[Confident match threshold] (信頼できるマッチングしきい値)フィールドで定義したしきい値と同等かそれ以上のレコードをリスト表示します。
-
[Suspects] (サスペクト): グループスコア(レコードで計算された最小距離)が[Confident threshold] (信頼しきい値)フィールドで定義したしきい値よりも低いレコードをリスト表示します。
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
ジョブを設定
手順
入力コンポーネントを設定
このタスクについて
メイン入力ファイルには、次の8つのカラムが含まれています: account_num、lname、fname、mi、address1、city、state_province、postal_code。この入力ファイル内のデータには、重複、名前のスペルの相違や間違い、同一顧客に異なる情報など、問題があります。
Data Qualityデモプロジェクト、TDQEEDEMOJAVAに含まれているc0ジョブとc1ジョブを実行すれば、このシナリオに使用されている入力ファイルを作成できます。このデモプロジェクトは、Talend Studioのログインウィンドウからインポートできます。詳細は、デモプロジェクトを別のプロジェクトとしてインポートをご覧ください。
手順
tMatchGroupコンポーネントを設定する
手順
ジョブの確定と実行
手順
- tLogRowコンポーネントをダブルクリックして、その[Basic settings] (基本設定)ビューを表示し、コンポーネントのプロパティを定義します。
- ジョブを保存し、[F6]を押して実行します。
タスクの結果
レコードが3つの異なるグループにまとめられていることが確認できます。各レコードが、グループ内で計算された最小距離であるグループスコアの値に従って、3つのグループのどれかにリスト表示されます。
各グループの識別子(Stringデータ型のもの)が、対応するレコードの横にあるGIDカラム内にリスト表示されます。この識別子は、古いリリースから移行したジョブの場合はLongというデータ型になります。グループ識別子をStringにするには、インポートしたジョブ内のtMatchGroupコンポーネントを、Talend Studioの[Palette] (パレット)からのtMatchGroupに置き換える必要があります。
3つの出力ブロックのそれぞれのレコード数がGRP_SIZEカラム内にリスト表示され、マスターレコードでのみ計算されます。MASTERカラムは、対応するレコードがマスターレコードかそうでないかをTrueまたはFalseで示します。SCOREカラムには、Jaro-WinklerとJaroマッチングアルゴリズムに従い、入力レコードとマスターレコードの間の計算距離がリスト表示されます。
ジョブは最初のルールを基にレコードを評価し、そこでマッチングしたレコードは2番目のルールでは評価しません。
グループスコアがマッチング間隔(適用するルールに応じて0.95または0.85)の間にあるすべてのレコード、およびtMatchGroupの詳細設定で定義されている信頼しきい値が、[Suspects] (サスペクト)出力フロー内にリスト表示されます。
グループスコアがマッチング可能性のどれか以上であるレコードのすべてが、[Matches] (マッチング)出力フロー内にリスト表示されます。
グループサイズが1に等しいレコードのすべてが、[Uniques] (一意)出力フロー内にリスト表示されます。
出力レコードを単一の出力フローにグルーピングする別のシナリオは、Identificationのセクションで同じ機能キーを持つ出力フロー重複レコード内でカラムを比較し、グルーピングするをご覧ください。