T-Swooshアルゴリズム
-
[Uniques] (一意): グループサイズ(レコードで計算された最小距離)が1に等しいレコードをリスト表示します。
-
[Matches] (マッチング): グループのクオリティが[Confident match threshold] (信頼できるマッチングしきい値)フィールドで定義したしきい値と同等かそれ以上のレコードをリスト表示します。
-
[Suspects] (サスペクト): グループのクオリティが[Confident match threshold] (信頼できるマッチングしきい値)フィールドで定義したしきい値を下回るレコードをリスト表示します。
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
ジョブを設定
手順
入力コンポーネントを設定
このタスクについて
入力データには次の7つのカラムが含まれています: lname、fname、middle_name、address、city、state_province、postal_code。データには、重複、名前のスペルの相違や間違い、同一顧客に異なる情報などの問題があります。
手順
- tFixedFlowInputコンポーネントをダブルクリックし、[Basic settings] (基本設定)ビューを開きます。
- [Built-in] (組み込み)を選択して、[Edit Schema] (スキーマを編集)の横にある[…]ボタンをクリックします。
- 7つのカラムを定義し、[OK]をクリックします。
- [Use Inline Content(delimited file)] (インラインコンテンツを使用: 区切りファイル)を選択します。
- [Row Separator] (行区切り)フィールドと[Field Separator] (フィールド区切り)フィールドに入力します。
- 入力データを[Content] (コンテンツ)フィールドに入力します。
tMatchGroupコンポーネントを設定する
手順
ジョブの確定と実行
手順
- 各tLogRowコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを表示します。
- [Table (print values in cells of a table)] (テーブル(テーブルのセルの出力値))を選択します。
- ジョブを保存し、[F6]を押して実行します。
タスクの結果
レコードが3つの異なるグループにまとめられていることが確認できます。各レコードが、グループ内で計算された最小距離であるグループスコアの値に従って、3つのグループのどれかにリスト表示されます。
各グループの識別子(Stringデータ型のもの)が、対応するレコードの横にあるGIDカラム内にリスト表示されます。この識別子は、古いリリースから移行したジョブの場合はLongというデータ型のものです。グループ識別子をStringにするには、インポートしたジョブ内のtMatchGroupコンポーネントを、Talend Studioの[Palette] (パレット)からのtMatchGroupに置き換えます。
3つの出力ブロックのそれぞれのレコード数がGRP_SIZEカラム内にリスト表示され、マスターレコードでのみ計算されます。MASTERカラムは、対応するレコードがマスターレコードかそうでないかをTrueまたはFalseで示します。SCOREカラムには、Jaro-WinklerとJaroマッチングアルゴリズムに従い、入力レコードとマスターレコードの間の計算距離がリスト表示されます。
ジョブは最初のルールを基にレコードを評価し、そこでマッチングしたレコードは2番目のルールでは評価しません。
グループスコアがマッチング間隔(適用するルールに応じて0.95または0.85)の間にあるすべてのレコード、およびtMatchGroupの詳細設定で定義されている信頼しきい値が、[Suspects] (サスペクト)出力フロー内にリスト表示されます。
グループスコアがマッチング可能性のどれか以上であるレコードのすべてが、[Matches] (マッチング)出力フロー内にリスト表示されます。
グループサイズが1に等しいレコードのすべてが、[Uniques] (一意)出力フロー内にリスト表示されます。
出力レコードを単一の出力フローにグルーピングする別のシナリオは、Identificationのセクションで同じ機能キーを持つ出力フロー重複レコード内でカラムを比較し、グルーピングするをご覧ください。