メイン コンテンツをスキップする 補完的コンテンツへスキップ

VSRアルゴリズムを使ったルール

VSRアルゴリズムはレコードのセットを入力と見なし、定義されたマッチングルールに基づいて、検出された類似の重複値をグルーピングします。

このアルゴリズムは、レコードのペアを比較してグループに割り当てます。各グループで最初に処理されたレコードがそのグループのマスターレコードとなります。そのため、レコードの順序が重要であり、マスターレコードの作成プロセスに影響を及ぼす可能性があります。

VSRアルゴリズムは各レコードを各グループのマスターレコードと比較し、計算されたマスターレコードからの距離を使ってそのグループの割り当て先を決定します。

一致分析と一致コンポーネントの場合、VSRアルゴリズムの一致結果は入力レコードの順序によって異なります。可能な場合は、より信頼できるレコードを入力フローの先頭に配置すると、アルゴリズムの精度が向上します。

一致コンポーネント(Hadoop一致コンポーネントを含む)では、VSRアルゴリズムで設定されたルールのみが実行される点にご注意ください。

このルールを一致分析エディターにインポートし、自分のデータでテストできます。詳細は、リポジトリーからマッチングルールをインポートをご覧ください。

また、tMatchGroup設定ウィザードおよびその他の一致コンポーネント(Hadoopコンポーネントなど)にそのルールをインポートし、一致ジョブで使用することもできます。詳細は、tMatchGroupのドキュメンテーションをご覧ください。

ブロッキングキーを一致分析から定義

About this task

ブロッキングキーを定義することは必須ではありませんが、推奨されます。ブロッキングキーを使ってブロック内のデータをパーティショニングすると、比較が各ブロック内のレコードペアに限定されるため、検証されるレコード数が減少します。ブロッキングキーの使用は、大型のデータセットを処理する時に非常に便利です。

Procedure

  1. ルールエディターおよび[Generation of Blocking Key] (ブロッキングキーの生成)セクションで、[+]ボタンをクリックしてテーブルに行を追加します。
  2. 次のようにブロッキングキーのパラメーターを設定します。
    • [Blocking Key Name] (ブロッキングキーの名前): 比較する必要のあるレコードペアの数を減らすために使用するカラムの名前を入力します。

    • [Pre-algorithm] (プリアルゴリズム): ドロップダウンリストからアルゴリズムを選択し、必要な値を設定します。

      プリアルゴリズムの定義は必須ではありません。このアルゴリズムは、一致アルゴリズムで処理される前にデータをクリーン化または標準化するために使用されるため、データ一致の結果が改善されます。

    • [Algorithm] (アルゴリズム): ドロップダウンリストから使用する一致アルゴリズムを選択し、必要な値を設定します。

    • [Post-algorithm] (ポストアルゴリズム): ドロップダウンリストからアルゴリズムを選択し、必要な値を設定します。

      ポストアルゴリズムの定義は必須ではありません。このアルゴリズムは、一致アルゴリズムで処理された後にデータをクリーン化または標準化するために使用されるため、データ一致の結果が改善されます。

  3. 必要な場合は、同じステップに従い必要な数だけブロッキングキーを追加します。
    一致分析エディターに多数のブロッキングキーを使ったルールをインポートすると、1つのブロッキングキーのみが生成され、[Data] (データ)テーブルのBLOCK_KEYカラムにリスト表示されます。
    ブロッキングキーのパラメーターの詳細は、tGenKeyのドキュメンテーションをご覧ください。

マッチングキーを定義

Procedure

  1. ルールエディターの[Matching Key] (マッチングキー)テーブルで、[+]ボタンをクリックしてテーブルに行を追加します。
  2. 次のようにマッチングキーのパラメーターを設定します。
    • Match Key Name (マッチキー名): マッチキーの任意の名前を入力します。

    • Matching Function (マッチングファンクション): ドロップダウンリストから、実行するマッチングのタイプを選択します。外部のユーザー定義マッチングアルゴリズムを使用する場合は、[Custom] (カスタム)を選択します。

      この例では2つのマッチングキーが定義されており、ファーストネームとラストネームにそれぞれ[Levenshtein][Jaro-Winkler]という一致メソッドを使用して重複レコードを取得します。

    • [Custom Matcher] (カスタムマッチャー): この項目は[Custom] (カスタム)マッチングファンクションとのみ使われます。ユーザー定義アルゴリズムのJarファイルを参照して選択します。

    • Confidence Weight (信頼度の重み): マッチキーとして使用する列に数値の重み(1から10)を設定します。この値を使用すると、マッチングを実行する時に特定の列の重要度が高くなります。

    • [Handle Null] (Nullを処理): Null値を含むデータレコードの処理方法を指定します。

    マッチングルールのパラメーターの詳細は、tMatchGroupのドキュメンテーションをご覧ください。
  3. [Match threshold] (しきい値の一致)フィールドに、一致可能性のしきい値を入力します。確率がこの値を超えると、2つのデータレコードは一致と見なされます。
    [Confident match threshold] (信頼できるマッチングしきい値)フィールドで、現在の[Match threshold] (マッチングしきい値)1の間に数値を設定します。このしきい値を超えていれば、グループのクオリティは信頼できます。
  4. 2番目のマッチングルールを定義するには、[Matching Key] (マッチングキー)テーブルの右上にカーソルを置き、[+]ボタンをクリックします。
    ステップに従ってマッチングルールを作成します。
    マッチングルールエディターで複数の条件を定義すると、分析データでORマッチング操作が実行されます。レコードは最初のルールに対して評価され、そこで一致したレコードは2番目のルールでは評価されません。
  5. Optional: ルールのデフォルト名を置き換える場合は、テーブルの右上にある[Edit/Sort Rule Names] (ルール名を編集/ソート)をクリックします。
    また、ダイアログボックスで上向きおよび下向き矢印を使用してルールの順序を変更し、最初に実行するルールを決定できます。
  6. OKをクリックします。
    ルールに名前が付けられ、それに基づいて[Matching Key] (マッチングキー)テーブルに並べられます。
  7. マッチングルール設定を保存します。
    マッチングルールは、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Rule] (ルール) > [Match] (一致)の下に保存され一元管理されます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。