メイン コンテンツをスキップする 補完的コンテンツへスキップ

重複レコードのグルーピング

手順

  1. tMatchGroupを右クリックしてコンテキストメニューを開き、[Configuration Wizard] (設定ウィザード)を選択します。
    ウィザードでは、グループのプレビューを表示したり、同種のマッチング結果を正しく取得するためにコンポーネント設定を調整したりできます。
  2. [Key Definition] (キー定義)テーブルの下のプラスボタンをクリックして、1行追加します。
  3. この行の[Input Key Attribute] (入力キー属性)カラムで、[acctName]を選択します。このカラムは、入力データの重複を照合するための参照データとして使用されます。
  4. [Matching Function] (マッチングファンクション)カラムで、[Jaro-Winkler]マッチングアルゴリズムを選択します。
  5. [Match threshold] (マッチングしきい値)フィールドで、2つのレコードフィールドがマッチングすることを示す数値を入力します。この例では、0.6と入力します。
  6. [Chart] (チャート)をクリックして、このマッチングルールを実行し、ウィザードで結果を表示します。
    入力レコードが1つのグループに含まれていない場合は、0.6をもっと小さい値に置き換え、[Chart] (グラフ)をもう一度クリックして、4件のレコードがすべて同じグループになるまで結果を確認します。
    このシナリオのジョブでは、tRuleSurvivorshipにより4件の類似レコードが含まれる1つの重複グループを使用し、1件のサバイバーを作成できるようにしています。この簡単なサンプルは、tRuleSurvivorshipが他のコンポーネントと連携して最適データを作成する方法について明確にイメージするのに役立ちます。ただし、実際のケースでは、複雑な重複が発生している状況ではるかに多くのデータを処理する必要があり、データをもっと多くのグループに分ける必要があるでしょう。
  7. [OK]をクリックしてこの[Configuration wizard] (設定ウィザード)を閉じると、tMatchGroupコンポーネントの[Basic settings] (基本設定)ビューに、設定したパラメーターが自動的に入力されます。
    [Configuration wizard] (設定ウィザード)の詳細は、 設定ウィザードをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。