メイン コンテンツをスキップする 補完的コンテンツへスキップ

設定ウィザード

設定ウィザードを使用して、異なる本番環境、[Configurations] (設定)、およびそのマッチングルールを作成できます。

また、設定ウィザードを使用して、Talend Studioで作成およびテストしたマッチングルールをインポートし、一致ジョブで使用することもできます。詳細は、リポジトリーからマッチングルールをインポートをご覧ください。

入力コンポーネントをtMatchGroupコンポーネントにリンクしない限り、設定ウィザードを開くことはできません。

設定ウィザードを開く

Procedure

  1. Talend Studioのワークスペースで、たとえば以下のようにジョブをデザインし、コンポーネントをリンクします:
  2. tMatchGroupを設定する場合は、次のいずれかの操作を行います:
    • tMatchGroupをダブルクリックするか、これを右クリックして、コンテキストメニューから[Configuration Wizard] (設定ウィザード)を選択します。
    • tMatchGroup[Basic settings] (基本設定)ビューで、[Preview] (プレビュー)をクリックします。
  3. 定義されたマッチングルールを実行せずに設定ウィザードを開く場合は、開いたポップアップで[Skip Computation] (計算をスキップ)をクリックします。

Results

設定ウィザードが開きます。このウィザードは、次の3つのエリアで構成されています:
  • [Configuration] (設定)ビュー。マッチングルールとブロッキングカラムを設定できます。

  • マッチングチャート。マッチング結果をグラフィックに表します。

  • マッチングテーブル。マッチング結果の詳細を示します。

左上の[Limit] (制限)フィールドは、ウィザードのマッチングルールによって処理される行の最大数を示しています。デフォルトの最大行数は1000です。

設定ビュー

このビューから、tMatchGroupコンポーネントの設定を編集するか、またはジョブの実行に使用する別の設定を定義できます。

About this task

これらの異なる複数の設定をたとえばテストを目的に使用することはできますが、ウィザードから保存できる設定は1つだけ、すなわち開いている設定だけです。

それぞれの設定で、パラメーターを定義して、VSRまたはT-Swooshアルゴリズムでマッチングルールを生成できます。[Configuration] (設定)ビューの設定は、tMatchGroupコンポーネントの基本設定で[Simple VSR] (単純VSR)またはT-Swooshのどちらを選択するかによって僅かに異なります。

複数のマッチングルールを使用して、サバイバーシップルール、ブロッキングキー、および複数の条件を定義できます。各ルールに異なるマッチング間隔を設定することもできます。複数条件のマッチング結果に、定義したルールのいずれかを満たすデータレコードがリスト表示されます。設定に複数の条件がある場合、ジョブはORマッチングオペレーションを実行します。ジョブは最初のルールを基にデータレコードを評価し、そこでマッチングしたレコードはその他のルールでは評価しません。

マッチングルールの編集または作成に必要なパラメーターは、次のとおりです。
  • [Key definition] (キー定義)パラメーター。

  • [Match Threshold] (マッチングしきい値)フィールド。

  • [Blocking Selection] (ブロッキング選択)テーブル内のブロッキングキー(VSRアルゴリズムを使用するルールにのみ使用できます)。

    ブロッキングキーの定義は必須ではありませんが、データを複数のブロックに分割し、検査を必要とするレコードの数が減るため、定義することをお勧めします。ブロッキングキーの詳細については、Studioリポジトリーからマッチングルールをインポートをご覧ください。

  • [Survivorship Rules for Columns] (カラムのサバイバーシップルール)パラメーター(T-Swooshアルゴリズムを使用するルールにのみ使用できます)。

  • データ型用の[Default Survivorship Rules] (デフォルトサバイバーシップルール)パラメーター(T-Swooshアルゴリズムを使用するルールにのみ使用できます)。

T-Swoosh アルゴリズムを使用したマッチングルールの例については、サバイバーシップ機能を使用して2つのレコードをマージし、マスターレコードを作成するをご覧ください。

Procedure

  1. tMatchGroupコンポーネントの基本設定で、[Matching Algorithm] (マッチングアルゴリズム)リストから[Simple VSR] (単純VSR)を選択します。
    コンポーネントの基本設定で同じ種類のマッチングアルゴリズムを選択し、構成ウィザードで定義することが重要です。それ以外の場合、ジョブは2つのアルゴリズム間で互換性のないパラメーターのデフォルト値で実行されます。
  2. tMatchGroupコンポーネントの基本設定で、[Preview] (プレビュー)をクリックして設定ウィザードを開きます。
  3. [Configuration] (設定)ビューの右上にある[+]ボタンをクリックします。
    このオペレーションで、前回の設定と全く同じコピーが新しいタブ内に作成されます。
  4. [Key definition] (キー定義)および[Blocking Selection] (ブロッキング選択)テーブルで、新しい設定のパラメーターを編集または設定します。
  5. 必要に応じて、次の手順に従い、開いている設定にいくつかのマッチングルールを定義します。
    1. マッチングルールバーの[+]ボタンをクリックし、前回のルールと全く同じコピーを新しいタブ内に作成します。
    2. [Key definition] (キー定義)テーブルで新しいルールのパラメーターを設定し、マッチング間隔を定義します。
    3. 上記の手順に従って、設定のためのマッチングルールを必要な数だけ作成します。
      各ルールに異なるマッチング間隔を定義できます。
    設定に複数の条件がある場合、ジョブはORマッチングオペレーションを実行します。ジョブは最初のルールを基にデータレコードを評価し、そこでマッチングしたレコードは2番目以降のルールでは評価しません。
  6. ウィザードの右上にある[Chart] (チャート)ボタンをクリックし、開いている設定でジョブを実行します。
    マッチング結果がマッチングチャートとテーブルに表示されます。
    上記の手順に従って、ウィザードで新しい設定を必要な数だけ作成します。
  7. 特定の設定でジョブを実行するには、ウィザードで設定を開き、[Chart] (チャート)ボタンをクリックします。
    マッチング結果がマッチングチャートとテーブルに表示されます。
  8. ウィザードの右下で、次のどちらかをクリックします。
    • [OK]をクリックすると開いている設定が保存されます。

      ウィザードに保存できる設定は1つだけです。

    • [Cancel] (キャンセル)をクリックするとウィザードが閉じ、最初にウィザードに保存された設定が保持されます。

マッチングチャート

マッチングチャートから、分析されたデータの重複の全体図を確認できます。

About this task

情報メモImportant: Apache Spark Batchコンポーネントを使用している場合は、データがローカルファイルまたはデータベースからロードされた場合のみ、マッチングするチャートを表示できます。

[Hide groups less than] (未満でグループを非表示)パラメーター(デフォルトで2に設定されています)により、結果チャートにどのグループを表示するかを決めることができます。通常は、小さいグループサイズのグループを非表示にします。

たとえば、上記のマッチングチャートは以下を示しています。
  • 特定のマッチングルールに従い、一意な項目を除外した後に、[Hide groups less than] (未満でグループを非表示)パラメーターを2に設定することで、46項目が分析され、17グループに分類されました。

  • 9あるグループそれぞれに項目が2つずつ存在することを表しています。各グループで、2項目がお互いに重複しています。

  • 5あるグループそれぞれに項目が3つずつ存在することを表しています。各グループで、これらの項目が互いに重複しています。

  • 2あるグループそれぞれに項目が4つずつ存在することを表しています。各グループで、これらの項目が互いに重複しています。

  • 1つのグループで5つの項目が重複しています。

マッチングテーブル

マッチングテーブルから、さまざまな重複に関する詳細を読み取ることができます。

About this task

情報メモImportant: Apache Spark Batchコンポーネントを使用している場合は、データがローカルファイルまたはデータベースからロードされた場合のみマッチングテーブルを表示できます。

このテーブルには各グループの項目マッチングに関する詳細が示され、マッチングチャートの色に基づいてグループが色分けされます。

[Hide groups of less than] (未満でグループを非表示)パラメーターを設定することで、このテーブルに表示するグループを決めます。このパラメーターにより、サイズの小さいグループを非表示にすることもできます。デフォルトでは2に設定されています。

ページを先へ進めたり戻ったりするには、テーブルの下にあるボタンを使用します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。