メイン コンテンツをスキップする 補完的コンテンツへスキップ

T-Swooshアルゴリズムを使ってマッチングキーを定義および作成

マッチングキーの作成

Procedure

  1. [Blocking key] (ブロッキングキー)メニュの右上で[Matching algorithm] (マッチングアルゴリズム)をクリックし、T-Swooshを選択します。
  2. [Matching algorithm] (マッチングアルゴリズム)セクションで[Add new item] (新しい項目を追加)をクリックし、新しいルールの追加とデータレコードのマッチング時に使用する基準の定義を行います。
    • Match Key Name (マッチキー名): マッチキーの任意の名前を入力します。

    • [Input Column] (入力カラム): マッチングキーの適用先とする入力カラムを選択します。
    • Matching Function (マッチングファンクション): ドロップダウンリストから、実行するマッチングのタイプを選択します。外部のユーザー定義マッチングアルゴリズムを使用する場合は、[Custom] (カスタム)を選択します。

    • [Custom Matcher] (カスタムマッチャー): この項目は[Custom] (カスタム)マッチングファンクションとのみ使われます。ユーザー定義アルゴリズムのJarファイルを参照して選択します。

    • Threshold (しきい値): 2つの値についてマッチスコア(0から1)を指定してどの値から上がマッチと見なされるか指定します。

    • Confidence Weight (信頼度の重み): マッチキーとして使用する列に数値の重み(1から10)を設定します。この値を使用すると、マッチングを実行する時に特定の列の重要度が高くなります。

    • [Handle Null] (Nullを処理): Null値を含むデータレコードの処理方法を指定します。
      • nullMatchNull: 両方のレコードにNull値が含まれている場合、マッチと見なします。

      • [nullMatch None] (nullMatchなし): 片方のレコードにNULL値が含まれる場合は、マッチしていると見なされません。

      • [nullMatch All] (nullMatchすべて): 片方のレコードにNULL値が含まれる場合はマッチと見なされます。

    • Survivorship Function (サバイバーシップファンクション): ドロップダウンリストから2つの類似するレコードをマージする方法を選択します。
      • [Concatenate] (連結): 最初のレコードのコンテンツと2番目のレコードのコンテンツを一緒に追加します。

        たとえばBillとWilliamはBillWilliamのようにマージされます。[Parameter] (パラメーター)フィールドで、値の区切りに使用する区切りを指定できます。

      • Prefer True (Trueを優先: ブール値の場合): ソースレコードのすべてのブール値がFalseでない限り、結合されたレコードでは常にブール値をTrueに設定します。

      • [Prefer False (for booleans)] (ブール値ではFalse優先): ソースレコードのすべてのブール値がTrueの場合を除き、マージされたレコードのブール値は常にFalseに設定されます。

      • Most common (最も一般的): 重複グループの中で最も頻繁に出現するフィールド値を有効にします。

      • Most recent, Most ancient (最も新しい、最も古い): 重複グループの中で前者は最も古い日付を有効にし、後者は最も新しい日付を有効にします。関連する参照カラム[Date] (日付)タイプにする必要があります。

      • Longest, Shortest (最長、最短):重複グループの中で前者は最も長いフィールド値を有効にし、後者は最も短いフィールド値を有効にします。

      • Largest, Smallest (最大、最小): 重複グループの中で前者は最大の数値を有効にし、後者は最小の数値を有効にします。

        情報メモWarning: マッチングキーが数値タイプの時は、サバイバーシップファンクションに[Largest] (最大)または[Smallest] (最小)を必ず選択してください。
      • Most trusted source (最も信頼できるソース): 最も信頼できるとして定義されているソースに由来するデータを採用します。最も信頼できるデータソースは、[Parameter] (パラメーター)フィールドで設定されます。

    • [Reference column] (参照カラム): [Survivor Function] (サバイバーファンクション)[Most recent] (最新)または[Most ancient] (最古)に設定すると、この項目は参照カラムの選択に使用されます。
    • [Parameter] (パラメーター): [Concatenate] (連結)サバイバーシップファンクションでは、この項目を使用して、データの連結に使用する区切りを指定します。

    • [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップファンクションでは、この項目を使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップファンクションでは、この項目を使用して、データの連結に使用するセパレーターを指定します。

  3. [Match threshold] (しきい値のマッチ)フィールドに、マッチする可能性のしきい値を入力します。

    確率がこの値を超えると、2つのデータレコードはマッチと見なされます。

    [Confident match threshold] (信頼できるマッチングしきい値)フィールドで、現在の[Match threshold] (マッチングしきい値)1の間に数値を設定します。

  4. 特定のカラムについてデータレコードの保存方法を定義する場合は、右上にある[Matching algorithm] (マッチングアルゴリズム)をクリックします。
  5. [Survivorship Rules for Columns] (カラムのサバイバーシップルール)セクションで [Add new item] (新しい項目を追加)をクリックし、新しいルールを追加します。
    1. [Input Column] (入力カラム)カラムに、 サバイバーシップルールの適用先としたいカラムを入力します。
    2. [Survivorship Function] (サバイバーシップファンクション)で、ドロップダウンリストから2つの類似レコードをマージする方法を選択します。
    3. [Survivorship Function] (サバイバーシップ機能)として[Most trusted source] (最も信頼できるソース)[Concatenate] (連結)を選択した場合は、[Parameter] (パラメーター)を設定してください。
      • [Most trusted source] (最も信頼できるソース)の場合は、マスターレコードのベースとして使用したいデータソースの名前を入力します
      • [Concatenate] (連結): データの連結に使用する区切り文字を定義します。

    [Matching rule] (マッチングルール)セクションでマッチングキーのサバイバーシップ機能を指定し、[Survivorship Rules for columns] (カラムのサバイバーシップルール)セクションでも、入力カラムとしてマッチングキーのサバイバーシップ機能を指定した場合は、[Matching rule] (マッチングルール)セクションで選択したサバイバーシップ機能がカラムに適用されます。

  6. 特定のデータ型(BooleanDateNumberString)に関するマッチをサバイブさせる方法を定義する場合は、[Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションで[Add new item] (新しい項目を追加)をクリックします。
    1. [Data Type] (データ型)列で、ドロップダウンリストから当該のデータ型を選択します。
    2. [Survivorship Function] (サバイバーシップファンクション)で、ドロップダウンリストから2つの類似レコードをマージする方法を選択します。データ型によっては該当する選択肢が特定のものだけという場合があります。
      情報メモWarning: マッチングキーが数値タイプの時は、サバイバーシップファンクションに[Largest] (最大)または[Smallest] (最小)を必ず選択してください。
    3. [Survivorship Function] (サバイバーシップ機能)として[Most trusted source] (最も信頼できるソース)[Concatenate] (連結)を選択した場合は、[Parameter] (パラメーター)を設定してください。
      • [Most trusted source] (最も信頼できるソース)の場合は、マスターレコードのベースとして使用したいデータソースの名前を入力します
      • [Concatenate] (連結): データの連結に使用する区切り文字を定義します。

    [Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションでカラムのサバイバーシップファンクションを指定し、[Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでもカラムのデータ型のサバイバーシップファンクションを指定した場合は、[Survivorship Rules For Columns] (カラムのサバイバーシップルール)で選択したサバイバーシップファンクションがカラムに適用されます。

    動作を指定しないデータ型が1つでもあった場合は、デフォルトの動作([Most common] (最も一般的)なサバイバーシップファンクション)が適用されます。すなわち、各重複グループで最も頻度の高いフィールド値が検証されます。

  7. 右上にある[Save analysis] (分析を保存)をクリックします。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。