T-Swooshアルゴリズムを使ってマッチングキーを定義および作成
- Big Data Platform
- Cloud API Services Platform
- Cloud Big Data Platform
- Cloud Data Fabric
- Cloud Data Management Platform
- Data Fabric
- Data Management Platform
- Data Services Platform
- MDM Platform
- Qlik Talend Cloud Enterprise Edition
- Qlik Talend Cloud Premium Edition
- Real-Time Big Data Platform
手順
マッチングキーの作成
- Big Data Platform
- Cloud API Services Platform
- Cloud Big Data Platform
- Cloud Data Fabric
- Cloud Data Management Platform
- Data Fabric
- Data Management Platform
- Data Services Platform
- MDM Platform
- Qlik Talend Cloud Enterprise Edition
- Qlik Talend Cloud Premium Edition
- Real-Time Big Data Platform
Procedure
- [Record linkage algorithm] (レコード連鎖アルゴリズム)セクションで[T-Swoosh]を選択します。
-
[Match and Survivor] (一致およびサバイバー)セクションで、データレコードをマッチングする際に使用する条件を定義します。[+]ボタンをクリックし、新しいルールを追加して、次の条件を設定します。
-
Match Key Name (マッチキー名): マッチキーの任意の名前を入力します。
-
Matching Function (マッチングファンクション): ドロップダウンリストから、実行するマッチングのタイプを選択します。外部のユーザー定義マッチングアルゴリズムを使用する場合は、[Custom] (カスタム)を選択します。
-
[Custom Matcher] (カスタムマッチャー): この項目は[Custom] (カスタム)マッチングファンクションとのみ使われます。ユーザー定義アルゴリズムのJarファイルを参照して選択します。
-
Threshold (しきい値): 2つの値についてマッチスコア(0から1)を指定してどの値から上がマッチと見なされるか指定します。
-
Confidence Weight (信頼度の重み): マッチキーとして使用する列に数値の重み(1から10)を設定します。この値を使用すると、マッチングを実行する時に特定の列の重要度が高くなります。
-
[Handle Null] (Nullを処理): Null値を含むデータレコードの処理方法を指定します。
-
nullMatchNull: 両方のレコードにNull値が含まれている場合、マッチと見なします。
-
[nullMatch None] (nullMatchなし): 片方のレコードにNULL値が含まれる場合は、一致していると見なされません。
-
[nullMatch All] (nullMatchすべて): 片方のレコードにNULL値が含まれる場合は、一致していると見なされます。
-
-
Survivorship Function (サバイバーシップファンクション): ドロップダウンリストから2つの類似するレコードをマージする方法を選択します。
-
[Concatenate] (連結): 最初のレコードの内容と2番目のレコードの内容を一緒に追加します。
たとえばBillとWilliamはBillWilliamのようにマージされます。[Parameter] (パラメーター)フィールドで、値の区切りに使用する区切りを指定できます。
-
Prefer True (Trueを優先: ブール値の場合): ソースレコードのすべてのブール値がFalseでない限り、結合されたレコードでは常にブール値をTrueに設定します。
-
[Prefer False (for booleans)] (ブール値ではFalse優先): ソースレコードのすべてのブール値がTrueの場合を除き、マージされたレコードのブール値は常にFalseに設定されます。
-
Most common (最も一般的): 重複グループの中で最も頻繁に出現するフィールド値を有効にします。
-
Most recent, Most ancient (最も新しい、最も古い): 重複グループの中で前者は最も古い日付を有効にし、後者は最も新しい日付を有効にします。関連する参照カラムは[Date] (日付)タイプにする必要があります。
-
Longest, Shortest (最長、最短):重複グループの中で前者は最も長いフィールド値を有効にし、後者は最も短いフィールド値を有効にします。
-
Largest, Smallest (最大、最小): 重複グループの中で前者は最大の数値を有効にし、後者は最小の数値を有効にします。
情報メモWarning: マッチングキーが数値タイプの時は、サバイバーシップファンクションに[Largest] (最大)または[Smallest] (最小)を必ず選択してください。 -
Most trusted source (最も信頼できるソース): 最も信頼できるとして定義されているソースに由来するデータを採用します。最も信頼できるデータソースは、[Parameter] (パラメーター)フィールドで設定されます。
-
- [Reference column] (参照カラム): [Survivor Function] (サバイバーファンクション)を[Most recent] (最新)または[Most ancient] (最古)に設定すると、この項目は参照カラムの選択に使用されます。
-
[Parameter] (パラメーター): [Concatenate] (連結)サバイバーシップファンクションでは、この項目を使用して、データの連結に使用する区切りを指定します。
-
[Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップファンクションでは、この項目を使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップファンクションでは、この項目を使用して、データの連結に使用するセパレーターを指定します。
-
-
[Match threshold] (しきい値の一致)フィールドに、一致可能性のしきい値を入力します。
確率がこの値を超えると、2つのデータレコードは一致と見なされます。
[Confident match threshold] (信頼できるマッチングしきい値)フィールドで、現在の[Match threshold] (マッチングしきい値)と1の間に数値を設定します。
-
[Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションで、特定のカラムについてデータレコードを存続させる方法を定義します。[+]ボタンをクリックし、新しいルールを追加して、次の条件を設定します。
-
[Input Column] (入力カラム): サバイバーシップルールを適用するカラムを入力します。
-
Survivorship Function (サバイバーシップファンクション): ドロップダウンリストから2つの類似するレコードをマージする方法を選択します。
-
[Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップファンクションでは、この項目を使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップファンクションでは、この項目を使用して、データの連結に使用する区切りを指定します。
[Match And Survivor] (一致およびサバイバー)セクションでマッチングキーのサバイバーシップファンクションを指定し、[Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションでも、入力カラムとしてマッチングキーのサバイバーシップファンクションを指定した場合は、[Match And Survivor] (一致およびサバイバー)セクションで選択したサバイバーシップファンクションがカラムに適用されます。
-
-
[Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでは、特定のデータ型のサバイブマッチの方法を定義します: Boolean、Date、Number、String。
- [+]ボタンをクリックして、各データ型の他の新しい行を追加します。
- [Data Type] (データ型)列で、ドロップダウンリストから当該のデータ型を選択します。
-
[Survivorship Function] (サバイバーシップファンクション)で、ドロップダウンリストから2つの類似レコードをマージする方法を選択します。データ型によっては該当する選択肢が特定のものだけという場合があります。
情報メモWarning: マッチングキーが数値タイプの時は、サバイバーシップファンクションに[Largest] (最大)または[Smallest] (最小)を必ず選択してください。
- [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップファンクションでは、この項目を使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップファンクションでは、この項目を使用して、データの連結に使用するセパレーターを指定します。
[Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションでカラムのサバイバーシップファンクションを指定し、[Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでもカラムのデータ型のサバイバーシップファンクションを指定した場合は、[Survivorship Rules For Columns] (カラムのサバイバーシップルール)で選択したサバイバーシップファンクションがカラムに適用されます。
動作を指定しないデータ型が1つでもあった場合は、デフォルトの動作([Most common] (最も一般的)なサバイバーシップファンクション)が適用されます。すなわち、各重複グループで最も頻度の高いフィールド値が検証されます。
- 変更を保存します。