コンポーネントの設定
手順
-
tRecordMatchingをダブルクリックして[Basic settings] (基本設定)ビューを表示し、プロパティを定義します。
-
[Edit schema] (スキーマを編集)ボタンをクリックして、ダイアログボックスを開きます。ここで、出力コンポーネントに渡すデータを定義します。
この例では、tRecordMatchingコンポーネントに最初のtMysqlInputコンポーネントからカラムnameとemailを、2番目のtMysqlInputコンポーネントからカラムref_nameとref_ emailを渡そうとしています。出力スキーマのカラムMATCHING_DISTANCEとMATCHING_WEIGHTは、デフォルトで定義済みです。MATCHING_WEIGHTカラムは常に0と1の間にあります。これは、カラムセット間のグローバルな距離です(マッチングするカラムによって定義されます)。MATCHING_DISTANCEカラムは、アルゴリズムを使用する対象となる各カラムの距離を出力します。結果は縦方向のバー(パイプ)によって区切られます。[OK]をクリックしてダイアログボックスを閉じ、次の手順に進みます。
- tRecordMatchingの[Basic settings] (基本設定)ビューにある[Key Definition] (キー定義)エリアで、[+]ボタンをクリックして2つのカラムをリストに追加します。
-
ファジーマッチングを行う入力カラムと出力カラムを、[Input key attribute] (入力キー属性)および[Lookup key attribute] (ルックアップキー属性)リストからそれぞれ選択します。
この例では、入力属性にnameとemail、ルックアップ属性にref-nameとref_emailを選択します。情報メモ注: 日付カラムにアルゴリズムやマッチングアルゴリズムを適用すると、日付形式で比較する内容を決定できます。
たとえば、日付の年のみを比較する場合は、コンポーネントスキーマで日付カラムのタイプを[Date]に設定し、[Date Pattern] (日付パターン)フィールドにyyyyと入力します。コンポーネントでは、スキーマで定義されたパターンに基づき、日付形式を文字列に変換してから文字列比較が開始されます。
- [Matching type] (マッチングタイプ)カラムをクリックし、リストからq-gramを選択します。これは、参照データに基づいて入力データをチェックするために、最初のカラムに使用するメソッドです。
-
2番目のカラムのマッチングタイプを設定します(この例では[Levenshtein] (レーベンシュタイン)。
マッチング候補の最小値と最大値は、[Advanced settings] (詳細設定)ビューで定義します。デフォルト値は変更できます。
- [Tokenized measure] (トークン化された測定)リストで、選択したアルゴリズムにトークン化された距離を使用しないように指定します。
- [Weight] (加重)カラムで、キー属性として使用する各カラムの数値加重を設定するために使われます。
- [Handle Null] (Nullを処理)カラムのセルをクリックし、カラム内のNull属性の処理に使用するnullオペレーターを選択します。
-
必要に応じて、[Blocking Selection] (ブロッキング選択)テーブルの下にある[+]ボタンをクリックしてテーブルに1行あるいは複数行を追加し、行をクリックして、ブロッキング値として使用するカラムをリストから選択します。
ブロッキング値を使用すると、検査する必要があるレコードのペアの数が減ります。入力データは、ブロッキング値をベースに包括的なブロックに分割されます。これによって比較するペアの数は少なくなりますが、比較が各ブロック内のレコードペアに限定されることが理由です。ブロッキング値のユースケースは、Identificationのセクションで同じ機能キーを持つ出力フロー重複レコード内でカラムを比較し、グルーピングするをご確認ください。
- [Advanced settings] (詳細設定)タブをクリックして対応するビューを開き、[Simple VSR] (単純VSR)アルゴリズムを選択します。
-
最初のtLogRowコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを表示し、[Mode] (モード)エリアで[Table] (テーブル)を選択して、ソースファイルとtRecordMatchingの結果を一緒に表示して比較します。
- 他の2つのtLogRowコンポーネントにも同じ手順を行います。