メイン コンテンツをスキップする 補完的コンテンツへスキップ

サスペクトペアと一意な行の計算

手順

  1. tFileOutputDelimitedコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを表示し、コンポーネントのプロパティを定義します。
    スキーマを出力コンポーネントにプロパゲートさせることは、入力コンポーネントを定義した際に受け入れているはずです。
  2. [Define a storage configuration component] (ストレージ設定コンポーネントの定義)チェックボックスをオフにして、ローカルシステムをターゲットファイルシステムとして使用します。
  3. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックし、ダイアログボックスの[+]ボタンを使用して、参照データセットからカラムをスキーマに追加します。

    サスペクト重複出力に追加するカラム名の末尾に_refを追加する必要があります。この例では、Original_id_refSource_refSite_name_ref、およびAddress_refです。

  4. [Folder/File] (フォルダー/ファイル)フィールドで、出力データを保持するフォルダーのパスを設定するために使われます。
  5. [Action] (アクション)リストから、データを書き込む操作を選択します:
    • 最初にジョブを実行する時は、[Create] (作成)を選択します。
    • ジョブを実行するたびにファイルを置換するには、[Overwrite] (上書き)を選択します。
  6. 該当するフィールドに、行とフィールドの区切りを設定するために使われます。
  7. [Merge results to single file] (単一ファイルに結果をマージ)チェックボックスをオンにし、[Merge file path](マージファイルパス)フィールドで、疑わしいレコードペアのファイルを出力する場所を設定するために使われます。
  8. 2番目のtFileOutputDelimitedコンポーネントをダブルクリックし、最初のコンポーネントと同様に、[Basic settings] (基本設定)ビューでコンポーネントプロパティを定義します。
    このコンポーネントは、入力データから生成された一意の行を保持するファイルを作成します。
  9. F6を押してジョブを保存し、実行します。

タスクの結果

tMatchIndexPredictは、入力データからのレコードと、Elasticsearch内でインデックスが作成された参照データセットからのマッチングレコードをグルーピングし、サスペクトペアにラベル付けします。これらは同じ行に表示されます。
tMatchIndexPredictは一意なレコードを除外して、別のファイルに書き込みます。

これで、一意な行をクリーン化し、重複除去して、tMatchIndexを使用して、Elasticsearchに保存されている参照データセットに追加できます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。