メイン コンテンツをスキップする 補完的コンテンツへスキップ

疑わしい重複、厳密な重複、ユニーク行の計算

手順

  1. tFileInputDelimitedをダブルクリックして[Basic settings] (基本設定)ビューを表示し、コンポーネントのプロパティを定義します。
  2. [Sync columns] (カラムを同期)をクリックし、入力コンポーネントで定義されているスキーマを取得します。
  3. [Blocking Key] (ブロッキングキー)テーブルで、[+]ボタンをクリックして行を追加します。ブロッキングキーとして使用するカラム(この例ではSite_name)を選択します。
    ブロッキングキーは中央の名前から構成され、レコードのペアのグルーピングに使われるサフィックスを生成するために使用されます。
  4. サフィックス配列ブロックパラメーターセクション:
    1. [Min suffix length] (最小サフィックス長さ)フィールドに、各グループ内で到達または停止する最小サフィックスの長さを設定するために使われます。
    2. [Max block size] (最大ブロックサイズ)フィールドに、各ブロックに含めるレコードの最大数を設定するために使われます。これは、サフィックスが頻出する大きなブロックでデータをフィルタリングするのに役立ちます。
  5. [Folder] (フォルダー)フィールドで、ペアリングモデルファイルを生成するローカルフォルダーへのパスを設定するために使われます。
    特定のファイルシステム(S3またはHDFSなど)にモデルを保存する場合は、ジョブで対応するコンポーネントを使用し、コンポーネントの基本設定で[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにする必要があります。
  6. [Advanced settings] (詳細設定)をクリックし、以下のパラメーターを設定するために使われます。
    1. [Filtering threshold] (しきい値フィルタリング)フィールドに、0.2〜0.85の値を入力して、計算されたスコアに基づいて疑わしいレコードのペアをフィルタリングします。
      この値はあまり類似していないペアを除外するのに役立ちます。値が高いほど、レコードはより類似します。
    2. ジョブの実行ごとに異なるサンプルを生成する場合は、[Set a random see] (ランダムなシードを設定)チェックボックスをオフのままにします。
    3. [Number of pairs]ペアの数フィールドで、生成する疑わしいペアサンプルのサイズを入力します。
    4. Talend Data Stewardshipで設定されている場合は、コミットごとにロードするタスクの最大数を[Max tasks per commit] (コミットごとの最大タスク数)フィールドに入力します。
      Talend Data Stewardshipのバッチサイズに制限はありません(オンプレミス)。ただし、Talend Cloud Data Stewardship のコミットごとに200タスクを超過しないようにしてください。そうしないとジョブは失敗します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。