疑わしいペアを計算してグルーピングキャンペーンにサンプルを書き込む
手順
-
tFileInputDelimitedをダブルクリックして[Basic settings] (基本設定)ビューを表示し、コンポーネントのプロパティを定義します。
- [Sync columns] (カラムを同期)をクリックし、入力コンポーネントで定義されているスキーマを取得します。
-
[Blocking Key] (ブロッキングキー)テーブルで、[+]ボタンをクリックして行を追加します。ブロッキングキーとして使用するカラム(この例ではSite_name)を選択します。
ブロッキングキーは中央の名前から構成され、レコードのペアのグルーピングに使われるサフィックスを生成するために使用されます。
-
サフィックス配列ブロックパラメーターセクション:
- [Min suffix length] (最小サフィックス長さ)フィールドに、各グループ内で到達または停止する最小サフィックスの長さを設定するために使われます。
- [Max block size] (最大ブロックサイズ)フィールドに、各ブロックに含めるレコードの最大数を設定するために使われます。これは、サフィックスが頻出する大きなブロックでデータをフィルタリングするのに役立ちます。
-
[Folder] (フォルダー)フィールドで、ペアリングモデルファイルを生成するローカルフォルダーへのパスを設定するために使われます。
特定のファイルシステム(S3またはHDFSなど)にモデルを保存する場合は、ジョブで対応するコンポーネントを使用し、コンポーネントの基本設定で[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにする必要があります。
-
[Integration with Data Stewardship] (データスチュワードシップとの統合)チェックボックスをオンにし、Talend Data Stewardshipサーバーへの接続パラメーターを設定するために使われます。
-
[URL]フィールドに、アプリケーションのアドレスを/data-stewardship/のサフィックスを付けて入力します(http://localhost:19999/data-stewardship/など)。
Talend Cloud Data Stewardshipで作業している場合は、/data-stewardship/というサフィックスが付いた対応するデータセンターのURLを使ってアプリケーションにアクセスします。たとえばAWS USデータセンターの場合はhttps://tds.us.cloud.talend.com/data-stewardshipとなります。
利用できるデータセンターのURLは、Talend CloudのリージョンとURLをご覧ください。
-
[Username] (ユーザー名)フィールドと[Password] (パスワード)フィールドにログイン情報を入力します。
パスワードを入力するには、フィールドの横にある[…]をクリックし、開いたダイアログボックスの二重引用符の間にパスワードを入力して[OK]をクリックします。Talend Cloud Data Stewardshipを使用しており、
- SSOが有効な場合は、アクセストークンをフィールドに入力します。
- SSOが有効でない場合は、アクセストークンまたはパスワードをフィールドに入力します。
- [Find a campaign] (キャンペーンの検索)をクリックして、Talend Data Stewardshipで定義されていて、所有者であるかアクセス権のあるキャンペーンをリスト表示するダイアログボックスを開きます。
- グルーピングタスクを書き込む[Sites deduplication] (サイト重複除去)キャンペーンを選択し、[OK]をクリックします。
-
[URL]フィールドに、アプリケーションのアドレスを/data-stewardship/のサフィックスを付けて入力します(http://localhost:19999/data-stewardship/など)。
-
[Advanced settings] (詳細設定)をクリックし、以下のパラメーターを設定するために使われます。
-
[Filtering threshold] (しきい値フィルタリング)フィールドに、0.2〜0.85の値を入力して、計算されたスコアに基づいて疑わしいレコードのペアをフィルタリングします。
この値はあまり類似していないペアを除外するのに役立ちます。値が高いほど、レコードはより類似します。
- ジョブの実行ごとに異なるサンプルを生成する場合は、[Set a random see] (ランダムなシードを設定)チェックボックスをオフのままにします。
- [Number of pairs]ペアの数フィールドで、生成する疑わしいペアサンプルのサイズを入力します。
-
Talend Data Stewardshipで設定されている場合は、コミットごとにロードするタスクの最大数を[Max tasks per commit] (コミットごとの最大タスク数)フィールドに入力します。
Talend Data Stewardshipのバッチサイズに制限はありません(オンプレミス)。ただし、Talend Cloud Data Stewardship のコミットごとに200タスクを超過しないようにしてください。そうしないとジョブは失敗します。
-
[Filtering threshold] (しきい値フィルタリング)フィールドに、0.2〜0.85の値を入力して、計算されたスコアに基づいて疑わしいレコードのペアをフィルタリングします。