メイン コンテンツをスキップする 補完的コンテンツへスキップ

マッチングモデルを生成

手順

  1. tMatchModelをダブルクリックして[Basic settings] (基本設定)ビューを表示し、コンポーネントプロパティを定義します。
  2. [Matching Key] (マッチングキー)テーブルで、[+]ボタンをクリックしてテーブルに行を追加し、matching computationのベースとするカラムを選択します。
    マッチングモデルの計算では、Original_Idカラムは無視されます。
  3. [Save the model on file system] (モデルをファイルシステムに保存)チェックボックスをオンにして、マッチングするモデルファイルを生成するローカルフォルダーへのパスを[Folder] (フォルダー)フィールドで設定します。
  4. [Integration with Data Stewardship] (データスチュワードシップとの統合)チェックボックスをオンにし、Talend Data Stewardshipサーバーへの接続パラメーターを設定するために使われます。
    1. [URL]フィールドに、アプリケーションのアドレスを/data-stewardship/のサフィックスを付けて入力します(http://localhost:19999/data-stewardship/など)。

      Talend Cloud Data Stewardshipで作業している場合は、/data-stewardship/というサフィックスが付いた対応するデータセンターのURLを使ってアプリケーションにアクセスします。たとえばAWS USデータセンターの場合はhttps://tds.us.cloud.talend.com/data-stewardshipとなります。

      利用できるデータセンターのURLは、Talend CloudのリージョンとURLをご覧ください。

    2. [Username] (ユーザー名)および[Password] (パスワード) フィールドに、サーバーのログイン情報を入力します。
      パスワードを入力するには、フィールドの横にある[…]をクリックし、開いたダイアログボックスの二重引用符の間にパスワードを入力して[OK]をクリックします。
      Talend Cloud Data Stewardshipを使用しており、
      • SSOが有効な場合は、アクセストークンをフィールドに入力します。
      • SSOが有効でない場合は、アクセストークンまたはパスワードをフィールドに入力します。
    3. [Find a campaign] (キャンペーンの検索)をクリックして、Talend Data Stewardshipで定義されていて、所有者であるかアクセス権のあるキャンペーンをリスト表示するダイアログボックスを開きます。
    4. グルーピングタスクを読み取るキャンペーンから、この例では[Sites deduplication] (サイト重複除去)を選択し、[OK]をクリックします。
  5. [Advanced settings] (詳細設定)をクリックし、以下のパラメーターを設定するために使われます。
    1. 表音比較に使用するトークンの最大数を対応するフィールドで設定します。
    2. [Random Forest hyper parameters tuning] (ランダムフォレストハイパーパラメーターのチューニング)に、ビルドするデシジョンツリーの範囲とその深度を入力します。
      これらのパラメーターは、モデルの精度にとって重要です。
    3. その他のデフォルトのパラメーターは変更しないでください。
  6. [Batch Size] (バッチサイズ)フィールドで、各回のコミットに含めるタスクの数を設定するために使われます。
    Talend Data Stewardshipのバッチサイズに制限はありません(オンプレミス)。ただし、Talend Cloud Data Stewardship のコミットごとに200タスクを超過しないようにしてください。そうしないとジョブは失敗します。
  7. F6を押してジョブを実行し、出力フォルダーにマッチングモデルを生成します。

タスクの結果

このモデルをtMatchPredictコンポーネントで使用して、tMatchPairingによって計算されたすべての重複にラベル付けできるようになりました。

詳細は、サスペクトペアに割り当て済みのラベルを付けるをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。