メイン コンテンツをスキップする 補完的コンテンツへスキップ

Apache Spark BatchのtMatchModelプロパティ

これらのプロパティは、[Spark Batch]ジョブのフレームワークで実行されているtMatchModelを設定するために使われます。

[Spark Batch]tMatchModelコンポーネントは、データクオリティファミリーに属しています。

このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで使用できます。

基本設定

[Define a storage configuration component] (ストレージ設定コンポーネントを定義)

HDFSなどのターゲットファイルシステムへの接続の設定情報を提供するために使用する設定コンポーネントを選択します。

このチェックボックスをオフにすると、ターゲットファイルシステムはローカルシステムになります。

使用する接続設定は同じジョブ内にあることが必要です。たとえば、tHDFSConfigurationコンポーネントをジョブにドロップした場合は、このコンポーネントを選択して、所定のHDFSシステム内で結果を書き込むことができます。

[Schema] (スキーマ)[Edit Schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Matching key] (マッチングキー)

マッチ計算のベースとなるカラムを選択します。

[Matching label column] (マッチングラベルカラム)

疑わしいレコードのペアに手動で設定したラベルを保持する入力フローからカラムを選択します。

[Integration with Data Stewardship] (データスチュワードシップとの統合)チェックボックスをオンにした場合、このリストは表示されません。この場合、マッチングラベルカラムはTDS_ARBITRATION_LEVELカラムで、Talend Data Stewardshipを使用して疑いのあるレコードのペアに設定したラベルが保持されています。

[Matching model location] (マッチングモデルロケーション)

[Save the model on file system] (モデルをファイルシステムに保存)チェックボックスをオンにし、[Folder] (フォルダー)フィールドで、マッチングファイルを生成するローカルフォルダーのパスを設定するために使われます。

特定のファイルシステム(S3またはHDFSなど)にモデルを保存する場合は、ジョブで対応するコンポーネントを使用し、コンポーネントの基本設定で[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにする必要があります。

参照用のボタンはSpark Localモードでは機能しません。お使いのディストリビューションで、Talend Studioがサポートしているその他のSpark Yarnモードを使用している場合は、同じジョブ内の設定コンポーネントで接続を適切に設定したことを確認する必要があります。使用されるファイルシステムに応じて設定コンポーネントを使用します。

[Generate feature importance report] (特徴量の重要度レポートを生成する) このチェックボックスをオンにすると、モデルと設定の概要を含むレポートが生成されます。詳細は、特徴量の重要度レポートをご覧ください。

レポートは次の場所に保存できます:

  • ローカルシステム
  • Microsoft Azure、ローカルSparkモードで、または tAzureFSConfigurationを使用してAzure HDInsightに接続します。
  • Amazon S3、ローカルSparkモードのみtS3Configurationを使って

[Integration with Data Stewardship] (データスチュワードシップとの統合)

このチェックボックスをオンにすると、 Talend Data Stewardship サーバーの接続パラメーターを設定できます。

このチェックボックスをオンにすると、tMatchModelでは Talend Data Stewardship サーバーで定義されたグルーピングキャンペーンでラベルが付いた疑わしいレコードのサンプルを使用できます。つまり、このコンポーネントは、スタンドアロンコンポーネントとして使用できます。

[Data Stewardship Configuration] (データスチュワードシップ設定)

[Integration with Data Stewardship] (データスチュワードシップとの統合)チェックボックスがオンの場合に利用できます。

  • [URL]:

    http://<server_address>:19999/data-stewardship/)のように、Talend Data Stewardshipサーバーにアクセスするアドレスに/data-stewardship/というサフィックスを付けて入力します。

    Talend Cloud Data Stewardshipで作業している場合は、/data-stewardship/というサフィックスが付いた対応するデータセンターのURLを使ってアプリケーションにアクセスします。たとえばAWS USデータセンターの場合はhttps://tds.us.cloud.talend.com/data-stewardshipとなります。

    利用できるデータセンターのURLは、Talend CloudのリージョンとURLをご覧ください。

  • [Username] (ユーザー名)および[Password] (パスワード)

    Talend Data Stewardshipにログインするための認証情報を入力します。

    Talend Cloud Data Stewardshipを使用しており、
    • SSOが有効な場合は、アクセストークンをフィールドに入力します。
    • SSOが有効でない場合は、アクセストークンまたはパスワードをフィールドに入力します。
  • [Campaign Label] (キャンペーンラベル):

    基本設定でキャンペーンを選択すると、そのキャンペーンの技術的な名前を表示します。ただし、フィールド値を変更して、たとえばコンテキストパラメーターに置換し、実行時にコンテキスト変数をジョブにパスできます。この技術的な名前は、ジョブがTalend Data Stewardshipと通信する時に、[Campaign] (キャンペーン)フィールドの値に関係なく、キャンペーンの特定に常に使用されます。

    [Find a Campaign] (キャンペーンの検索)をクリックして、[Campaign owner] (キャンペーンの所有者)か、アクセス権のあるサーバーのグルーピングキャンペーンをリスト表示するダイアログボックスを開きます。

    更新ボタンをクリックして、 Talend Data Stewardship サーバーからキャンペーンの詳細を取得します。

詳細設定

[Max token number for phonetic comparison] (音声比較の最大トークン数)

音声の比較に使用するトークンの最大数を設定するために使われます。

トークンの数がこのフィールドで定義されている数を超過すると、音声比較は行われません。

[Random Forest hyper-parameters tuning] (Random Forestハイパーパラメーターチューニング)

[Number of trees range] (ツリー範囲の数): 構築するデシジョンツリーの範囲を入力します。各デシジョンツリーは、ランダムなフィーチャーのサンプルを使用して個別にトレーニングされます。

この範囲を大きくすると、予測の差異を減らすことで精度を向上させることができますが、トレーニング時間が長くなります。

[Maximum tree-depth range] (最大ツリー深度範囲): トレーニングで新しいノードの追加を停止するデシジョンツリーの深さの範囲を入力します。新しいノードは、内部ノードの機能に関する詳細テストと、葉ノードが持つクラスラベルを表します。

一般に、深度の大きいデシジョンツリーはわかりやすく、そのため、より正確な予測ができる可能性があります。ただし、リソース消費量が多く、オーバーフィットの原因になります。

[Checkpoint Interval] (チェックポイント間隔)

チェックポイントの頻度を設定するために使われます。これはデフォルト値(10)をそのまま使用することが推奨されています。

このパラメーターの値を設定する前に、チェックポイントをアクティブにし、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブでチェックポイントディレクトリーを設定するために使われます。

チェックポインティングの詳細は、Apache Sparkジョブのロギングとアクティビティのチェックポインティングをご覧ください。

[Cross-validation parameters] (クロス検証パラメーター)

[Number of folds] (フォールドの数): 個別のトレーニングおよびテストデータセットとして使用するビンの数値を入力します。

[Evaluation metric type] (評価指標タイプ): リストからタイプを選択します。詳細は、精度およびリコールをご覧ください。

[Random Forest parameters] (Random Forestパラメーター)

[Subsampling rate] (サブサンプリング率): 数値を入力して、フォレスト内の各ツリーのトレーニングに使用する入力データセットの割合を指定します。デフォルト値の1.0が推奨されています。これはテストの目的でデータセット全体を取得することを意味します。

[Subset Strategy] (サブセット戦略): この内部ノード(実際には、このノードのフィーチャーのトレーニングセットまたはサブセット)をもっと小さなサブセットに適当に分割するため、各内部ノードで考慮するフィーチャーの数に関する戦略を選択します。これらのサブセットは、子ノードを構築するために使用されます。

戦略では、それぞれ分割するフィーチャーで最適ポイントを見つけるために、異なるフィーチャーについて考慮します。たとえば、カテゴリーフィーチャーの[age] (年齢)について35をポイントにできます。

  • [auto] (自動): この戦略は[Basic settings] (基本設定)ビューの[Number of trees in the forest] (フォレストのツリー数)で設定したツリーの数に基づいています。この戦略がデフォルトとして使用されます。

    ツリーの数が1の場合、戦略は実際には[all] (すべて)になります。この数値が1より大きい場合、戦略は[sqrt] (平方根)になります。

  • [all] (すべて): 分割対象のフィーチャーの合計数。

  • [sqrt]: フィーチャーの合計数の平方根がフィーチャーの数として考慮されます。

  • log2: 考慮するフィーチャーの数は、log2(M)の結果です。ここでMはフィーチャーの合計数です。

[Max Bins] (最大ビン)

機能の分割に使用されるBinの最大数を示す数値を入力します。

継続的機能は序列化離散機能に自動的に変換されます。

[Minimum information gain] (最小の情報ゲイン)

子ノードが親ノードからの取得を予想できる情報獲得の最小数を入力します。情報獲得の数が最小数を下回ると、ノードの分割は停止します。

情報獲得の最小数は、デフォルト値が0.0です。これは、特定のノードを分割しても、それ以上の情報が得られないことを意味します。その結果、分割が停止する場合があります。

情報獲得の計算方法は、SparkのドキュメンテーションでImpurity and Information gainをご覧ください。

[Min instance per Node] (ノードあたりの最小インスタンス)

分割の継続を有効にするためにノードが持つ必要のあるトレーニングインスタンスの最小数を入力します。

デフォルト値は1です。これは、ノードのトレーニングデータの行数が1しかない場合、分割が停止することを意味します。

[Impurity] (混合)

分割の各セットから最適な分割を選択するために使用する指標を選択します。

  • [gini]: エレメントに対し、分割内で正しくないラべリングが許容される頻度です。

  • [entropy] (エントロピ): 各分割内の情報の予測困難度です。

各測定値の計算方法は、SparkのドキュメンテーションでImpurity measuresをご覧ください。

[Set a random seed] (ランダムシードの設定)

ブートストラップと機能サブセットの選択に使用するランダムシード番号を入力します。

[Data Stewardship Configuration] (データスチュワードシップ設定)

[Basic settings] (基本設定)[Integration with Data Stewardship] (データスチュワードシップとの統合)チェックボックスがオンの場合に利用できます。

[Campaign Name] (キャンペーン名):

基本設定でキャンペーンを選択すると、そのキャンペーンの技術的な名前を表示します。ただし、フィールド値を変更して、たとえばコンテキストパラメーターに置換し、実行時にコンテキスト変数をジョブにパスできます。この技術的な名前は、ジョブがTalend Data Stewardshipと通信する時に、[Campaign] (キャンペーン)フィールドの値に関係なく、キャンペーンの特定に常に使用されます。

[Batch Size] (バッチサイズ): 各バッチで処理されるレコード数を指定します。

パフォーマンスの問題が発生している場合を除き、デフォルト値は変更しないでください。バッチサイズを大きくするとパフォーマンスが向上しますが、高すぎる値を設定すると、ジョブの失敗の原因となる可能性があります。

使用方法

使用ルール

このコンポーネントは中間ステップとして使用されます。

このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

[Spark Batch Connection] (Spark Batch接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。