Apache Spark BatchのtMatchModelプロパティ
これらのプロパティは、[Spark Batch]ジョブのフレームワークで実行されているtMatchModelを設定するために使われます。
[Spark Batch]のtMatchModelコンポーネントは、データクオリティファミリーに属しています。
このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで使用できます。
基本設定
[Define a storage configuration component] (ストレージ設定コンポーネントを定義) |
HDFSなどのターゲットファイルシステムへの接続の設定情報を提供するために使用する設定コンポーネントを選択します。 このチェックボックスをオフにすると、ターゲットファイルシステムはローカルシステムになります。 使用する接続設定は同じジョブ内にあることが必要です。たとえば、tHDFSConfigurationコンポーネントをジョブにドロップした場合は、このコンポーネントを選択して、所定のHDFSシステム内で結果を書き込むことができます。 |
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
|
|
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
[Matching key] (マッチングキー) |
マッチ計算のベースとなるカラムを選択します。 |
[Matching label column] (マッチングラベルカラム) |
疑わしいレコードのペアに手動で設定したラベルを保持する入力フローからカラムを選択します。 [Integration with Data Stewardship] (データスチュワードシップとの統合)チェックボックスをオンにした場合、このリストは表示されません。この場合、マッチングラベルカラムはTDS_ARBITRATION_LEVELカラムで、Talend Data Stewardshipを使用して疑いのあるレコードのペアに設定したラベルが保持されています。 |
[Matching model location] (マッチングモデルロケーション) |
[Save the model on file system] (モデルをファイルシステムに保存)チェックボックスをオンにし、[Folder] (フォルダー)フィールドで、マッチングファイルを生成するローカルフォルダーのパスを設定するために使われます。 特定のファイルシステム(S3またはHDFSなど)にモデルを保存する場合は、ジョブで対応するコンポーネントを使用し、コンポーネントの基本設定で[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにする必要があります。 参照用のボタンはSpark Localモードでは機能しません。お使いのディストリビューションで、Talend Studioがサポートしているその他のSpark Yarnモードを使用している場合は、同じジョブ内の設定コンポーネントで接続を適切に設定したことを確認する必要があります。使用されるファイルシステムに応じて設定コンポーネントを使用します。 |
[Generate feature importance report] (特徴量の重要度レポートを生成する) | このチェックボックスをオンにすると、モデルと設定の概要を含むレポートが生成されます。詳細は、特徴量の重要度レポートをご覧ください。 レポートは次の場所に保存できます:
|
[Integration with Data Stewardship] (データスチュワードシップとの統合) |
このチェックボックスをオンにすると、 Talend Data Stewardship サーバーの接続パラメーターを設定できます。 このチェックボックスをオンにすると、tMatchModelでは Talend Data Stewardship サーバーで定義されたグルーピングキャンペーンでラベルが付いた疑わしいレコードのサンプルを使用できます。つまり、このコンポーネントは、スタンドアロンコンポーネントとして使用できます。 |
[Data Stewardship Configuration] (データスチュワードシップ設定) |
[Integration with Data Stewardship] (データスチュワードシップとの統合)チェックボックスがオンの場合に利用できます。
|
詳細設定
[Max token number for phonetic comparison] (音声比較の最大トークン数) |
音声の比較に使用するトークンの最大数を設定するために使われます。 トークンの数がこのフィールドで定義されている数を超過すると、音声比較は行われません。 |
[Random Forest hyper-parameters tuning] (Random Forestハイパーパラメーターチューニング) |
[Number of trees range] (ツリー範囲の数): 構築するデシジョンツリーの範囲を入力します。各デシジョンツリーは、ランダムなフィーチャーのサンプルを使用して個別にトレーニングされます。 この範囲を大きくすると、予測の差異を減らすことで精度を向上させることができますが、トレーニング時間が長くなります。 [Maximum tree-depth range] (最大ツリー深度範囲): トレーニングで新しいノードの追加を停止するデシジョンツリーの深さの範囲を入力します。新しいノードは、内部ノードの機能に関する詳細テストと、葉ノードが持つクラスラベルを表します。 一般に、深度の大きいデシジョンツリーはわかりやすく、そのため、より正確な予測ができる可能性があります。ただし、リソース消費量が多く、オーバーフィットの原因になります。 |
[Checkpoint Interval] (チェックポイント間隔) |
チェックポイントの頻度を設定するために使われます。これはデフォルト値(10)をそのまま使用することが推奨されています。 このパラメーターの値を設定する前に、チェックポイントをアクティブにし、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブでチェックポイントディレクトリーを設定するために使われます。 チェックポインティングの詳細は、Apache Sparkジョブのロギングとアクティビティのチェックポインティングをご覧ください。 |
[Cross-validation parameters] (クロス検証パラメーター) |
[Number of folds] (フォールドの数): 個別のトレーニングおよびテストデータセットとして使用するビンの数値を入力します。 [Evaluation metric type] (評価指標タイプ): リストからタイプを選択します。詳細は、精度およびリコールをご覧ください。 |
[Random Forest parameters] (Random Forestパラメーター) |
[Subsampling rate] (サブサンプリング率): 数値を入力して、フォレスト内の各ツリーのトレーニングに使用する入力データセットの割合を指定します。デフォルト値の1.0が推奨されています。これはテストの目的でデータセット全体を取得することを意味します。 [Subset Strategy] (サブセット戦略): この内部ノード(実際には、このノードのフィーチャーのトレーニングセットまたはサブセット)をもっと小さなサブセットに適当に分割するため、各内部ノードで考慮するフィーチャーの数に関する戦略を選択します。これらのサブセットは、子ノードを構築するために使用されます。 戦略では、それぞれ分割するフィーチャーで最適ポイントを見つけるために、異なるフィーチャーについて考慮します。たとえば、カテゴリーフィーチャーの[age] (年齢)について35をポイントにできます。
|
[Max Bins] (最大ビン) |
機能の分割に使用されるBinの最大数を示す数値を入力します。 継続的機能は序列化離散機能に自動的に変換されます。 |
[Minimum information gain] (最小の情報ゲイン) |
子ノードが親ノードからの取得を予想できる情報獲得の最小数を入力します。情報獲得の数が最小数を下回ると、ノードの分割は停止します。 情報獲得の最小数は、デフォルト値が0.0です。これは、特定のノードを分割しても、それ以上の情報が得られないことを意味します。その結果、分割が停止する場合があります。 情報獲得の計算方法は、SparkのドキュメンテーションでImpurity and Information gainをご覧ください。 |
[Min instance per Node] (ノードあたりの最小インスタンス) |
分割の継続を有効にするためにノードが持つ必要のあるトレーニングインスタンスの最小数を入力します。 デフォルト値は1です。これは、ノードのトレーニングデータの行数が1しかない場合、分割が停止することを意味します。 |
[Impurity] (混合) |
分割の各セットから最適な分割を選択するために使用する指標を選択します。
各測定値の計算方法は、SparkのドキュメンテーションでImpurity measuresをご覧ください。 |
[Set a random seed] (ランダムシードの設定) |
ブートストラップと機能サブセットの選択に使用するランダムシード番号を入力します。 |
[Data Stewardship Configuration] (データスチュワードシップ設定) |
[Basic settings] (基本設定)で[Integration with Data Stewardship] (データスチュワードシップとの統合)チェックボックスがオンの場合に利用できます。 [Campaign Name] (キャンペーン名): 基本設定でキャンペーンを選択すると、そのキャンペーンの技術的な名前を表示します。ただし、フィールド値を変更して、たとえばコンテキストパラメーターに置換し、実行時にコンテキスト変数をジョブにパスできます。この技術的な名前は、ジョブがTalend Data Stewardshipと通信する時に、[Campaign] (キャンペーン)フィールドの値に関係なく、キャンペーンの特定に常に使用されます。 [Batch Size] (バッチサイズ): 各バッチで処理されるレコード数を指定します。 パフォーマンスの問題が発生している場合を除き、デフォルト値は変更しないでください。バッチサイズを大きくするとパフォーマンスが向上しますが、高すぎる値を設定すると、ジョブの失敗の原因となる可能性があります。 |
使用方法
使用ルール |
このコンポーネントは中間ステップとして使用されます。 このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。 |
[Spark Batch Connection] (Spark Batch接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |