Apache Spark BatchのtModelEncoderプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtModelEncoderを設定するために使われます。
Spark BatchのtModelEncoderコンポーネントは、機械学習ファミリーに属しています。
このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで使用できます。
基本設定
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 入力側から出力側への連続する変換は同じDataFrame (スキーマベースのデータコレクションのSpark用語)で行われるため、出力カラムは他の入力カラムとは異なる名前にする必要があります。したがって、出力カラムは実際には、入力カラムと共に同じDataFrameに追加されます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
|
[Transformation table] (登録テーブル) |
入力スキーマと出力スキーマのカラム、およびこれらのカラムに適用される特徴処理アルゴリズムを使って、このテーブルを完成させます。 [Transformation] (変換)カラムで使用可能なアルゴリズムは、処理される入力スキーマカラムのタイプによって異なります。 各タイプの入力データで使用可能なアルゴリズムの詳細は、TalendのML特徴処理アルゴリズムをご覧ください。 |
使用方法
使用ルール |
このコンポーネントは中間ステップとして使用されます。 このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |