Apache Spark BatchのtPredictプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtPredictを設定するために使われます。
Spark BatchのtPredictコンポーネントは、機械学習ファミリーに属しています。
このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで使用できます。
基本設定
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
使うために選択したモデルに応じて、対応する読み取り専用カラムがスキーマに自動的に追加され、予測の結果レコードを保持するために使われます。 |
[Define a storage configuration component] (ストレージ設定コンポーネントを定義) |
HDFSなどのターゲットファイルシステムへの接続の設定情報を提供するために使用する設定コンポーネントを選択します。 このチェックボックスをオフにすると、ターゲットファイルシステムはローカルシステムになります。 使用する接続設定は同じジョブ内にあることが必要です。たとえば、tHDFSConfigurationコンポーネントをジョブにドロップした場合は、このコンポーネントを選択して、所定のHDFSシステム内で結果を書き込むことができます。 このラジオボックスを選択すると、[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスが表示されます。これを選択して、使うファイルシステムに接続させます。 |
[Model type] (モデルタイプ) |
tPredictで使うモデルのタイプを選択します。これにより、tPredictのスキーマに読み取り専用のカラムが自動的に追加され、予測の結果レコードが保持されます。 |
[Model on filesystem] (ファイルシステムに基づくモデル) |
使うモデルがファイルシステムに保管されている場合は、このラジオボックスを選択します。参照用のボタンはSpark [Local] (ローカル)モードでは機能しません。Spark YarnまたはSpark [Standalone] (スタンドアロン)モードを使用している場合は、同じジョブ内のtHDFSConfigurationなどの設定コンポーネントで接続を適切に設定したことを確認する必要があります。 表示される[HDFS folder] (HDFSフォルダー)フィールドに、このモデルが保管されているHDFS URIを入力します。 このラジオボックスを選択すると、[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスが表示されます。これを選択して、使うファイルシステムに接続させます。 |
[Model computed in the current Job] (現在のジョブで計算されたモデル) |
このラジオボックスを選択し、同じジョブで使うモデルトレーニングのコンポーネントを選択して、使うモデルを作成します。 ジョブやサブジョブでtNaiveBayesModelまたはtKMeansModelを使用している場合は、tNaiveBayesModelまたはtKMeansModelの[Save the model on file system] (モデルをファイルシステムに保存)チェックボックスをクリアします。詳細は、tPredictを他の機械学習コンポーネントと共に使用をご覧ください。 |
使用方法
使用ルール |
このコンポーネントは中間ステップとして使用されます。 このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |