Apache Spark BatchのtClassifyプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtClassifyを設定するために使われます。
Spark BatchのtClassifyコンポーネントは、機械学習ファミリーに属しています。
このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで使用できます。
基本設定
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
このコンポーネントのスキーマは読み取り専用です。その単一カラムのLABELは、分類プロセスで使うために分類子モデルからクラス名をロードするために使います。 |
[Model on filesystem] (ファイルシステムに基づくモデル) |
使うモデルがファイルシステムに保管されている場合は、このラジオボックスを選択します。参照用のボタンはSpark [Local] (ローカル)モードでは機能しません。Spark YarnまたはSpark [Standalone] (スタンドアロン)モードを使用している場合は、同じジョブ内のtHDFSConfigurationなどの設定コンポーネントで接続を適切に設定したことを確認する必要があります。 表示される[HDFS folder] (HDFSフォルダー)フィールドに、このモデルが保管されているHDFS URIを入力します。 |
[Model computed in the current Job] (現在のジョブで計算されたモデル) |
このラジオボックスを選択し、同じジョブで使うモデルトレーニングのコンポーネントを選択して、使うモデルを作成します。 |
使用方法
使用ルール |
このコンポーネントは中間ステップとして使用されます。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |