Apache Spark BatchのTalendジョブでは、Talend Sparkコンポーネントにアクセスして使用し、データの読み取り、変換、または書き込みを行うApache Sparkプログラムを視覚的に設計できます。
手順
-
[Repository] (リポジトリー)ツリービューで[Job Designs] (ジョブデザイン)ノードを展開し、[Big Data Batch] (ビッグデータバッチ)ノードを右クリックして、コンテキストメニューから[Create folder] (フォルダーの作成)を選択します。
-
[New Folder] (新規フォルダー)ウィザードでジョブフォルダーにgetting_startedという名前を付け、[Finish] (終了)をクリックしてフォルダーを作成します。
-
getting_startedフォルダーを右クリックし、[Create folder] (フォルダーの作成)をもう一度選択します。
-
[New Folder] (新規フォルダー) ウィザードで新しいフォルダーに[spark] (スパーク)という名前を付け、[Finish] (終了)をクリックしてフォルダーを作成します。
-
sparkフォルダーを右クリックし、[Create Big Data Batch Job] (ビッグデータバッチジョブを作成)を選択します。
-
[New Big Data Batch Job] (新しいビッグデータバッチジョブ)ウィザードで、[Framework] (フレームワーク)ドロップダウンリストから[Spark]を選択します。
-
このSpark Batchジョブの名前とその他の有用な情報を入力します。
たとえば、[Name] (名前)フィールドにaggregate_movie_director_sparkと入力します。
タスクの結果
Talend Studioで、Spark BatchコンポーネントであるPaletteが使用できるようになりました。この[Palette] (パレット)、および[Repository] (リポジトリー)内の[Metadata] (メタデータ)ノードを活用して、ジョブの設計を開始できます。