メイン コンテンツをスキップする 補完的コンテンツへスキップ

Spark Streamingフレームワークを使ってビッグデータストリーミングジョブを設定する

ジョブを実行する前に、Amazon EMRクラスターを使うようにジョブを設定する必要があります。

手順

  1. ジョブはSparkで実行されるため、tHDFSConfigurationコンポーネントを追加し、リポジトリーからのHDFS接続メタデータを使うように設定する必要があります。
  2. [Run] (実行)ビューで[Spark configuration] (Spark設定)タブをクリックします。
  3. [Cluster Version] (クラスターバージョン)パネルで、クラスター接続メタデータを使うようにジョブを設定するために使われます。
  4. [Batch size] (バッチサイズ)を2000ミリ秒に設定します。
  5. 詳細プロパティを一部設定するので、プロパティタイプを組み込みに変更します。
  6. [Tuning] (調整)パネルで[Set tuning properties] (調整プロパティーの設定)オプションを選択し、フィールドを次のように設定します。
  7. ジョブを実行します。

    コンソールにデータが表示されるまで数分かかります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。