メイン コンテンツをスキップする 補完的コンテンツへスキップ

Spark UniversalでYarnクラスター接続パラメーターを定義

このタスクについて

はYarnクラスターに接続して、そのクラスターからジョブを実行します。

手順

  1. デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
  2. [Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
    Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
    情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
  3. [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストから[Yarn cluster] (Yarnクラスター)をそれぞれ選択します。
  4. 選択したClouderaクラスターの接続パラメーターが含まれている、Hadoop設定JARファイルへのパスを入力します。
    JARファイルには、クラスターの全*-site.xmlファイルへの接続の確立に必要な情報がすべて含まれています。
    [Spark Configuration] (Spark設定)ビューが開かれ、カスタムのHadoop設定JARファイルへのパスが強調表示されている状態。
    このJARファイルには次のXMLファイルが必要です。
    • hdfs-site.xml
    • core-site.xml
    • yarn-site.xml
    • mapred-site.xml
    HiveコンポーネントやHBaseコンポーネントを使用する場合は、JARファイルに次のXMLファイルを追加する必要があります。
    • hive-site.xml
    • hbase-site.xml
  5. 設定の基本情報を入力します:
    パラメーター 使用方法
    [Use custom classpath] (カスタムクラスパスを使用) このチェックボックスをオンにすると、Sparkジョブ用に追加のクラスパスエントリーを指定できます。これにより、YARNクラスターでの実行時にカスタムライブラリーや依存項目を含めることが可能になります。

タスクの結果

これで接続詳細が完全なものになったので、Sparkジョブの実行をスケジュールしたり、すぐに実行したりできます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。