メイン コンテンツをスキップする 補完的コンテンツへスキップ

Spark UniversalでCloudera Data Engineering接続パラメーターを定義

このタスクについて

は、Cloudera Data Engineering (CDE)サービスに接続してこのクラスターからSparkジョブを実行します。

手順

  1. デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
  2. [Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
    Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
    情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
  3. [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからCloudera Data Engineeringをそれぞれ選択します。
  4. [Configuration] (設定)の基本情報を入力します:
  5. [CDE configuration] (CDE設定)のパラメーターを完成させます:
    パラメーター 使用方法
    [CDE API endpoint] (CDE APIエンドポイント) CDE APIエンドポイントを入力します。このURLはJOBS API URLリンクにあります。
    [CDE API token] (CDE APIトークン) API認証に使用したいCDEトークンを入力します。URLは [BASE_URL]/gateway/authtknという形式であることが必要です。詳細は、ClouderaのドキュメンテーションでCDE API access tokenをご覧ください。

    このプロパティは、[Auto generate token] (トークンを自動生成)チェックボックスがオフになっている場合のみ利用できます。

    [Auto generate token] (トークンを自動生成) ジョブを送信する前に新しいトークンを作成する場合は、このチェックボックスをオンにします。
    • [CDE token endpoint] (CDEトークンエンドポイント): 使用したいCDEトークンを入力します。
    • [Workload user] (ワークロードユーザー): 新しいトークンの生成に使用したいCDPワークロードを入力します。詳細は、ClouderaのドキュメンテーションでCDP workload userをご覧ください。
    • [Workload password] (ワークロードパスワード): ワークロードユーザーに関連付けられているパスワードを入力します。
    [Enable client debugging] (クライアントデバッギングを有効化) CDE APIクライアントのデバッグロギングが有効にする場合は、このチェックボックスをオンにします。
    [Override dependencies] (依存項目を上書き) Sparkに必要な依存項目を上書きする場合は、このチェックボックスをオンにします。
    [Job status/logs polling interval (in ms)] (ジョブステータス/ログのポーリング間隔(ミリ秒)) がジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。
    [Fetch driver logs] (ドライバーログをフェッチ) ドライバーログをフェッチする場合は、このチェックボックスをオンにします。チェックボックスをオンにすれば、次の情報をフェッチできます。
    • [Standard output] (標準出力)
    • [Error output] (エラー出力)
    [Advanced parameters] (詳細パラメーター) 次のCDE APIパラメーターを入力する場合は、このチェックボックスをオンにします。
    • [Number of executors] (エグゼキューターの数): エグゼキューターの数を入力します。
    • [Driver cores] (ドライバーコア): ドライバーコアの数を入力します。
    • [Driver memory] (ドライバーメモリ): ドライバーによって使用されるメモリの割り当て量を入力します。
    • [Executor cores] (エグゼキューターコア): エグゼキューターコアの数を入力します。
    • [Executor memory] (エグゼキューターメモリ): 各エグゼキューターによって使用されるメモリの割り当て量を入力します。

タスクの結果

これで接続詳細が完全なものになったので、ジョブの実行をスケジュールしたり、すぐに実行したりできます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。