メイン コンテンツをスキップする 補完的コンテンツへスキップ

Spark UniversalでHDInsight接続パラメーターを定義

このタスクについて

はHDInsightクラスターに接続して、そのクラスターからジョブを実行します。

手順

  1. デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
  2. [Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
    Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
    情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
  3. [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからHDInsightをそれぞれ選択します。
  4. HDInsightに接続するための基本的な設定情報を入力します:
    1. [Username] (ユーザー名): HDInsightクラスターのユーザー名を入力します。
    2. [Password] (パスワード): HDInsightクラスターのパスワードを入力します。
  5. Livy用の基本的な設定情報を入力します:
    1. [Hostname] (ホスト名): HDInsightクラスターのURLを入力します。
    2. [Port] (ポート): ポート番号を入力します。デフォルト値は443です。
    3. [Username] (ユーザー名): クラスターの作成時に定義したユーザー名を入力します。これは、クラスターの[SSH + Cluster] (SSH + クラスター)ログインブレードで確認できます。
  6. ジョブステータスポーリングの設定を入力:
    1. [Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒)): がジョブのステータスをSparkに要求する時間間隔(ミリ秒)を入力します。
    2. [Maximum number of consecutive statuses missing] (見つからないステータスの最大連続回数): ステータスの応答がない場合に、がステータス取得を再試行する最大回数を入力します。
  7. Windows Azure Storageの構成情報を入力します:
    パラメーター 使用方法
    [Primary storage] (プライマリーストレージ) ジョブをデプロイするストレージのタイプをドロップダウンリストから選択します:
    • ADLS Gen2
    • Azure Storage
    [Authentication mode] (認証モード) 使用する認証タイプをドロップダウンリストから選択します:
    • Azure Active Directory
    • [Secret key] (シークレットキー)
    • 共有アクセス署名
    [Hostname] (ホスト名) Azure StorageアカウントのプライマリーBlobサービスエンドポイントを入力します。このエンドポイントは、ストレージアカウントの[Properties] (プロパティ)ブレードにあります。
    [Container] (コンテナー) 使用するコンテナーの名前を入力します。利用可能なコンテナーは、使用するAzure StorageアカウントのBlobブレードで確認できます。
    [Directory ID] (ディレクトリーID) ディレクトリーIDを入力します。

    このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。

    [Application ID] (アプリケーションID) アプリケーションIDを入力します。

    このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。

    [Client key] (クライアントキー) クライアントキーを入力します。

    このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。

    SASトークン ストレージコンテナーの共有アクセス署名(SAS)トークンを入力します。SAS ークンの生成方法の詳細は、MicrosoftのドキュメンテーションでCreate SAS tokens for your storage containersをご覧ください。

    SASトークンを使用する場合は、クラスターを設定する必要があります。詳細は、MicrosoftのドキュメンテーションでUse Azure Blob storage Shared Access Signatures to restrict access to data in HDInsightをご覧ください。

    このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストから[Shared Access Signature] (共有アクセス署名)を選択した場合のみ利用できます。

    [Deployment Blob] (デプロイメントBlob) ストレージアカウントで、現在のジョブとその依存ライブラリーを保存する場所を入力します。
  8. 設定の基本情報を入力します:

タスクの結果

これで接続詳細が完全なものになったので、Sparkジョブの実行をスケジュールしたり、すぐに実行したりできます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。