Spark UniversalでHDInsight接続パラメーターを定義
このタスクについて
はHDInsightクラスターに接続して、そのクラスターからジョブを実行します。
手順
- デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
-
[Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
- [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからHDInsightをそれぞれ選択します。
-
HDInsightに接続するための基本的な設定情報を入力します:
- [Username] (ユーザー名): HDInsightクラスターのユーザー名を入力します。
- [Password] (パスワード): HDInsightクラスターのパスワードを入力します。
-
Livy用の基本的な設定情報を入力します:
- [Hostname] (ホスト名): HDInsightクラスターのURLを入力します。
- [Port] (ポート): ポート番号を入力します。デフォルト値は443です。
- [Username] (ユーザー名): クラスターの作成時に定義したユーザー名を入力します。これは、クラスターの[SSH + Cluster] (SSH + クラスター)ログインブレードで確認できます。
-
ジョブステータスポーリングの設定を入力:
- [Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒)): がジョブのステータスをSparkに要求する時間間隔(ミリ秒)を入力します。
- [Maximum number of consecutive statuses missing] (見つからないステータスの最大連続回数): ステータスの応答がない場合に、がステータス取得を再試行する最大回数を入力します。
-
Windows Azure Storageの構成情報を入力します:
パラメーター 使用方法 [Primary storage] (プライマリーストレージ) ジョブをデプロイするストレージのタイプをドロップダウンリストから選択します: - ADLS Gen2
- Azure Storage
[Authentication mode] (認証モード) 使用する認証タイプをドロップダウンリストから選択します: - Azure Active Directory
- [Secret key] (シークレットキー)
- 共有アクセス署名
[Hostname] (ホスト名) Azure StorageアカウントのプライマリーBlobサービスエンドポイントを入力します。このエンドポイントは、ストレージアカウントの[Properties] (プロパティ)ブレードにあります。 [Container] (コンテナー) 使用するコンテナーの名前を入力します。利用可能なコンテナーは、使用するAzure StorageアカウントのBlobブレードで確認できます。 [Directory ID] (ディレクトリーID) ディレクトリーIDを入力します。 このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。
[Application ID] (アプリケーションID) アプリケーションIDを入力します。 このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。
[Client key] (クライアントキー) クライアントキーを入力します。 このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。
SASトークン ストレージコンテナーの共有アクセス署名(SAS)トークンを入力します。SAS ークンの生成方法の詳細は、MicrosoftのドキュメンテーションでCreate SAS tokens for your storage containersをご覧ください。 SASトークンを使用する場合は、クラスターを設定する必要があります。詳細は、MicrosoftのドキュメンテーションでUse Azure Blob storage Shared Access Signatures to restrict access to data in HDInsightをご覧ください。
このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストから[Shared Access Signature] (共有アクセス署名)を選択した場合のみ利用できます。
[Deployment Blob] (デプロイメントBlob) ストレージアカウントで、現在のジョブとその依存ライブラリーを保存する場所を入力します。 -
設定の基本情報を入力します: