Spark UniversalでHDInsight接続パラメーターを定義

このタスクについて

はHDInsightクラスターに接続して、そのクラスターからジョブを実行します。

手順

デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
[Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
[Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからHDInsightをそれぞれ選択します。
HDInsightに接続するための基本的な設定情報を入力します:
1. [Username] (ユーザー名): HDInsightクラスターのユーザー名を入力します。
2. [Password] (パスワード): HDInsightクラスターのパスワードを入力します。
Livy用の基本的な設定情報を入力します:
1. [Hostname] (ホスト名): HDInsightクラスターのURLを入力します。
2. [Port] (ポート): ポート番号を入力します。デフォルト値は443です。
3. [Username] (ユーザー名): クラスターの作成時に定義したユーザー名を入力します。これは、クラスターの[SSH + Cluster] (SSH + クラスター)ログインブレードで確認できます。
ジョブステータスポーリングの設定を入力:
1. [Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒)): がジョブのステータスをSparkに要求する時間間隔(ミリ秒)を入力します。
2. [Maximum number of consecutive statuses missing] (見つからないステータスの最大連続回数): ステータスの応答がない場合に、がステータス取得を再試行する最大回数を入力します。

Windows Azure Storageの構成情報を入力します:

パラメーター	使用方法
[Primary storage] (プライマリーストレージ)	ジョブをデプロイするストレージのタイプをドロップダウンリストから選択します: ADLS Gen2 Azure Storage
[Authentication mode] (認証モード)	使用する認証タイプをドロップダウンリストから選択します: Azure Active Directory [Secret key] (シークレットキー) 共有アクセス署名
[Hostname] (ホスト名)	Azure StorageアカウントのプライマリーBlobサービスエンドポイントを入力します。このエンドポイントは、ストレージアカウントの[Properties] (プロパティ)ブレードにあります。
[Container] (コンテナー)	使用するコンテナーの名前を入力します。利用可能なコンテナーは、使用するAzure StorageアカウントのBlobブレードで確認できます。
[Directory ID] (ディレクトリーID)	ディレクトリーIDを入力します。このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。
[Application ID] (アプリケーションID)	アプリケーションIDを入力します。このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。
[Client key] (クライアントキー)	クライアントキーを入力します。このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。
SASトークン	ストレージコンテナーの共有アクセス署名(SAS)トークンを入力します。SAS ークンの生成方法の詳細は、MicrosoftのドキュメンテーションでCreate SAS tokens for your storage containersをご覧ください。 SASトークンを使用する場合は、クラスターを設定する必要があります。詳細は、MicrosoftのドキュメンテーションでUse Azure Blob storage Shared Access Signatures to restrict access to data in HDInsightをご覧ください。このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストから[Shared Access Signature] (共有アクセス署名)を選択した場合のみ利用できます。
[Deployment Blob] (デプロイメントBlob)	ストレージアカウントで、現在のジョブとその依存ライブラリーを保存する場所を入力します。

設定の基本情報を入力します:

タスクの結果

これで接続詳細が完全なものになったので、Sparkジョブの実行をスケジュールしたり、すぐに実行したりできます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください