Spark UniversalでDataproc接続パラメーターを定義
このタスクについて
はDataprocクラスターに接続し、そのクラスターからジョブを実行します。
手順
- デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
-
[Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
- [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからDataprocをそれぞれ選択します。
-
設定の基本情報を入力します:
-
Dataprocパラメーターを完成させます:
パラメーター 使用方法 [Project ID] (プロジェクトID) Google Cloud PlatformプロジェクトのIDを入力します。 [Cluster ID] (クラスターID) 使用するDataprocクラスターのIDを入力します。 [Region] (リージョン) 使用するGoogle Cloudリージョンの名前を入力します。 [Google Storage staging bucket] (Googleストレージステージングバケット) ジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるよう、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。 [Provide Google Credentials] (Googleクレデンシャルを指定) Google Cloud SDKがインストールされていて、Google Cloud Platformへのアクセスにユーザーアカウント認証情報を使用することが許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。 [Credential type] (認証情報のタイプ) プロジェクトの認証に使用されるモードを選択します。 - [Service account] (サービスアカウント): Google Cloud Platformプロジェクトに関連付けられているGoogleアカウントを使用して認証します。このモードを選択した場合、定義されるパラメーターは[Path to Google Credentials file] (Googleクレデンシャルファイルへのパス)です。
- [OAuth2 Access Token] (OAuth2アクセストークン): OAuth認証情報を使用してアクセスを認証します。このモードを選択した場合、定義されるパラメーターは[OAuth2 Access Token] (OAuth2アクセストークン)です。
[Service account] (サービスアカウント) 使用するユーザーアカウントに関連付けられている認証情報ファイルのパスを入力します。このファイルはジョブが実際に起動および実行されるコンピューターに保管されている必要があります。 [OAuth2 Access Token] (OAuth2アクセストークン) アクセストークンを入力します。 情報メモ重要: このトークンの有効期間は1時間のみです。はトークン更新操作を行わないため、1時間の制限を超える新しいトークンを再生成する必要があります。Google Developers OAuth PlaygroundでOAuthアクセストークンを生成するには、BigQuery API v2にアクセスし、必要となる権限(bigquery、devstorage.full_control、cloud-platform)をすべて選択します。
-
Databricksの設定情報を入力します:
パラメーター 使用方法 [Max spot price] (最大スポット価格) このチェックボックスをオンにすると、Databricksが計算リソースをプロビジョニングする時に、Spotインスタンスに対して支払うことを承諾する1時間あたりの最大価格を指定できます。 [EBS volume type] (ESBボリュームタイプ) このチェックボックスをオンにすると、Databricksが計算リソースへのストレージプロビジョニングに使用するEBSボリュームのタイプを指定できます。 [Configure instance profile ARN] (インスタンスプロファイルARNを設定) このチェックボックスをオンにすると、Databricksが計算リソースのプロビジョニング時に使用するインスタンスプロファイルのARNを指定できます。