Spark UniversalでEMR Serverless接続パラメーターを定義

このタスクについて

はEMR Serverlessに接続して、そのクラスターからジョブを実行します。

手順

デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
[Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
[Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストから EMR Serverlessをそれぞれ選択します。
設定の基本情報を入力します:

EMR Serverlessの設定情報を入力します:

パラメーター	使用方法
[AWS role ARN] (AWSロールARN)	SparkジョブがAWSリソースにアクセスするために必要な権限を付与する、IAMロールのARNを指定します。
[AWS access key] (AWSアクセスキー)	AWSサービスでSparkジョブを認証するためのアクセスキーIDを入力します。
[AWS region] (AWSリージョン)	Sparkジョブが実行され、AWSリソースがアクセスされる地理的リージョンを指定します。
[AWS secret key] (AWSシークレットキー)	AWSサービスでSparkジョブを認証するためのシークレットアクセスキーを入力します。
]AWS session token] (AWSセッショントークン)	AWSサービスでSparkジョブを認証するための一時セッショントークンを入力します。
[Thread pool size for deployments tasks] (デプロイメントタスク用のスレッドプールサイズ)	デプロイメント操作の実行に使用する同時スレッドの最大数を設定します。
[AWS socket timeout in ms] (AWSソケットのタイムアウト(ミリ秒))	SparkジョブがAWSサービスからのレスポンスを待機する最大時間(ミリ秒)を設定します。この時間を超えると、タイムアウトが発生します。
[AWS connection timeout in ms] (AWS接続のタイムアウト(ミリ秒))	SparkジョブがAWSサービスとの接続を確立するまで待機する最大時間(ミリ秒)を設定します。この時間を超えると、タイムアウトが発生します。
[EMR application deployment timeout in ms] (EMRアプリケーションデプロイメントのタイムアウト(ミリ秒))	SparkジョブがEMRアプリケーションのデプロイメントを待機する最大時間(ミリ秒)を設定します。この時間を超えると、タイムアウトが発生します。
[S3 JAR upload timeout in ms] (S3 JARアップロードのタイムアウト(ミリ秒))	SparkジョブがAmazon S3へのJARファイルのアップロードを待機する最大時間(ミリ秒)を設定します。この時間を超えると、タイムアウトが発生します。
[Deploy new application] (新しいアプリケーションをデプロイ)	このチェックボックスをオンにすると、Sparkジョブで既存のアプリケーションを使用する代わりに、新しいEMR Serverlessアプリケーションを自動的にデプロイできるようになります。
[Application ID] (アプリケーションID)	Sparkジョブの実行に使用するEMR Serverlessアプリケーションの一意識別子を指定します。
[AWS S3 bucket name] (AWS S3バケット名)	Sparkジョブがデータを保存および取得するAmazon S3バケットの名前を指定します。
[AWS S3 key] (AWS S3キー)	Amazon S3バケットでオブジェクトキー(パスとファイル名)を指定します。Sparkジョブは、このバケットでファイルを保存または取得します。

タスクの結果

これで接続詳細が完全なものになったので、Sparkジョブの実行をスケジュールしたり、すぐに実行したりできます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください