Spark UniversalでSpark-submitスクリプト接続パラメーターを定義

Spark-submitスクリプトモードでは、HPE Data Fabric v9.1.xクラスターを活用してSparkバッチジョブを実行できます。

詳細は、HPE Data Fabricドキュメンテーションをご覧ください。

このモードはHPE Data Fabric以外のクラスターでも使用できます。Sparkのドキュメンテーションのcluster managers (英語のみ)で説明されているとおり、これはSparkがサポートしているどのクラスタマネージャーで動作するようSpark-submitスクリプトがデザインされているためです。

手順

デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
[Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
[Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストから[Spark-submit scripts] (Spark-submitスクリプト)をそれぞれ選択します。
Spark-submitスクリプトが保存されているクラスターのディレクトリーへのパス(/opt/mapr/spark/spark-3.3.2など)を指定します。
設定の基本情報を入力します:

オプション: MapR Ticketを使用して認証する場合は、[Use MapR Ticket authentication] (MapRチケット認証を使用)チェックボックスをオンにし、以下の情報を入力します:

パラメーター	使用方法
[Password] (パスワード)	パスワードを入力してMapRチケットを認証します。
[Cluster name] (クラスター名)	使用したいクラスターの名前を入力します。
[Ticket duration] (チケットの有効期間)	チケットの有効期間(秒単位)を入力します。例: 86400L(Lは長整数に相当)
[Set the MapR home directory] (MapRホームディレクトリーを設定)	このチェックボックスをオンにして、MapRホームディレクトリーのパスを入力します。
[Specify the Hadoop login configuration] (Hadoopログイン設定を指定)	このチェックボックスをオンにして、Hadoopログインを入力します。

タスクの結果

これで接続詳細が完全なものになったので、Sparkジョブの実行をスケジュールしたり、すぐに実行したりできます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください