SparkジョブのためのAWS Qubole接続パラメーターを定義
ジョブの[Run] (実行)ビューの[Spark configuration] (Sparkの設定)で、Qubole接続の設定を完了します。この構成は、ジョブごとに有効です。
Quboleは、従来式のデータ統合フレームワーク(the Standard framework)およびSparkフレームワークでのみサポートされています。
このセクションの情報は、Talend Data Fabric、またはビッグデータ関連のTalend製品のいずれかにサブスクライブしているユーザーのみが対象です。
始める前に
- ここまででAWSでQuboleクラスターを正しく設定しているはずです。この方法は、Quboleドキュメントの『Getting Started with Qubole on AWS』を参照してください。
- 使用するAWSアカウントで使用するS3バケットに対する適切な読み書き権限があることを確認します。詳細は、Quboleシステムの管理者に問い合わせるか、Quboleドキュメントの「Cross-account IAM Role for QDS(QDSのクロスアカウントIAMロール)」を参照してください。
- 使用するAWSアカウントで使用するS3バケットに対する適切な読み書き権限があることを確認します。AWSシステムの管理者に問い合わせてご確認ください。
手順
タスクの結果
-
接続の設定後、必須ではありませんがSparkのパフォーマンスを調整できます。調整する場合は、以下に記載のプロセスに従います。
-
Spark BatchジョブであればApache Spark Batchジョブ用にSparkを調整
-
Spark StreamingジョブであればApache Spark Streamingジョブ用にSparkを調整
-
-
ジョブを耐障害性にする必要がある場合は、[Activate checkpointing] (チェックポイントを有効化)チェックボックスをオンにしてSparkチェックポイントオペレーションを有効にします。メタデータなどの計算のコンテキストデータ、この計算から生成されたRDDをSparkが保存する、クラスターのファイルシステム内のディレクトリーを、表示されたフィールドに入力します。
Sparkチェックポイント操作に関する詳細は、の公式Sparkドキュメンテーションをご覧ください。