SparkジョブのAzure Databricks接続パラメーターを定義
ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブでDatabricks接続設定を完了します。この設定はジョブごとに有効です。
このセクションの情報は、Talend Data Fabric、またはビッグデータ関連のTalend製品のいずれかにサブスクライブしているユーザーのみが対象です。
始める前に
- Spark Streamingジョブを実行する場合、同じDatabricksクラスター上で実行できるジョブは一度に1つだけです。
- Spark Batchジョブの実行時に、[Do not restart the cluster when submitting] (送信時にクラスターを再起動しない)チェックボックスをオンにした場合のみ、複数のジョブを送信して同じDatabricksクラスターで並行して実行できます。そうしないと、実行ごとにクラスターが自動的に再起動されるため、並行して起動されたジョブが互いに割り込みや実行エラーが発生します。
手順
タスクの結果
ジョブを耐障害性にする必要がある場合は、[Activate checkpointing] (チェックポイントを有効化)チェックボックスをオンにしてSparkチェックポイントオペレーションを有効にします。メタデータなどの計算のコンテキストデータ、この計算から生成されたRDDをSparkが保存する、クラスターのファイルシステム内のディレクトリーを、表示されたフィールドに入力します。
Sparkチェックポイント操作に関する詳細は、の公式Sparkドキュメンテーション (英語のみ)をご覧ください。