SparkジョブのAzure Databricks接続パラメーターを定義
ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブでDatabricks接続設定を完了します。この設定はジョブごとに有効です。
このセクションの情報は、Talend Data Fabricまたはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーのみが対象です。
始める前に
- Spark Streamingジョブの実行時は、[Do not restart cluster when submitting] (送信時にクラスターを再起動しない)チェックボックスを選択した場合のみ、同じDatabricksクラスターで複数のジョブを並列実行できます。このチェックボックスをオフにすると、ジョブの実行中にrun failed with error message Driver of the cluster (01234-56789-cluster) was restarted during the runというエラーメッセージが表示され失敗します。
- Spark Batchジョブの実行時に、[Do not restart the cluster when submitting] (送信時にクラスターを再起動しない)チェックボックスをオンにした場合のみ、複数のジョブを送信して同じDatabricksクラスターで並行して実行できます。そうしないと、実行ごとにクラスターが自動的に再起動されるため、並行して起動されたジョブが互いに割り込みや実行エラーが発生します。
手順
タスクの結果
ジョブを耐障害性にする必要がある場合は、[Activate checkpointing] (チェックポイントを有効化)チェックボックスをオンにしてSparkチェックポイントオペレーションを有効にします。メタデータなどの計算のコンテキストデータ、この計算から生成されたRDDをSparkが保存する、クラスターのファイルシステム内のディレクトリーを、表示されたフィールドに入力します。
Sparkチェックポイント操作に関する詳細は、の公式Sparkドキュメンテーションをご覧ください。