Databricksクラスターについて
このセクションの情報は、ファイルまたはビッグデータのユーザーのみが対象です。または、AzureとAWSの両方のDatabricksディストリビューションでSparkジョブを実行するユーザーのみを対象としています。
Databricksクラスターとは、Spark Streaming、Spark Batchジョブを実行できる計算のリソースと設定のセットのことです。Talend Studioの場合、Sparkジョブは汎用クラスターかジョブクラスターのいずれかで実行可能です。
情報メモ注: デフォルトでは、Sparkジョブは汎用クラスターで実行されます。この操作は、Sparkジョブの[Run] (実行)ビューにあるSpark設定タブで管理できます。詳細は、SparkジョブのAzure Databricks接続パラメーターの定義をご覧ください。
Talend Studioの対話型クラスターでジョブを実行する場合は、基本的にどのワークロードでも実行できます。対話型クラスターは永続的に作成されますが、必要であれば手動で終了して再起動できます。複数のユーザーでこのようなクラスターを共有し、共同でインタラクティブな分析を行うことができます。
Talend Studioのジョブクラスターでジョブを実行する場合は、ジョブの処理がより高速になり、処理の終了後クラスターが自動シャットダウンするため、使用コストが削減されます。ジョブクラスターはSpark設定に従って作成され、シャットダウンすると再起動できなくなります。