Databricksクラスターについて

このセクションの情報は、ファイルまたはビッグデータのユーザーのみが対象です。または、AzureとAWSの両方のDatabricksディストリビューションでSparkジョブを実行するユーザーのみを対象としています。

Databricksクラスターとは、Spark Streaming、Spark Batchジョブを実行できる計算のリソースと設定のセットのことです。Talend Studioの場合、Sparkジョブは汎用クラスターかジョブクラスターのいずれかで実行可能です。

注: デフォルトでは、Sparkジョブは汎用クラスターで実行されます。この操作は、Sparkジョブの[Run] (実行)ビューにあるSpark設定タブで管理できます。詳細は、SparkジョブのAzure Databricks接続パラメーターの定義をご覧ください。

Talend Studioの汎用クラスターでジョブを実行する場合は、基本的にどのワークロードでも実行できます。対話型クラスターは永続的に作成されますが、必要であれば手動で終了して再起動できます。複数のユーザーでこのようなクラスターを共有し、共同でインタラクティブな分析を行うことができます。

Talend Studioのジョブクラスターでジョブを実行する場合は、ジョブの処理がより高速になり、処理の終了後クラスターが自動シャットダウンするため、使用コストが削減されます。ジョブクラスターはSpark設定に従って作成され、シャットダウンすると再起動できなくなります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。