Spark Universalを使ってジョブを実行
Spark Universalは、Talend Studioと特定のSparkバージョンの全ビッグデータディストリビューションの互換性があるようにできるメカニズムです。Sparkバージョンを選択して、クラスターへの接続に必要な情報がすべて含まれているHadoop設定JARファイルをアップロードします。
Spark Universalのモードと環境をサポート
Talend Studioは、Sparkのバージョンに応じて、次のモードおよび環境をサポートしています。
モードまたは環境 | Spark 2.4.x | Spark 3.0.x | Spark 3.1.x | Spark 3.2.x | Spark 3.3.x | Spark 3.4.x |
---|---|---|---|---|---|---|
[Local mode] (ローカルモード) | サポート | サポート | サポート | サポート | サポート | サポート |
[Standalone] (スタンドアロン) | サポート対象外 | サポート対象外 | サポート対象外 | サポート | サポート対象外 | サポート |
[Yarn cluster mode] (Yarnクラスターモード) | サポート | サポート | サポート | サポート | サポート | サポート対象外 |
Databricks | サポート対象外 | サポート対象外 | サポート | サポート | サポート | サポート |
Dataproc | サポート対象外 | サポート対象外 | サポート | サポート | サポート | サポート対象外 |
Cloudera Data Engineering | サポート対象外 | サポート対象外 | サポート | サポート | サポート対象外 | サポート対象外 |
Kubernetes | サポート対象外 | サポート対象外 | サポート | サポート対象外 | サポート対象外 | サポート対象外 |
Spark-submitスクリプト | サポート対象外 | サポート対象外 | サポート対象外 | サポート対象外 | サポート | サポート対象外 |
Synapse | サポート対象外 | サポート対象外 | サポート対象外 | サポート | サポート | サポート対象外 |
HDInsight | サポート対象外 | サポート対象外 | サポート | サポート対象外 | サポート対象外 | サポート対象外 |
EMR Serverless | サポート対象外 | サポート対象外 | サポート対象外 | サポート | サポート | サポート対象外 |
情報メモ注:
- Spark Universal 3.2.xと3.3.xによるAzure Synapse Analyticsの使用は、Spark Batchジョブのみでのサポートとなっています。
- Spark Universal 3.3.xによるSpark-submitスクリプトはSpark Batchジョブでのみサポートされています。
Spark Universalディストリビューションをサポート
Talend Studioは、Sparkのバージョンに応じて、Yarnクラスターモードで次のディストリビューションをサポートしています。
たとえば、Amazon EMR 6.2クラスターに接続したい場合は、Spark 3.0バージョンを選択した後に、クラスターに関連する*-site.xmlファイルがすべて含まれるHadoop接続JARファイルをアップロードする必要があります。
Sparkバージョン | [Yarn cluster] (Yarnクラスター)モードでサポートされているディストリビューション |
---|---|
Spark 2.4.x |
|
Spark 3.0.x |
|
Spark 3.1.x |
|
Spark 3.2.x |
|
Spark 3.3.x |
|
このディストリビューションリストはすべてを網羅していません。Sparkのバージョンが一致すれば他のディストリビューションでもYarn clusterを使用できますが、Talendによって公式にテストされていないため動作が保証されることはありません。