メイン コンテンツをスキップする 補完的コンテンツへスキップ

におけるHadoopディストリビューションのSpark Universalサポート

Spark Universalは、と特定のSparkバージョンの全ビッグデータディストリビューションの互換性があるようにできるメカニズムです。Sparkバージョンを選択して、クラスターへの接続に必要な情報がすべて含まれているHadoop設定JARファイルをアップロードします。

でSpark Universalを使用する場合は、Scala 2.12のみがサポートされます。

情報メモ重要: Spark Streamingジョブの場合、はKafkaの特定のバージョンをサポートしておらず、Sparkが提供するKafkaブローカーのバージョン互換性に依存しています。サポートされているKafkaブローカーのバージョンは、使用するSparkのバージョンによって異なります。Sparkの各バージョンについて、は、Sparkが提供するKafkaブローカーのターゲットバージョンをサポートしています。現在のところ、はSparkとの互換性声明に依存しているため、Kafkaブローカーのバージョン0.10.0以降をサポートしています。詳細は、Sparkの公式ドキュメンテーションでSpark Streaming + Kafka Integration Guideをご覧ください。

Spark Universalのモードと環境をサポート

は、Sparkのバージョンに応じて、次のモードおよび環境をサポートしています。
モードまたは環境 Spark 2.4.x Spark 3.0.x Spark 3.1.x Spark 3.2.x Spark 3.3.x Spark 3.4.x Spark 3.5.x Spark 3.x Spark 4.0.x
Cloudera Data Engineering サポート対象外 サポート対象外 サポート サポート サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外
Cloudera Private Cloud サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート サポート対象外
Cloudera Public Cloud サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート サポート対象外
Databricks サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート
Availability-noteBeta
サポート
Dataproc サポート対象外 サポート対象外 サポート サポート対象外 サポート サポート対象外 サポート対象外 サポート サポート対象外
EMR サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート サポート対象外
EMR Serverless サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート サポート対象外
HDInsight サポート対象外 サポート対象外 サポート サポート対象外 サポート サポート対象外 サポート対象外 サポート対象外 サポート対象外
Kubernetes サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート サポート対象外
Livy Knox サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート サポート対象外
[Local] (ローカル) サポート対象外 サポート サポート サポート サポート サポート サポート サポート対象外 サポート
Spark-submitスクリプト サポート対象外 サポート対象外 サポート対象外 サポート対象外 サポート サポート対象外 サポート対象外 サポート対象外 サポート対象外
[Standalone] (スタンドアロン) サポート対象外 サポート対象外 サポート対象外 サポート サポート対象外 サポート サポート対象外 サポート対象外 サポート対象外
Synapse サポート対象外 サポート対象外 サポート対象外 サポート サポート サポート対象外 サポート対象外 サポート対象外 サポート対象外
[Yarn cluster] (Yarnクラスター) サポート サポート サポート サポート サポート サポート対象外 サポート
Availability-noteBeta
サポート
サポート対象外
情報メモ注:
  • Spark Universal 3.2.xと3.3.xによるAzure Synapse Analyticsの使用は、Spark Batchジョブのみでのサポートとなっています。
  • Spark Universal 3.3.xによるSpark-submitスクリプトはSpark Batchジョブでのみサポートされています。

Spark Universalディストリビューションをサポート

は、Sparkのバージョンに応じて、Yarnクラスターモードで次のディストリビューションをサポートしています。
Sparkバージョン [Yarn cluster] (Yarnクラスター)モードでサポートされているディストリビューション
Spark 2.4.x
  • Amazon EMR 5.2.x以降
  • Availability-noteDeprecated
    CDH 6.x
  • Availability-noteDeprecated
    HDP 3.x
Spark 3.0.x
  • Amazon EMR 6.2
  • CDP 7.1
Spark 3.1.x
  • Amazon EMR 6.3.x、6.4.x、6.5.x
Spark 3.2.x
  • Amazon EMR 6.6.0および6.7.0
Spark 3.3.x
  • Amazon EMR 6.8.0、6.9.0、6.10.0
  • CDP Private Cloud Base 7.1.8および7.1.9
  • JDK 11を伴うCDP Private Cloud Base 7.1.7 (Spark 3.2) SP1
Spark 3.5.x
  • Amazon EMR 7.x
  • CDP Private Cloud Base 7.3.1 SP1
Spark 3.x
  • CDP Private Cloud Base 7.3.1
たとえば、Amazon EMR 6.2クラスターに接続したい場合は、Spark 3.0バージョンを選択した後に、クラスターに関連する*-site.xmlファイルがすべて含まれるHadoop接続JARファイルをアップロードする必要があります。

このディストリビューションリストはすべてを網羅していません。Sparkのバージョンがマッチすれば他のディストリビューションでもYarn clusterを使用できますが、によって公式にテストされていないため動作が保証されることはありません。

情報メモ注: CDP Private Cloudディストリビューションの場合、Spark UniversalでCloudera Private Cloudという専用のランタイムモードが利用できます。
は、Livy Knoxモードで次のディストリビューションをサポートしています。
Sparkバージョン Livy Knoxモードでサポートされているディストリビューション
Spark 3.x
  • CDP Public Cloud Data Hub 7.2.17と7.2.18
  • CDP Public Cloud 7.3

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。