Support de Spark Universal pour les distributions Hadoop dans le

Spark Universal est un mécanisme permettant au d'être compatible avec toutes les distributions Big Data pour une version donnée de Spark. Vous choisissez une version de Spark et chargez un fichier JAR de configuration Hadoop contenant toutes les informations nécessaires à la connexion au cluster.

Lorsque vous utilisez Spark Universal dans le , seule la version 2.12 de Scala est supportée.

Important : Pour les Jobs Spark Streaming, le ne supporte pas de version spécifique de Kafka mais repose sur une compatibilité des versions du broker Kafka fournie par Spark. La version du broker Kafka supportée dépend de la version Spark que vous utilisez. Pour chaque version de Spark, le supporte la version du broker Kafka cible fournie par Spark. Aujourd'hui, le repose sur les compatibilité de Spark et supporte donc les versions 0.10.0 et supérieures du broker Kafka. Pour plus d'informations, consultez Spark Streaming + Kafka Integration Guide dans la documentation officielle de Spark (en anglais).

Modes Spark Universal et compatibilité des environnements

Le supporte les modes et environnements suivants, selon les versions de Spark :

Mode ou environnement	Spark 2.4.x	Spark 3.0.x	Spark 3.1.x	Spark 3.2.x	Spark 3.3.x	Spark 3.4.x	Spark 3.5.x	Spark 3.x	Spark 4.0.x
Cloudera Data Engineering	Non supporté	Non supportée	Supporté	Supportée	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté
Cloudera Private Cloud	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supportée	Supporté	Non supporté
Cloudera Public Cloud	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supportée	Supporté	Non supporté
Databricks	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supportée	Supporté	Availability-noteBeta Supporté
Dataproc	Non supporté	Non supportée	Supporté	Non supporté	Supporté	Non supporté	Non supportée	Supporté	Non supporté
EMR	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supportée	Supporté	Non supporté
EMR Serverless	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supportée	Supporté	Non supporté
HDInsight	Non supporté	Non supportée	Supporté	Non supporté	Supporté	Non supporté	Non supporté	Non supporté	Non supporté
Kubernetes	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supportée	Supporté	Non supporté
Livy Knox	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supporté	Non supportée	Supporté	Non supporté
local	Non supporté	Supporté	Supporté	Supporté	Supporté	Supporté	Supportée	Non supporté	Supporté
Spark-submit scripts (Scripts Spark-submit)	Non supporté	Non supporté	Non supporté	Non supportée	Supporté	Non supporté	Non supporté	Non supporté	Non supporté
Standalone	Non supporté	Non supporté	Non supportée	Supporté	Non supporté	Supporté	Non supporté	Non supporté	Non supporté
Synapse	Non supporté	Non supporté	Non supportée	Supporté	Supportée	Non supporté	Non supporté	Non supporté	Non supporté
YARN cluster	Supporté	Supporté	Supporté	Supporté	Supportée	Non supporté	Supporté	Availability-noteBeta Supportée	Non supporté

Remarque :

Azure Synapse Analytics avec Spark Universal 3.2.x et 3.3.x est supporté uniquement dans les Jobs Spark Batch.
Les scripts Spark-submit avec Spark Universal 3.3.x sont supportés uniquement dans les Jobs Spark Batch.

Support des distributions Spark Universal

Le supporte les distributions suivantes en mode Yarn cluster (Cluster YARN), selon les versions de Spark :

Version de Spark	Distributions supportées en mode Yarn cluster (Cluster YARN)
Spark 2.4.x	Amazon EMR 5.2.x et supérieures Availability-noteDeprecated CDH 6.x Availability-noteDeprecated HDP 3.x
Spark 3.0.x	Amazon EMR 6.2 CDP 7.1
Spark 3.1.x	Amazon EMR 6.3.x, 6.4.x et 6.5.x
Spark 3.2.x	Amazon EMR 6.6.0 et 6.7.0
Spark 3.3.x	Amazon EMR 6.8.0, 6.9.0 et 6.10.0 CDP Private Cloud Base 7.1.8 et 7.1.9 CDP Private Cloud Base 7.1.7 (Spark 3.2) SP1 avec JDK 11
Spark 3.5.x	Amazon EMR 7.x CDP Private Cloud Base 7.3.1 SP1
Spark 3.x	CDP Private Cloud Base 7.3.1.x

Par exemple, si vous souhaitez vous connecter à un cluster Amazon EMR 6.2, vous devez sélectionner la version Spark 3.0.x et charger le fichier JAR de configuration Hadoop contenant tous les fichiers *-site.xml associés au cluster.

Cette liste de distributions n'est pas exhaustive. Vous pouvez utiliser un cluster YARN avec d'autres distributions si la version de Spark correspond. Cependant, gardez à l'esprit que ces configurations n'ont pas été officiellement testées par et que leur fonctionnement n'est pas garanti.

Remarque : Pour les distributions CDP Private Cloud, un mode de Runtime dédié nommé Cloudera Private Cloud est disponible avec Spark Universal.

Le supporte les distributions suivantes en mode Livy Knox :

Version de Spark	Distributions supportées en mode Livy Knox
Spark 3.x	CDP Public Cloud Data Hub 7.2.17 et 7.2.18 CDP Public Cloud 7.3

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici

Support de Spark Universal pour les distributions Hadoop dans le

Modes Spark Universal et compatibilité des environnements

Support des distributions Spark Universal

Dans cette section

Cette page vous a-t-elle aidé ?