Accéder au contenu principal Passer au contenu complémentaire

Exécuter un Job avec Spark Universal

Spark Universal est un mécanisme permettant au Studio Talend d'être compatible avec toutes les distributions Big Data pour une version donnée de Spark. Vous choisissez une version de Spark et chargez un fichier JAR de configuration Hadoop contenant toutes les informations nécessaires à la connexion au cluster.

Lorsque vous utilisez Spark Universal dans le Studio Talend, seule la version 2.12 de Scala est supportée.

Modes Spark Universal et compatibilité des environnements

Le Studio Talend supporte les modes et environnements suivants, selon les versions de Spark :
Mode ou environnement Spark 2.4.x Spark 3.0.x Spark 3.1.x Spark 3.2.x Spark 3.3.x Spark 3.4.x Spark 3.5.x
Local mode Supporté Supporté Supporté Supporté Supporté Supporté Supporté
Standalone Non supporté Non supporté Non supportée Supporté Non supporté Supporté Non supporté
Mode Yarn cluster Supporté Supporté Supporté Supporté Supportée Non supporté Non supporté
Databricks Non supporté Non supportée Supporté Supporté Supporté Supportée Non supporté
Dataproc Non supporté Non supportée Supporté Supporté Supportée Non supporté Non supporté
Cloudera Data Engineering Non supporté Non supportée Supporté Supportée Non supporté Non supporté Non supporté
Kubernetes Non supporté Non supportée Supporté Non supporté Non supporté Non supporté Non supporté
Spark-submit scripts (Scripts Spark-submit) Non supporté Non supporté Non supporté Non supportée Supporté Non supporté Non supporté
Synapse Non supporté Non supporté Non supportée Supporté Supportée Non supporté Non supporté
HDInsight Non supporté Non supportée Supporté Non supporté
Availability-noteBeta
Supporté
Non supporté Non supporté
EMR Serverless Non supporté Non supporté Non supportée Supporté Supportée Non supporté Non supporté
Note InformationsRemarque :
  • Azure Synapse Analytics avec Spark Universal 3.2.x et 3.3.x est supporté uniquement dans les Jobs Spark Batch.
  • Les scripts Spark-submit avec Spark Universal 3.3.x sont supportés uniquement dans les Jobs Spark Batch.

Support des distributions Spark Universal

Le Studio Talend supporte les distributions suivantes en mode Yarn cluster (Cluster YARN), selon les versions de Spark :
Version de Spark Distributions supportées en mode Yarn cluster (Cluster YARN)
Spark 2.4.x
  • Amazon EMR 5.2.x et supérieures
  • Availability-noteDeprecated
    CDH 6.x
  • Availability-noteDeprecated
    HDP 3.x
Spark 3.0.x
  • Amazon EMR 6.2
  • CDP 7.1
Spark 3.1.x
  • Amazon EMR 6.3.x, 6.4.x et 6.5.x
Spark 3.2.x
  • Amazon EMR 6.6.0 et 6.7.0
Spark 3.3.x
  • Amazon EMR 6.8.0, 6.9.0 et 6.10.0
  • CDP Private Cloud Base 7.1.8 et 7.1.9
  • CDP Public Cloud Data Hub 7.2.17
Par exemple, si vous souhaitez vous connecter à un cluster Amazon EMR 6.2, vous devez sélectionner la version Spark 3.0.x et charger le fichier JAR de configuration Hadoop contenant tous les fichiers *-site.xml associés au cluster.

Cette liste de distributions n'est pas exhaustive. Vous pouvez utiliser un cluster YARN avec d'autres distributions si la version de Spark correspond. Cependant, gardez à l'esprit que ces configurations n'ont pas été officiellement testées par Talend et que leur fonctionnement n'est pas garanti.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.