Accéder au contenu principal Passer au contenu complémentaire

Définir les paramètres de connexion au cluster YARN avec Spark Universal

Pourquoi et quand exécuter cette tâche

Le se connecte à un cluster YARN afin d'exécuter le Job depuis ce cluster.

Procédure

  1. Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
  2. Sélectionnez Built-in dans la liste déroulante Property type.
    Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
    Note InformationsConseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
  3. Sélectionnez Universal dans la liste déroulante Distribution, la version Spark de votre choix dans la liste déroulante Version et Yarn cluster (Cluster YARN) dans la liste déroulante Runtime mode/environment (Mode/environnement du Runtime).
  4. Saisissez le chemin du fichier JAR de configuration Hadoop avec les paramètres de connexion pour votre cluster Cloudera.
    Le fichier JAR contient toutes les informations nécessaires pour établir une connexion à tous les fichiers *-site.xml du cluster.
    Vue Spark Configuration (Configuration de Spark) ouverte avec le chemin d'accès au fichier JAR de configuration personnalisée d'Hadoop sélectionné.
    Le fichier JAR doit inclure les fichiers XML suivants :
    • hdfs-site.xml
    • core-site.xml :
    • yarn-site.xml :
    • mapred-site.xml
    Si vous utilisez des composants Hive ou HBase, le fichier JAR doit inclure, en plus et respectivement, les fichiers XML suivants :
    • hive-site.xml
    • hbase-site.xml
  5. Saisissez les informations simples de configuration :
    Paramètre Utilisation
    Use custom classpath Cochez cette case pour spécifier les entrées des classpath supplémentaires pour les Jobs Spark, vous permettant d'inclure des bibliothèques et dépendances personnalisées lorsque vous effectuez des exécutions sur un cluster YARN.

Résultats

Les informations de connexion sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job Spark ou à l'exécuter immédiatement.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.