Définir les paramètres de connexion EMR avec Spark Universal
Pourquoi et quand exécuter cette tâche
Le se connecte à un cluster EMR pour exécuter le Job depuis ce cluster.
Procédure
Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
Sélectionnez Built-in dans la liste déroulante Property type.
Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
Note InformationsConseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
Sélectionnez Universal dans la liste déroulante Distribution, la version Spark de votre choix dans la liste déroulante Version et EMR dans la liste déroulante Runtime mode/environment (Mode/environnement du Runtime).
Saisissez le chemin du fichier JAR de configuration Hadoop avec les paramètres de connexion pour votre cluster Cloudera.
Le fichier JAR contient toutes les informations nécessaires pour établir une connexion à tous les fichiers *-site.xml du cluster.
Le fichier JAR doit inclure les fichiers XML suivants :
hdfs-site.xml
core-site.xml :
yarn-site.xml :
mapred-site.xml
Si vous utilisez des composants Hive ou HBase, le fichier JAR doit inclure, en plus et respectivement, les fichiers XML suivants :
hive-site.xml
hbase-site.xml
Saisissez les informations simples de configuration :
Paramètre
Utilisation
Use custom classpath
Cochez cette case pour spécifier les entrées des classpath supplémentaires pour les Jobs Spark, vous permettant d'inclure des bibliothèques et dépendances personnalisées lorsque vous effectuez des exécutions sur un cluster YARN.
Résultats
Les informations de connexion sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job Spark ou à l'exécuter immédiatement.
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.