Configurer les paramètres de connexion à Cloudera
Terminez la configuration de la connexion Cloudera dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.
Si vous ne trouvez pas la version de Cloudera ou Hortonworks à utiliser dans la liste déroulante Version, vous pouvez ajouter votre distribution dans les paramètres de distributions dynamiques dans le Studio.
- Sur la liste des versions de distribution, certaines versions ont un libellé Builtin. Ces versions ont été ajoutées par Talend via le mécanisme de distribution dynamique et livrées avec le Studio lors de sa sortie. Elles sont certifiées par Talend et sont donc officiellement supportées et prêtes à l'emploi.
Si vous ne trouvez pas la version de Cloudera à utiliser dans la liste déroulante, vous pouvez ajouter votre distribution dans les paramètres de distributions dynamiques dans le Studio.
- Sur la liste des versions de distribution, certaines versions ont un libellé Builtin. Ces versions ont été ajoutées par Talend via le mécanisme de distribution dynamique et livrées avec le Studio lors de sa sortie. Elles sont certifiées par Talend et sont donc officiellement supportées et prêtes à l'emploi.
Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.
Procédure
Résultats
-
Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :
-
Il est recommandé d'activer le système de log et de points de contrôle Spark, dans l'onglet de configuration de Spark, dans la vue Run de votre Job Spark, afin de permettre de déboguer et reprendre votre Job Spark lorsqu'une erreur survient :
-
Si vous utilisez Cloudera V5.5+ pour exécuter vos Jobs MapReduce ou vos Jobs Apache Spark Batch, vous pouvez utiliser Cloudera Navigator pour visualiser le lignage d'un flux de données en particulier pour découvrir comment ces données sont générées par un Job.