Définir les paramètres de connexion à Cloudera Data Engineering avec Spark Universal
Pourquoi et quand exécuter cette tâche
Le Studio Talend se connecte au service Cloudera Data Engineering (CDE) pour exécuter le Job Spark depuis ce cluster.
Procédure
- Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
-
Sélectionnez Built-in dans la liste déroulante Property type.
Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.Note InformationsConseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
- Sélectionnez Universal dans la liste déroulante Distribution, la version Spark de votre choix dans la liste déroulante Version et Cloudera Data Engineering dans la liste déroulante Runtime mode/environment (Mode/environnement du Runtime).
-
Si vous exécutez votre Job Spark sous Windows, spécifiez l'emplacement du programme winutils.exe :
- Si vous souhaitez utiliser votre propre fichier winutils.exe, cochez la case Define the Hadoop home directory (Définir le répertoire Home Hadoop) et saisissez son chemin d'accès.
- Sinon, laissez la case Define the Hadoop home directory décochée. Le Studio Talend va générer un répertoire et l'utiliser automatiquement pour ce Job.
-
Saisissez les informations simples de Configuration :
Paramètre Utilisation Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Note InformationsRemarque :- Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
- Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : - Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
- Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD.
Note InformationsImportant : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates. Note InformationsRemarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.Batch size (ms) Saisissez l'intervalle de temps à la fin duquel le Job Spark Streaming revoit la source de données pour identifier les modifications et traite les nouveaux micro-batchs. Define a streaming timeout (ms) Cochez cette case et, dans le champ qui s'affiche, saisissez la période de temps à la fin de laquelle le Job Spark Streaming s'arrête automatiquement. Note InformationsRemarque : Si vous utilisez Windows 10, il est recommandé de configurer un délai avant expiration raisonnable pour éviter que Windows Service Wrapper rencontre un problème lors de l'envoi d'un signal d'arrêt depuis les applications Java. Si vous rencontrez cette erreur, vous pouvez annuler l'exécution du Job manuellement, depuis votre espace de travail Azure Synapse Analytics.Parallelize output files writing (Paralléliser l'écriture des fichiers de sortie) Cochez cette case pour permettre au Job Spark Batch d'exécuter plusieurs threads en parallèle lors de l'écriture de fichiers de sortie. Cette option améliore les performances du temps d'exécution. Lorsque vous laissez cette case décochée, les fichiers de sortie sont écrits en séquence dans un thread.
Au niveau des sous-Jobs, chacun est traité en séquence. Seul le fichier de sortie contenu dans le sous-Job est parallélisé.
Cette option est disponible uniquement pour les Jobs Spark Batch contenant les composants de sortie suivants :- tAvroOutput
- tFileOutputDelimited (uniquement lorsque la case Use dataset API in migrated components (Utiliser l'API Dataset dans les composants migrés) est cochée)
- tFileOutputParquet
Note InformationsImportant : Pour éviter les problèmes de mémoire au cours de l'exécution du Job, vous devez prendre en compte la taille des fichiers en cours d'écriture et la capacité de l'environnement d’exécution utilisant ce paramètre. -
Renseignez les paramètres CDE configuration :
Paramètre Utilisation CDE API endpoint Saisissez l'endpoint de l'API CDE. Vous pouvez trouver l'URL depuis le lien JOBS API URL. CDE API token Saisissez le jeton CDE à utiliser pour l'authentification à l'API. L'URL doit respecter le format suivant : [BASE_URL]/gateway/authtkn. Pour plus d'informations, consultez CDE API access token dans la documentation Cloudera (en anglais). Cette propriété est disponible uniquement lorsque la case Auto generate token est décochée.
Auto generate token Cochez cette case pour créer un jeton avant de soumettre le Job. - CDE token endpoint : saisissez le jeton CDE à utiliser.
- Workload user : saisissez le nom d'utilisateur·trice de workload CDP à utiliser pour générer un jeton. Pour plus d'informations, consultez la CDP workload user dans la documentation Cloudera (en anglais).
- Workload password : saisissez le mot de passe associé à l'utilisateur·trice de workload.
Enable client debugging Cochez cette case pour activer le log de débogage pour le client d'API CDE. Override dependencies Cochez cette case pour écraser les dépendances requises pour Spark. Job status/logs polling interval (in ms) Saisissez l'intervalle de temps (en millisecondes) à la fin duquel vous souhaitez que le Studio Talend demande à Spark le statut de votre Job. Fetch driver logs Cochez cette case pour récupérer les logs du pilote lors de l'exécution. Vous pouvez choisir de récupérer les informations suivantes en cochant la case : - Standard output
- Error output
Advanced parameters Cochez cette case pour saisir les paramètres avancés d'API CDE suivants : - Number of executors : saisissez le nombre d'exécuteurs.
- Driver cores : saisissez le nombre de cœurs de pilotes.
- Driver memory : saisissez la taille de la mémoire à allouer à chaque pilote.
- Executor cores : saisissez le nombre de cœurs d'exécuteurs.
- Executor memory : saisissez la taille de la mémoire à allouer à chaque exécuteur.
-
Dans le champ Spark "scratch" directory, saisissez le chemin du répertoire local dans lequel le Studio Talend stocke les fichiers temporaires.
Si vous exécutez votre Job sous Windows, le disque par défaut est C:. Laisser /tmp dans ce champ utilise C:/tmp comme répertoire.
-
Pour rendre votre Job résistant aux échecs, sélectionnez Activate checkpointing (Activer les points de contrôle) pour activer l'opération de points de contrôle Spark.
Dans le champ Checkpoint directory (Répertoire des points de contrôle), saisissez le chemin d'accès au fichier système du cluster dans lequel Spark enregistre les données de contexte, comme les métadonnées et les RDD générés.
- Dans la table Advanced properties (Propriétés avancées), ajoutez toute propriété Spark dont vous souhaitez écraser la valeur par défaut configurée par le Studio Talend.
Résultats
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.