Définir les paramètres de connexion à Amazon EMR Serverless avec Spark Universal

Pourquoi et quand exécuter cette tâche

Le Studio Talend se connecte à EMR Serverless afin d'exécuter le Job depuis ce cluster.

Procédure

Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
Sélectionnez Built-in dans la liste déroulante Property type.
Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
Note InformationsConseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
Sélectionnez Universal dans la liste déroulante Distribution, la version Spark de votre choix dans la liste déroulante Version et EMR Serverless dans la liste déroulante Runtime mode/environment (Mode/environnement du Runtime).
Si vous exécutez votre Job Spark sous Windows, spécifiez l'emplacement du programme winutils.exe :
- Si vous souhaitez utiliser votre propre fichier winutils.exe, cochez la case Define the Hadoop home directory (Définir le répertoire Home Hadoop) et saisissez son chemin d'accès.
- Sinon, laissez la case Define the Hadoop home directory décochée. Le Studio Talend va générer un répertoire et l'utiliser automatiquement pour ce Job.

Saisissez les informations simples de configuration :

Paramètre	Utilisation
Use local timezone	Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Note InformationsRemarque : Si vous décochez cette case, Spark utilise le fuseau horaire UTC. Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components	Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances. Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité. Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD. Note InformationsImportant : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
Use timestamp for dataset components	Cochez cette case pour utiliser java.sql.Timestamp pour les dates. Note InformationsRemarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
Parallelize output files writing (Paralléliser l'écriture des fichiers de sortie)	Cochez cette case pour permettre au Job Spark Batch d'exécuter plusieurs threads en parallèle lors de l'écriture de fichiers de sortie. Cette option améliore les performances du temps d'exécution. Lorsque vous laissez cette case décochée, les fichiers de sortie sont écrits en séquence dans un thread. Au niveau des sous-Jobs, chacun est traité en séquence. Seul le fichier de sortie contenu dans le sous-Job est parallélisé. Cette option est disponible uniquement pour les Jobs Spark Batch contenant les composants de sortie suivants : tAvroOutput tFileOutputDelimited (uniquement lorsque la case Use dataset API in migrated components (Utiliser l'API Dataset dans les composants migrés) est cochée) tFileOutputParquet Note InformationsImportant : Pour éviter les problèmes de mémoire au cours de l'exécution du Job, vous devez prendre en compte la taille des fichiers en cours d'écriture et la capacité de l'environnement d’exécution utilisant ce paramètre.

Saisissez les informations de configuration d'EMR Serverless :

Paramètre	Utilisation
AWS role ARN (Rôle ARN AWS)	Spécifiez l'ARN du rôle IAM attribuant à vos Jobs Spark les autorisations nécessaires pour accéder aux ressources AWS.
AWS access Key (Clé d'accès AWS)	Fournissez l'ID de la clé d'accès pour l'authentification de vos Jobs Spark aux services AWS.
AWS region (Région AWS)	Spécifiez la région géographique dans laquelle vos Jobs Spark s'exécutent et dans laquelle les ressources AWS sont utilisées.
AWS secret Key	Fournissez la clé d'accès secrète pour l'authentification de vos Jobs Spark aux services AWS.
AWS session token (Jeton de session AWS)	Fournissez le jeton de session temporaire pour l'authentification de vos Jobs Spark aux services AWS.
Thread pool size for deployments tasks (Taille du pool de threads pour les tâches de déploiement)	Configurez le nombre maximal de threads simultanés utilisés pour exécuter les opérations de déploiement.
AWS socket timeout in ms (Délai avant expiration du socket AWS en ms)	Configurez la période maximale de temps, en millisecondes, durant laquelle vos Jobs Spark attendent une réponse des services AWS avant leur expiration.
AWS connection timeout in ms (Délai avant expiration de la connexion AWS en ms)	Configurez la période maximale de temps, en millisecondes, durant laquelle vos Jobs Spark attendent l'établissement d'une connexion aux services AWS avant leur expiration.
EMR application deployment timeout in ms (Délai avant expiration en ms du déploiement d'applications EMR)	Configurez la période maximale de temps, en millisecondes, durant laquelle vos Jobs Spark attendent le déploiement d'une application EMR avant leur expiration.
S3 JAR upload timeout in ms (Délai avant expiration en ms du chargement de JAR S3)	Configurez la période maximale de temps, en millisecondes, durant laquelle vos Jobs Spark attendent le chargement des fichiers JAR vers Amazon S3 avant leur expiration.
Deploy new application (Déployer une nouvelle application)	Cochez cette case pour activer le déploiement automatique d'une nouvelle application EMR Serverless pour vos Jobs Spark, plutôt que d'utiliser une application existante.
Application ID (ID de l'application)	Spécifiez l'identifiant unique de l'application EMR Serverless utilisée pour exécuter vos Jobs Spark.
AWS S3 bucket name (Nom du bucket AWS S3)	Spécifiez le nom du bucket Amazon S3 dans lequel vos Jobs Spark stockent et récupèrent les données.
AWS S3 key (Clé AWS S3)	Spécifiez la clé de l'objet (chemin et nom de fichier) de votre bucket Amazon S3 dans lequel vos Jobs Spark stockent ou récupèrent des fichiers.

Dans le champ Spark "scratch" directory, saisissez le chemin du répertoire local dans lequel le Studio Talend stocke les fichiers temporaires.
Si vous exécutez votre Job sous Windows, le disque par défaut est C:. Laisser /tmp dans ce champ utilise C:/tmp comme répertoire.
Pour rendre votre Job résistant aux échecs, sélectionnez Activate checkpointing (Activer les points de contrôle) pour activer l'opération de points de contrôle Spark.
Dans le champ Checkpoint directory (Répertoire des points de contrôle), saisissez le chemin d'accès au fichier système du cluster dans lequel Spark enregistre les données de contexte, comme les métadonnées et les RDD générés.
Dans la table Advanced properties (Propriétés avancées), ajoutez toute propriété Spark dont vous souhaitez écraser la valeur par défaut configurée par le Studio Talend.
Cochez la case Use Atlas (Utiliser Atlas) pour suivre le lignage de données, voir les composants des Jobs Spark et tracer les modifications de schéma entre les composants.
Cette option est disponible uniquement pour Spark Universal 3.3.x.
Lorsque cette option est activée, vous devez configurer les paramètres suivants :
- Atlas URL (URL Atlas) : saisissez l'adresse de votre instance Atlas, par exemple http://name_of_your_atlas_node:port.
- Dans les champs Username et Password, saisissez respectivement les informations d'authentification pour accéder à Atlas.
- Set Atlas configuration folder (Définir le dossier de configuration Atlas) : cochez cette case si votre cluster Atlas utilise des propriétés personnalisées comme le SSL ou le délai avant expiration de la lecture. Dans le champ qui s'affiche, saisissez le chemin vers un répertoire local contenant votre fichier atlas-application.properties. Votre Job va utiliser ces propriétés personnalisées.
  
  Demandez ce fichier de configuration à l'administrateur·trice de votre cluster. Pour plus d'informations, consultez la section Client Configs dans la page Atlas configuration (uniquement en anglais) (en anglais).
- Die on error : cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des erreurs de connexion. Décochez cette case pour que votre Job continue à s'exécuter.

Résultats

Les informations de connexion sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job Spark ou à l'exécuter immédiatement.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici