Définir les paramètres de connexion Kubernetes avec Spark Universal

Procédure

Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
Sélectionnez Built-in dans la liste déroulante Property type.
Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
Note InformationsConseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
Sélectionnez Universal dans la liste déroulante Distribution, la version Spark de votre choix dans la liste déroulante Version et Kubernetes dans la liste déroulante Runtime mode/environment (Mode/environnement du Runtime).

Renseignez les paramètres Kubernetes configuration :

Paramètre	Utilisation
Kubernetes master	Saisissez l'adresse du serveur d'API en respectant le format suivant : k8s://https://<k8s-apiserver-host>:<k8s-apiserver-port>. Vous pouvez récupérer l'adresse à l'aide de la commande kubectl config view --minify dans votre invite de commande.
Number of executor instances	Saisissez le nombre d'exécuteurs à utiliser pour l'exécution du Job.
Use registry secret	Saisissez le mot de passe pour accéder à l'image Docker, si besoin.
Docker Image	Saisissez le nom de l'image Docker à utiliser pour l'exécution.
Namespace	Saisissez l'espace de noms du cluster Docker.
Service account	Saisissez le nom du compte de service à utiliser. Le compte de service doit avoir les droits suffisants sur le cluster Kubernetes.
Cloud storage	Sélectionnez dans la liste déroulante le fournisseur de Cloud à utiliser et saisissez les informations et identifiants dans les champs correspondants.
Cloud storage > S3	Configurez les paramètres suivants pour vous connecter à S3 : Bucket Path to folder Credentials type Access key Secret key
Cloud storage > Blob	Configurez les paramètres suivants pour vous connecter à Azure Blob Storage : Path to folder Blob storage account Container name Secret key
Cloud storage > Adls gen 2	Configurez les paramètres suivants pour vous connecter à ADLS Gen2 : Path to folder Blob storage account Credentials type Container name Secret key

Saisissez les informations simples de Configuration :

Paramètre	Utilisation
Use local timezone	Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Note InformationsRemarque : Si vous décochez cette case, Spark utilise le fuseau horaire UTC. Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components	Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances. Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité. Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD. Note InformationsImportant : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
Use timestamp for dataset components	Cochez cette case pour utiliser java.sql.Timestamp pour les dates. Note InformationsRemarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
Parallelize output files writing (Paralléliser l'écriture des fichiers de sortie)	Cochez cette case pour permettre au Job Spark Batch d'exécuter plusieurs threads en parallèle lors de l'écriture de fichiers de sortie. Cette option améliore les performances du temps d'exécution. Lorsque vous laissez cette case décochée, les fichiers de sortie sont écrits en séquence dans un seul thread. Au niveau des sous-Jobs, chacun est traité en séquence. Seul le fichier de sortie contenu dans le sous-Job est parallélisé. Cette option est disponible uniquement pour les Jobs Spark Batch contenant les composants de sortie suivants : tAvroOutput tFileOutputDelimited (uniquement lorsque la case Use dataset API in migrated components (Utiliser l'API Dataset dans les composants migrés) est cochée) tFileOutputParquet Note InformationsImportant : Pour éviter les problèmes de mémoire au cours de l'exécution du Job, vous devez prendre en compte la taille des fichiers en cours d'écriture et la capacité de l'environnement d’exécution utilisant ce paramètre.

Dans la table Advanced properties, ajoutez toute propriété Spark à utiliser pour écraser la propriété équivalente utilisée par le Studio Talend.

Résultats

Les informations de connexion au cluster Kubernetes sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job ou à l'exécuter immédiatement depuis ce cluster.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici