Définir les paramètres de connexion à Databricks avec Spark Universal
Pourquoi et quand exécuter cette tâche
Le Studio Talend se connecte à un cluster universel Databricks afin d'exécuter le Job depuis ce cluster.
Procédure
- Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
-
Sélectionnez Built-in dans la liste déroulante Property type.
Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.Note InformationsConseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
- Sélectionnez Universal dans la liste déroulante Distribution, la version Spark de votre choix dans la liste déroulante Version et Databricks dans la liste déroulante Runtime mode/environment (Mode/environnement du Runtime).
-
Saisissez les informations simples de configuration :
Paramètre Utilisation Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Note InformationsRemarque :- Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
- Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : - Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
- Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD.
Note InformationsImportant : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates. Note InformationsRemarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.Batch size (ms) Saisissez l'intervalle de temps à la fin duquel le Job Spark Streaming revoit la source de données pour identifier les modifications et traite les nouveaux micro-batchs. Define a streaming timeout (ms) Cochez cette case et, dans le champ qui s'affiche, saisissez la période de temps à la fin de laquelle le Job Spark Streaming s'arrête automatiquement. Note InformationsRemarque : Si vous utilisez Windows 10, il est recommandé de configurer un délai avant expiration raisonnable pour éviter que Windows Service Wrapper rencontre un problème lors de l'envoi d'un signal d'arrêt depuis les applications Java. Si vous rencontrez cette erreur, vous pouvez annuler l'exécution du Job manuellement, depuis votre espace de travail Azure Synapse Analytics.Parallelize output files writing (Paralléliser l'écriture des fichiers de sortie) Cochez cette case pour permettre au Job Spark Batch d'exécuter plusieurs threads en parallèle lors de l'écriture de fichiers de sortie. Cette option améliore les performances du temps d'exécution. Lorsque vous laissez cette case décochée, les fichiers de sortie sont écrits en séquence dans un thread.
Au niveau des sous-Jobs, chacun est traité en séquence. Seul le fichier de sortie contenu dans le sous-Job est parallélisé.
Cette option est disponible uniquement pour les Jobs Spark Batch contenant les composants de sortie suivants :- tAvroOutput
- tFileOutputDelimited (uniquement lorsque la case Use dataset API in migrated components (Utiliser l'API Dataset dans les composants migrés) est cochée)
- tFileOutputParquet
Note InformationsImportant : Pour éviter les problèmes de mémoire au cours de l'exécution du Job, vous devez prendre en compte la taille des fichiers en cours d'écriture et la capacité de l'environnement d’exécution utilisant ce paramètre. -
Renseignez les paramètres Databricks configuration :
Paramètre Utilisation Cloud provider Sélectionnez le fournisseur de Cloud à utiliser : AWS, Azure ou GCP. Run mode Sélectionnez le mode à utiliser pour exécuter votre Job sur un cluster Databricks lorsque vous exécutez votre Job dans le Studio Talend. Avec Create and run now (Créer et exécuter maintenant), un Job est créé et exécuté immédiatement sur Databricks et avec Runs submit (Soumettre les exécutions), une exécution simple est soumise sans créer de Job dans Databricks. Enable Unity Catalog (Activer Unity Catalog) Cochez cette case pour tirer parti des fonctionnalités d'Unity Catalog. Ensuite, spécifiez les informations relatives à Unity Catalog dans les paramètres Catalog (Catalogue), Schéma et Volume. Note InformationsImportant : Tous les paramètres doivent avoir été créés dans Databricks avec les droits accordés à tous les utilisateurs autorisés, avant de les utiliser dans le Studio Talend.Use pool Cochez cette case pour tirer parti d'un pool de Databricks. Le cas échéant, vous devez indiquer un identifiant de pool (Pool ID) en lieu et place de l'identifiant de cluster Cluster ID. Vous devez également sélectionner Job clusters (Clusters de jobs) dans la liste déroulante Cluster type (Type de cluster). Endpoint Saisissez l'URL de votre espace de travail. Cluster ID Saisissez l'ID de votre cluster Databricks à utiliser. Cet ID est la valeur de la propriété spark.databricks.clusterUsageTags.clusterId de votre cluster Spark. Vous pouvez trouver cette propriété dans la liste des propriétés dans l'onglet Environment dans la vue Spark UI de votre cluster. Mode d'authentification Sélectionnez la méthode d'authentification à utiliser dans la liste déroulante : -
- Personal access token (Jeton d'accès personnel) : authentification via un Jeton d'accès personnel. Pour plus d'informations, consultez Databricks personal access token authentication (uniquement en anglais) (en anglais) dans la documentation Databricks.
- OAuth2 for service principal (OAuth2 pour le principal de service) : authentification via le principal de service à l'aide d'OAuth (OAuth M2M). Pour plus d'informations, consultez Authenticate access to Databricks with a service principal using OAuth (uniquement en anglais) (en anglais) dans la documentation Databricks.
- OAuth2 for user account (OAuth2 pour le compte utilisateur) : authentification par compte utilisateur·trice, via OAuth (OAuth U2M). Pour plus d'informations, consultez Authenticate access to Databricks with a user account using OAuth (uniquement en anglais) (en anglais) dans la documentation Databricks.
Authentication token (Jeton d'authentification) Saisissez le jeton d'authentification généré pour votre compte Databricks. Dependencies folder (Dossier des dépendances) Saisissez le répertoire utilisé pour stocker les dépendances relatives à votre Job sur Databricks Filesystem pendant l'exécution, en insérant un slash (/) à la fin du répertoire. Par exemple, saisissez /jars/ pour stocker les dépendances dans un dossier appelé jars. Ce dossier est créé à la volée s'il n'existe pas. À partir de Databricks 15.4 LTS, l'emplacement par défaut de la bibliothèque est déplacé de DBFS à WORKSPACE.
Project ID Saisissez l'ID de votre projet Google Platform où se situe le projet Databricks. Ce champ est disponible uniquement lorsque vous sélectionnez GCP dans la liste déroulante Cloud provider.
Bucket Saisissez le nom du bucket à utiliser pour Databricks depuis Google Platform. Ce champ est disponible uniquement lorsque vous sélectionnez GCP dans la liste déroulante Cloud provider.
Workspace ID Saisissez l'ID de votre espace de travail Google Platform en respectant le format suivant : databricks-workspaceid. Ce champ est disponible uniquement lorsque vous sélectionnez GCP dans la liste déroulante Cloud provider.
Identifiants Google Saisissez le chemin du répertoire dans lequel le fichier JSON contenant votre clé de compte de service est stocké, sur la machine de Talend JobServer. Ce champ est disponible uniquement lorsque vous sélectionnez GCP dans la liste déroulante Cloud provider.
Poll interval when retrieving Job status (in ms) Saisissez l'intervalle de temps (en millisecondes) à la fin duquel vous souhaitez que le Studio Talend demande à Spark le statut de votre Job. Cluster type Sélectionnez le type de cluster à utiliser dans la liste déroulante. Pour plus d'informations, consultez À propos des clusters Databricks. Note InformationsRemarque : Lorsque vous exécutez un Job à l'aide du Studio Talend avec Java 17, vous devez configurer la variable d'environnement JNAME=zulu17-ca-amd64 :- côté Databricks pour les clusters de Jobs
- dans Init scripts à l'aide du script set_java17_dbr.sh sur S3 pour les clusters universels
DBFS n'est plus supporté comme emplacement des scripts Init Scripts. Pour toutes les versions de Databricks, ce chemin pointe à présent vers WORKSPACE.
Use policy (Utiliser la politique) Cochez cette case pour saisir le nom de la politique à utiliser par votre cluster de Jobs. Utiliser une politique vous permet de limiter la possibilité de configurer des clusters en vous basant sur un jeu de règles. Pour plus d'informations concernant les politiques de cluster, consultez Manage cluster policies (uniquement en anglais) dans la documentation officielle de Databricks.
Enable ACL (Activer l'ACL) Cochez cette case pour utiliser les listes de contrôle d'accès (ACL) afin de configurer les autorisations d'accès aux objets au niveau des espaces de travail ou des comptes.
Dans ACL permission (Autorisation ACL), vous pouvez configurer l'autorisation d'accéder aux objets des espaces de travail via CAN_MANAGE, CAN_MANAGE_RUN, IS_OWNER ou CAN_VIEW.
Dans ACL type (Type d'ACL), vous pouvez configurer l'autorisation d'utiliser des objets de niveau compte via User (Utilisateur), Group (Groupe) ou Service Principal (Principal de service).
Dans le champ Name (Nom), saisissez le nom donné par l'administrateur·trice.
Cette option est disponible lorsque l'option Cluster type (Type de cluster) est configurée à Job clusters (Clusters de Jobs). Pour plus d'informations, consultez la documentation Databricks (uniquement en anglais) (en anglais).
Autoscale (Dimensionnement automatique) Cochez ou décochez cette case pour définir le nombre de workers à utiliser avec votre cluster de Jobs. Si vous cochez cette case, l'ajustement automatique sera activé. Puis définissez le nombre minimum de workers dans Min workers et le nombre maximum de workers dans Max workers. Votre cluster de Jobs est ajusté automatiquement au sein de cet intervalle en fonction de la charge de travail. - Si vous cochez cette case, l'ajustement automatique sera activé. Puis définissez le nombre minimum de workers dans Min workers et le nombre maximum de workers dans Max workers. Votre cluster de Jobs est ajusté automatiquement au sein de cet intervalle en fonction de la charge de travail.
Selon la documentation Databricks, l'ajustement automatiquement fonctionne mieux sur les versions d'exécution 3.0 de Databricks ou plus récentes.
- Si vous décochez cette case, l'ajustement automatique est désactivé. Puis définissez le nombre de workers attendus dans un cluster de Jobs. Ce nombre n'inclut pas le nœud du pilote Spark.
Node type (Type de nœud) et Driver node type (Type de nœud du pilote) Sélectionnez les types de nœuds pour les workers et le nœud du pilote Spark. Ces types déterminent la capacité de vos noeuds et leur tarification par Databricks. Pour plus d'informations concernant ces types de nœuds et les Databricks Units qu'ils utilisent, consultez Supported Instance Types (uniquement en anglais) (en anglais) dans la documentation Databricks.
Enable credentials passthrough (Activer le passage des informations d’identification) Cochez cette case pour désactiver le transfert des identifiants utilisateur·trices lors de la connexion à Databricks Universal. Lorsque cette option est sélectionnée, les identifiants individuels des utilisateur·trices ne sont pas utilisés pour l'authentification aux sources de données. Number of on-demand Cochez cette case pour spécifier le nombre maximal de ressources de calcul à la demande (comme les machines virtuelles ou les nœuds workers). Spot with fall back to On-demand Cochez cette case pour autoriser l'utilisation de clusters Spot avec fallback vers les clusters à la demande si les ressources Spot sont indisponibles. Availability zone (Zone de disponibilité) Cochez cette case afin de spécifier la zone de disponibilité dans laquelle vos ressources Databricks vont être déployées. Max spot price Cochez cette case pour spécifier le prix maximal souhaité par heure pour les instances Spot lorsque Databricks provisionne les ressources de calcul. EBS volume type Choisissez le type de volume of EBS dans la liste déroulante : None, General purpose SSB ou Throughput optimized HDD. Configure instance profile ARN (Configurer le profil de l'instance ARN) Cochez cette case pour spécifier le profil de l'instance ARN afin d'attribuer des autorisations personnalisées à vos ressources Databricks, permettant de sécuriser l'accès aux services AWS selon vos besoins. Elastik disk Cochez cette case pour activer le cluster de Jobs afin d'améliorer automatiquement l'espace disque lorsque ses workers Spark commencent à manquer d'espace disque. Pour plus d'informations sur cette fonctionnalité Elastic disk, recherchez la section relative à Autoscaling local storage dans la documentation Databricks.
SSH public key (Clé SSH publique) Si un accès SSH a été configuré pour votre cluster, saisissez la clé publique de la paire de clés SSH générée. Cette clé publique est automatiquement ajoutée à chaque nœud de votre cluster de Jobs. Si aucun accès SSH n'a été configuré, ignorez ce champ. Pour plus d'informations concernant l'accès SSH à votre cluster, consultez SSH access to clusters (uniquement en anglais) dans la documentation Databricks (en anglais).
Configure cluster logs (Configurer les logs du cluster) Cochez cette case afin de définir où stocker vos logs Spark sur le long terme. Custom tags Cochez cette case pour ajouter des tags personnalisés à vos ressources Databricks sous forme de paires clé-valeur. Init scripts DBFS n'est plus supporté comme emplacement des scripts Init Scripts. Pour toutes les versions de Databricks, ce chemin pointe à présent vers WORKSPACE. Do not restart the cluster when submitting Cochez cette case pour empêcher le Studio Talend de redémarrer le cluster lorsque le Studio Talend soumet vos Jobs. Cependant, si vous apportez des modifications à vos Jobs, décochez cette case afin que le Studio Talend redémarre votre cluster pour prendre ces modifications en compte. -
-
Cochez la case Set tuning properties (Configurer les propriétés d'ajustement) pour définir les paramètres d'ajustement, en suivant le processus présenté dans Personnaliser Spark pour les Jobs Apache Spark Batch.
Note InformationsImportant : Vous devez définir les paramètres d'ajustement, sinon vous risquez d'obtenir une erreur (400 - Requête incorrecte).
-
Dans le champ Spark "scratch" directory, saisissez le chemin du répertoire local dans lequel le Studio Talend stocke les fichiers temporaires.
Si vous exécutez votre Job sous Windows, le disque par défaut est C:. Laisser /tmp dans ce champ utilise C:/tmp comme répertoire.
-
Pour rendre votre Job résistant aux échecs, sélectionnez Activate checkpointing (Activer les points de contrôle) pour activer l'opération de points de contrôle Spark.
Dans le champ Checkpoint directory (Répertoire des points de contrôle), saisissez le chemin d'accès au fichier système du cluster dans lequel Spark enregistre les données de contexte, comme les métadonnées et les RDD générés.
- Dans la table Advanced properties (Propriétés avancées), ajoutez toute propriété Spark dont vous souhaitez écraser la valeur par défaut configurée par le Studio Talend.
-
Cochez la case Use Atlas (Utiliser Atlas) pour suivre le lignage de données, voir les composants des Jobs Spark et tracer les modifications de schéma entre les composants.
Cette option est disponible uniquement pour Spark Universal 3.3.x.
Lorsque cette option est activée, vous devez configurer les paramètres suivants :
-
Atlas URL (URL Atlas) : saisissez l'adresse de votre instance Atlas, par exemple http://name_of_your_atlas_node:port.
-
Dans les champs Username et Password, saisissez respectivement les informations d'authentification pour accéder à Atlas.
-
Set Atlas configuration folder (Définir le dossier de configuration Atlas) : cochez cette case si votre cluster Atlas utilise des propriétés personnalisées comme le SSL ou le délai avant expiration de la lecture. Dans le champ qui s'affiche, saisissez le chemin vers un répertoire local contenant votre fichier atlas-application.properties. Votre Job va utiliser ces propriétés personnalisées.
Demandez ce fichier de configuration à l'administrateur·trice de votre cluster. Pour plus d'informations, consultez la section Client Configs dans la page Atlas configuration (uniquement en anglais) (en anglais).
-
Die on error : cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des erreurs de connexion. Décochez cette case pour que votre Job continue à s'exécuter.
-
Résultats
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.