Définir les paramètres de connexion HDInsight avec Spark Universal
Procédure
-
Saisissez les informations simples de configuration pour vous connecter à HDInsight :
- Username (Identifiant) : saisissez votre identifiant pour le cluster HDInsight.
- Password (Mot de passe) : saisissez votre mot de passe pour le cluster HDInsight.
-
Saisissez les informations simples de configuration pour Livy :
- Hostname (Nom d'hôte) : saisissez l'URL de votre cluster HDInsight.
- Port : saisissez le numéro du port. Le port par défaut est 443.
- Username (Identifiant) : saisissez l'identifiant défini lors de la création de votre cluster. Vous pouvez le trouver dans le panneau SSH + Cluster login, dans votre cluster.
-
Définissez la configuration d'interrogation (polling) du statut du Job :
- Poll interval when retrieving Job status (in ms) (Intervalle d'interrogation lors de la récupération du statut du Job (en ms)) : saisissez l'intervalle de temps (en millisecondes) à l'issue duquel vous souhaitez que le Studio Talend interroge Spark au sujet du statut du Job.
- Maximum number of consecutive statuses missing (Nombre maximal de statuts manquants consécutifs) : saisissez le nombre maximal de tentatives du Studio Talend pour obtenir un statut lorsqu'il n'y a pas de réponse.
-
Saisissez les informations de configuration à Windows Azure Storage :
Paramètre Utilisation Primary storage (Stockage primaire) Sélectionnez, dans la liste déroulante, le type de stockage dans lequel déployer votre Job : - ADLS Gen2
- Azure Storage
Mode d'authentification Sélectionnez, dans la liste déroulante, le type d'authentification à utiliser : - Azure Active Directory
- Secret key
- Shared Access Signature
Nom d'hôte Saisissez l'endpoint du service du Blob primaire de votre compte Azure Storage. Vous pouvez trouver cet endpoint dans le panneau Properties de ce compte de stockage. Container Saisissez le nom du conteneur à utiliser. Vous pouvez trouver les conteneurs disponibles dans le panneau Blob, dans le compte Azure Storage à utiliser. Directory ID Saisissez l'ID du répertoire. Ce paramètre est disponible uniquement lorsque vous sélectionnez l'option Azure Active Directory dans la liste déroulante Authentication mode (Mode d'authentification).
Application ID Saisissez l'ID de l'application. Ce paramètre est disponible uniquement lorsque vous sélectionnez l'option Azure Active Directory dans la liste déroulante Authentication mode (Mode d'authentification).
Client key Saisissez la clé du client. Ce paramètre est disponible uniquement lorsque vous sélectionnez l'option Azure Active Directory dans la liste déroulante Authentication mode (Mode d'authentification).
SAS Token Saisissez le jeton de signature d'accès partagé pour votre conteneur de stockage. Pour plus d'informations concernant la génération du jeton de signature d'accès partagé, consultez Créer des jetons SAS pour vos conteneurs de stockage (uniquement en anglais), dans la documentation Microsoft. Lorsque vous utilisez un jeton de signature d'accès partagé, vous devez configurer votre cluster. Pour plus d'informations, consultez Utiliser des signatures d’accès partagé Stockage Blob Azure pour restreindre l’accès aux données dans HDInsight (uniquement en anglais), dans la documentation Microsoft.
Ce paramètre est disponible uniquement lorsque vous sélectionnez l'option Shared Access Signature (Signature d'accès partagé) dans la liste déroulante Authentication mode (Mode d'authentification).
Deployment Blob Saisissez l'emplacement où vous souhaitez stocker le Job et ses bibliothèques dépendantes dans votre compte de stockage. -
Si vous exécutez votre Job Spark sous Windows, spécifiez l'emplacement du programme winutils.exe :
- Si vous souhaitez utiliser votre propre fichier winutils.exe, cochez la case Define the Hadoop home directory (Définir le répertoire Home Hadoop) et saisissez son chemin d'accès.
- Sinon, laissez la case Define the Hadoop home directory décochée. Le Studio Talend va générer un répertoire et l'utiliser automatiquement pour ce Job.
-
Saisissez les informations simples de configuration :
Paramètre Utilisation Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Note InformationsRemarque :- Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
- Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : - Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
- Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD.
Note InformationsImportant : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates. Note InformationsRemarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.Batch size (ms) Saisissez l'intervalle de temps à la fin duquel le Job Spark Streaming revoit la source de données pour identifier les modifications et traite les nouveaux micro-batchs. Define a streaming timeout (ms) Cochez cette case et, dans le champ qui s'affiche, saisissez la période de temps à la fin de laquelle le Job Spark Streaming s'arrête automatiquement. Note InformationsRemarque : Si vous utilisez Windows 10, il est recommandé de configurer un délai avant expiration raisonnable pour éviter que Windows Service Wrapper rencontre un problème lors de l'envoi d'un signal d'arrêt depuis les applications Java. Si vous rencontrez cette erreur, vous pouvez annuler l'exécution du Job manuellement, depuis votre espace de travail Azure Synapse Analytics.Parallelize output files writing (Paralléliser l'écriture des fichiers de sortie) Cochez cette case pour permettre au Job Spark Batch d'exécuter plusieurs threads en parallèle lors de l'écriture de fichiers de sortie. Cette option améliore les performances du temps d'exécution. Lorsque vous laissez cette case décochée, les fichiers de sortie sont écrits en séquence dans un thread.
Au niveau des sous-Jobs, chacun est traité en séquence. Seul le fichier de sortie contenu dans le sous-Job est parallélisé.
Cette option est disponible uniquement pour les Jobs Spark Batch contenant les composants de sortie suivants :- tAvroOutput
- tFileOutputDelimited (uniquement lorsque la case Use dataset API in migrated components (Utiliser l'API Dataset dans les composants migrés) est cochée)
- tFileOutputParquet
Note InformationsImportant : Pour éviter les problèmes de mémoire au cours de l'exécution du Job, vous devez prendre en compte la taille des fichiers en cours d'écriture et la capacité de l'environnement d’exécution utilisant ce paramètre. -
Cochez la case Set tuning properties (Configurer les propriétés d'ajustement) pour définir les paramètres d'ajustement, en suivant le processus présenté dans Personnaliser Spark pour les Jobs Apache Spark Batch.
Note InformationsImportant : Vous devez définir les paramètres d'ajustement, sinon vous risquez d'obtenir une erreur (400 - Requête incorrecte).
-
Dans le champ Spark "scratch" directory, saisissez le chemin du répertoire local dans lequel le Studio Talend stocke les fichiers temporaires.
Si vous exécutez votre Job sous Windows, le disque par défaut est C:. Laisser /tmp dans ce champ utilise C:/tmp comme répertoire.
-
Pour rendre votre Job résistant aux échecs, sélectionnez Activate checkpointing (Activer les points de contrôle) pour activer l'opération de points de contrôle Spark.
Dans le champ Checkpoint directory (Répertoire des points de contrôle), saisissez le chemin d'accès au fichier système du cluster dans lequel Spark enregistre les données de contexte, comme les métadonnées et les RDD générés.
- Dans la table Advanced properties (Propriétés avancées), ajoutez toute propriété Spark dont vous souhaitez écraser la valeur par défaut configurée par le Studio Talend.
-
Cochez la case Use Atlas (Utiliser Atlas) pour suivre le lignage de données, voir les composants des Jobs Spark et tracer les modifications de schéma entre les composants.
Cette option est disponible uniquement pour Spark Universal 3.3.x.
Lorsque cette option est activée, vous devez configurer les paramètres suivants :
-
Atlas URL (URL Atlas) : saisissez l'adresse de votre instance Atlas, par exemple http://name_of_your_atlas_node:port.
-
Dans les champs Username et Password, saisissez respectivement les informations d'authentification pour accéder à Atlas.
-
Set Atlas configuration folder (Définir le dossier de configuration Atlas) : cochez cette case si votre cluster Atlas utilise des propriétés personnalisées comme le SSL ou le délai avant expiration de la lecture. Dans le champ qui s'affiche, saisissez le chemin vers un répertoire local contenant votre fichier atlas-application.properties. Votre Job va utiliser ces propriétés personnalisées.
Demandez ce fichier de configuration à l'administrateur·trice de votre cluster. Pour plus d'informations, consultez la section Client Configs dans la page Atlas configuration (uniquement en anglais) (en anglais).
-
Die on error : cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des erreurs de connexion. Décochez cette case pour que votre Job continue à s'exécuter.
-
Résultats
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.