Définir les paramètres de connexion Azure Synapse Analytics avec Spark Universal
- Big Data
- Big Data Platform
- Cloud Big Data
- Cloud Big Data Platform
- Cloud Data Fabric
- Data Fabric
- Real-Time Big Data Platform
Complétez la configuration de la connexion à Azure Synapse Analytics avec Spark Universal dans l'onglet Spark configuration (Configuration Spark) de la vue Run (Exécuter) de votre Job Spark Batch. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.
Avant de commencer
Procédure
-
Saisissez les informations simples de configuration pour vous connecter à Azure Synapse :
Paramètre Utilisation Endpoint Saisissez le point de terminaison de développement dans le champ Development endpoint de votre compte Azure Synpase. Vous pouvez le trouver dans la section Overview de votre espace de travail Azure Synapse. Authorization token Saisissez le jeton généré pour votre compte Azure Synapse. Note InformationsRemarque : Pour générer un jeton, vous devez saisir la commande suivante :curl -X post -H "Content-Type: application/x-www-form-urlencoded" -d 'client_id=<YourClientID>&scope=https://dev.azuresynapse.net/.default&client_secret=<YourClientSecret>&grant_type=client_credentials' 'https://login.microsoftonline.com/<YourTenantID>/oauth2/v2.0/token'Vous pouvez récupérer votre ID client, votre Secret client et votre ID de tenant depuis votre portail Azure.
L'authentification à Azure Synapse est effectuée via l'application Azure Active Directory. Pour plus d'informations concernant l'enregistrement dans Azure Active Directory, consultez Utiliser le portail pour créer une application et un principal du service Azure AD pouvant accéder aux ressources (uniquement en anglais) dans la documentation Microsoft officielle.
Note InformationsImportant : Le jeton n'est valide qu'une heure. Vous devez en générer un nouveau après une heure, sinon vous risquez d'obtenir une erreur (401 - Non autorisé).Apache Spark pools Saisissez, entre guillemets doubles, le nom du pool Apache Spark à utiliser. Note InformationsRemarque : Du côté de l'espace de travail Azure Synapse, assurez-vous que :- l'option Autoscale dans la vue Basic settings et l'option Automatic pausing dans la vue Additional settings sont activées lors de la création d'un pool Apache Spark
- la version sélectionnée d'Apache Spark est configurée à 3.0 (preview)
Poll interval when retrieving Job status (in ms) Saisissez, sans guillemet, l'intervalle de temps (en millisecondes) à la fin duquel vous souhaitez que le Studio Talend demande à Spark le statut de votre Job. La valeur par défaut est 3000, ce qui signifie 30 secondes.
Maximum number of consecutive statuses missing Saisissez le nombre maximal de tentatives de demandes de statut du Studio Talend lorsqu'il n'y a pas de réponse. La valeur par défaut est 10.
-
Saisissez les informations simples de stockage d'Azure Synapse :
Paramètre Utilisation Authentication method Sélectionnez dans la liste déroulante le mode d'authentification à utiliser : - Secret Key
- Azure Active Directory
Storage Sélectionnez le stockage à utiliser dans la liste déroulante. ADLS Gen2 est le stockage par défaut pour l'espace de travail Azure Synapse Analytics. Si vous utilisez l'authentification Azure Active Directory, assurez-vous que l'application est liée à ADLS Gen2 avec le rôle Storage Blob Data Contribution attribué.
Nom d'hôte Saisissez le compte Primary ADLS Gen2 account de votre compte Azure Synapse. Vous pouvez le trouver dans la section Overview de votre espace de travail Azure Synapse. Container Saisissez le compte Primary ADLS Gen2 account de votre compte Azure Synapse. Vous pouvez le trouver dans la section Overview de votre espace de travail Azure Synapse. Username Saisissez le nom du compte de stockage lié à votre espace de travail Azure Synapse. Cette propriété est disponible uniquement lorsque vous sélectionnez Secret Key dans la liste déroulante Authentication method.
Password Saisissez les clés d'accès liées à votre espace de travail Azure Synapse. Pour plus d'informations concernant la récupération de vos clés d'accès, consultez Gérer les clés d’accès au compte de stockage (uniquement en anglais) dans la documentation Microsoft officielle.
Cette propriété est disponible uniquement lorsque vous sélectionnez Secret Key dans la liste déroulante Authentication method.
Directory ID Saisissez l'ID du répertoire lié à votre application Azure Active Directory. Vous pouvez récupérer votre ID depuis l'onglet Azure Active Directory > Overview de votre portail Azure. Cette propriété est disponible uniquement lorsque vous sélectionnez l'option Azure Active Directory dans la liste déroulante Authentication method.
Application ID Saisissez l'ID de l'application liée à votre application Azure Active Directory. Vous pouvez récupérer votre ID depuis l'onglet Azure Active Directory > Overview de votre portail Azure. Cette propriété est disponible uniquement lorsque vous sélectionnez l'option Azure Active Directory dans la liste déroulante Authentication method.
Use certificate to authenticate Cochez cette case pour vous authentifier à votre application Azure Active Directory à l'aide d'un certificat et saisissez l'emplacement de stockage du certificat dans le champ Path to certificate. Assurez-vous de charger le certificat dans la section Certificates & secrets > Certificates de votre application Azure Active Directory. Pour plus d'informations concernant les certificats, consultez la documentation Microsoft (uniquement en anglais) officielle.
Cette propriété est disponible uniquement lorsque vous sélectionnez l'option Azure Active Directory dans la liste déroulante Authentication method.
Client key Saisissez la clé client·e liée à votre application Azure Active Directory. Vous pouvez générer la clé client·e depuis l'onglet Certificates & secrets de votre portail Azure. Cette propriété est disponible uniquement lorsque vous sélectionnez l'option Azure Active Directory dans la liste déroulante Authentication method et que vous décochez la case Use certificate to authentication.
Deployment Blob Saisissez l'emplacement où vous souhaitez stocker le Job et ses bibliothèques dépendantes dans votre stockage. -
Saisissez les informations simples de configuration :
Paramètre Utilisation Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Note InformationsRemarque :- Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
- Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : - Si vous cochez la case, les composants dans le Job Spark Batch s'exécutent avec DS, ce qui améliore les performances.
- Si vous décochez la case, les composants dans le Job Spark Batch s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD.
Note InformationsImportant : Si votre Job Spark Batch contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates. Note InformationsRemarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.Parallelize output files writing (Paralléliser l'écriture des fichiers de sortie) Cochez cette case pour permettre au Job Spark Batch d'exécuter plusieurs threads en parallèle lors de l'écriture de fichiers de sortie. Cette option améliore les performances du temps d'exécution. Lorsque vous laissez cette case décochée, les fichiers de sortie sont écrits en séquence dans un seul thread.
Au niveau des sous-Jobs, chacun est traité en séquence. Seul le fichier de sortie contenu dans le sous-Job est parallélisé.
Cette option est disponible uniquement pour les Jobs Spark Batch contenant les composants de sortie suivants :- tAvroOutput
- tFileOutputDelimited (uniquement lorsque la case Use dataset API in migrated components (Utiliser l'API Dataset dans les composants migrés) est cochée)
- tFileOutputParquet
Note InformationsImportant : Pour éviter les problèmes de mémoire au cours de l'exécution du Job, vous devez prendre en compte la taille des fichiers en cours d'écriture et la capacité de l'environnement d’exécution utilisant ce paramètre.Batch size (ms) Saisissez l'intervalle de temps à la fin duquel le Job Spark Streaming revoit la source de données pour identifier les modifications et traite les nouveaux micro-batchs. Define a streaming timeout (ms) Cochez cette case et, dans le champ qui s'affiche, saisissez la période de temps à la fin de laquelle le Job Spark Streaming s'arrête automatiquement. Note InformationsRemarque : Si vous utilisez Windows 10, il est recommandé de configurer un délai avant expiration raisonnable pour éviter que Windows Service Wrapper rencontre un problème lors de l'envoi d'un signal d'arrêt depuis les applications Java. Si vous rencontrez cette erreur, vous pouvez annuler l'exécution du Job manuellement, depuis votre espace de travail Azure Synapse Analytics. -
Cochez la case Set tuning properties (Configurer les propriétés d'ajustement) pour définir les paramètres d'ajustement, en suivant le processus présenté dans Personnaliser Spark pour les Jobs Apache Spark Batch.
Note InformationsImportant : Vous devez définir les paramètres d'ajustement, sinon vous risquez d'obtenir une erreur (400 - Requête incorrecte).
- Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio Talend stocke, dans le système local, les fichiers temporaires comme les fichiers JAR à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.
- Cochez la case Wait for the Job to complete pour que votre Studio Talend ou, si vous utilisez le Talend JobServer, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.
Résultats
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.