Écrire la sortie dans Azure ADLS Gen1

Deux composants de sortie sont configurés pour écrire les données relatives aux films attendues et les données relatives aux films rejetées dans différents répertoires dans un dossier Azure ADLS Gen1.

Avant de commencer

Assurez-vous que votre cluster Spark dans Databricks a bien été créé et est en cours de fonctionnement. Pour plus d'informations, consultez Créer un espace de travail Azure Databricks dans la documentation Azure.

Assurez-vous d'avoir ajouté les propriétés Spark concernant les identifiants à utiliser pour accéder à votre système Azure Data Lake Storage Gen1, une par ligne.

spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token

Vous devez avoir un compte Azure.
Le service Azure Data Lake Storage à utiliser doit avoir été créé. Votre application Azure Active Directory doit avoir les droits d'accès appropriés à ce service. Vous pouvez demander à l'administrateur·trice de votre système Azure ou suivre la procédure décrite dans Moving data from ADLS Gen1 to ADLS Gen2 using Azure Databricks (en anglais).

Procédure

Double-cliquez sur le composant tAzureFSConfiguration pour ouvrir sa vue Component.
Exemple
Dans la liste déroulante Azure FileSystem, sélectionnez Azure Data Lake Storage. Les paramètres spécifiques à Azure ADLS Gen2 sont affichés.
Dans les champs Client ID et Client key, saisissez respectivement l'ID et la clé d'authentification (secret du client) générés après enregistrement de l'application que le Job que vous développez utilise pour accéder à Azure Data Lake Storage.
Dans le champ Token endpoint, copiez-collez l'endpoint du jeton OAuth 2.0 que vous pouvez obtenir à partir de la liste Endpoints dans la page App registrations de votre portail Azure.
Double-cliquez sur le tFileOutputParquet recevant le lien out1.

Sa vue Basic settings est ouverte dans la partie inférieure du Studio Talend.
Cochez la case Define a storage configuration component pour réutiliser la configuration fournie par le tAzureFSConfiguration, afin de vous connecter au système de fichiers ADLS Gen2 à utiliser.
Dans le champ Folder/File, saisissez le chemin d'accès au répertoire dans lequel écrire les résultats. Dans ce scénario, le répertoire /ychen/movie_library reçoit les enregistrements contenant les noms des cinéastes.
Sélectionnez Overwrite dans la liste Action. Ainsi, le répertoire cible est écrasé s'il existe déjà.
Répétez les mêmes opérations afin de configurer l'autre composant tFileOutputParquet utilisé pour recevoir le lien reject , mais définissez le répertoire, dans le champ Folder/File à /ychen/movie_library/reject.
Dans la vue Run, cliquez sur l'onglet Spark Configuration.
Décochez la case Use local mode.
Dans la liste déroulante Property Type, sélectionnez Repository, puis cliquez sur le bouton ... et, dans la liste Repository Content, sélectionnez la métadonnée de connexion movie_library précédemment définie dans Configurer la connexion à votre plateforme Big Data.
Cliquez sur OK pour valider votre choix. Les champs de l'onglet Spark Configuration sont automatiquement renseignés avec les paramètres de cette métadonnée de connexion.
Appuyez sur F6 pour exécuter le Job.

Résultats

La vue Run s'ouvre automatiquement dans la partie inférieure du Studio Talend.

Cela fait, vous pouvez vérifier, par exemple dans Microsoft Azure Storage Explorer, que la sortie a été écrite dans le dossier ADLS Gen1.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici