Charger des données en masse dans Azure Synapse depuis Azure DLS Gen2

Ce scénario a pour objectif de vous aider à configurer et à utiliser des connecteurs dans un pipeline. Ce scénario doit être adapté en fonction de votre environnement et de votre cas d'utilisation.

Exemple de pipeline créé en suivant les instructions ci-dessous.

Procédure

Cliquez sur Connections (Connexions) > Add connection (Ajouter une connexion).
Dans le panneau qui s'ouvre, sélectionnez le type de connexion à créer.
Exemple
ADLS Gen2
Sélectionnez votre moteur dans la liste Engine.
Note InformationsRemarque :
- Il est recommandé d'utiliser Moteur distant Gen2 plutôt que Moteur Cloud pour le design pour un traitement avancé des données.
- Si aucun Moteur distant Gen2 n'a été créé depuis Talend Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion.
- Les types de connexion disponibles dépendent du moteur sélectionné.
Sélectionnez le type de connexion à créer.
Ici, sélectionnez ADLS Gen2.
Renseignez les propriétés de la connexion pour accéder à votre système de fichiers Azure Data Lake Storage Gen2 comme décrit dans Propriétés Azure Data Lake Storage Gen2, vérifiez la connexion et cliquez sur Add dataset (AJouter un jeu de données).
Dans le panneau Add a new dataset, nommez votre jeu de données.
Exemple
BKO Taxi On Azure DLS Gen2
Renseignez les propriétés requises pour accéder au fichier situé dans votre compte de stockage et cliquez sur View sample (Voir l'échantillon) pour voir un aperçu de l'échantillon de données.

Dans cet exemple, un fichier CSV contenant des données sur les prix de courses en taxi à Bamako, au Mali, est récupéré dans le dossier talend d'un système de fichiers Azure nommé talend-fs. Vous pouvez voir les répertoires de votre système de fichiers depuis la page Storage Explorer de votre compte de stockage Azure.
Procédez de la même manière pour ajouter la table Azure Synapse qui sera créée lors de l'exécution de votre pipeline, nommée taxi_data dans cet exemple. Renseignez les propriétés de la connexion comme décrit dans Propriétés Azure Synapse.
Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
Donnez-lui un nom significatif.
Exemple
From ADLS Gen2 to Synapse - trip cost per distance covered
Cliquez sur Add source (Ajouter une source) et sélectionnez votre jeu de données source, BKO taxi on ADSL Gen2 dans le panneau qui s'ouvre.
Cliquez sur pour ajouter des processeurs au pipeline, par exemple un processeur Type converter (Convertisseur de types) pour convertir les champs de chaînes de caractères en champs entiers ou en champs doubles, un processeur Field selector (Sélecteur de champs) pour filtrer et renommer certains enregistrements et un processeur Aggregate (Agrégation) pour calculer le coût d'un trajet en fonction de la distance parcourue.
(Facultatif) Cliquez sur le dernier processeur, afin de prévisualiser les données traitées.
Cliquez sur l'élément ADD DESTINATION dans le pipeline pour ouvrir le panneau vous permettant de sélectionner le Blob Azure dans lequel vos données de sortie seront chargées.
Donnez un nom significatif à la Destination, bulk load to Synapse par exemple.
Dans l'onglet Configuration de la destination, sélectionnez l'Action à effectuer sur la table (Bulk load (Chargement de masse)), puis sélectionnez la connexion Blob à utiliser. Pour plus d'informations concernant la configuration d'Azure Blob Storage, consultez Stockage Blob Azure.
Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les informations sur le prix des taxis qui ont été stockées sur Azure DLS Gen2 ont été agrégées en fonction de la distance parcourue et le flux de sortie est chargé dans la table Azure Synapse, qui est créée lors de l'exécution du pipeline.

Dans un dossier de tables externes, la distance en kilomètres et les données relatives au coût total sont contenues dans les colonnes.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici

Charger des données en masse dans Azure Synapse depuis Azure DLS Gen2

Procédure

Exemple

Exemple

Exemple

Résultats

Cette page vous a-t-elle aidé ?