Accéder au contenu principal Passer au contenu complémentaire

Traiter des statistiques stockées dans Google Cloud Storage et charger les données dans Amazon S3

Ce scénario a pour objectif de vous aider à configurer et à utiliser des connecteurs dans un pipeline. Ce scénario doit être adapté en fonction de votre environnement et de votre cas d'utilisation.

Exemple de pipeline créé en suivant les instructions ci-dessous.

Avant de commencer

  • Si vous souhaitez reproduire ce scénario, téléchargez le fichier gcstorage_s3_nyc_stats.xlsx . Ce fichier est un extrait du jeu de données libre d'accès nyc-park-crime-stats-q4-2019.xlsx de New York City.

Procédure

  1. Cliquez sur Connections (Connexions) > Add connection (Ajouter une connexion).
  2. Dans le panneau qui s'ouvre, sélectionnez le type de connexion à créer.

    Exemple

    Google Cloud Storage
  3. Sélectionnez votre moteur dans la liste Engine.
    Note InformationsRemarque :
    • Il est recommandé d'utiliser Moteur distant Gen2 plutôt que Moteur Cloud pour le design pour un traitement avancé des données.
    • Si aucun Moteur distant Gen2 n'a été créé depuis Talend Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion.
    • Les types de connexion disponibles dépendent du moteur sélectionné.
  4. Sélectionnez le type de connexion à créer.
    Sélectionnez Google Cloud Storage.
  5. Renseignez les identifiants JSON requis pour accéder à votre compte Google Cloud, comme décrit dans Propriétés Google Cloud Storage, vérifiez la connexion et cliquez sur Add dataset (Ajouter un jeu de données).
  6. Dans le panneau Add a new dataset, nommez votre jeu de données NYC park crime stats crime.
  7. Renseignez les propriétés requises pour accéder au fichier situé dans votre bucket Google Cloud Storage (Nom du bucket, nom du fichier, format, etc.) et cliquez sur View sample (Voir l'échantillon) pour voir un aperçu de l'échantillon du jeu de données.
    Configuration d'un nouveau jeu de données Azure Data Lake Storage Gen2.
  8. Cliquez sur Validate (Valider) pour sauvegarder votre jeu de données.
  9. Répétez l'opération pour ajouter la connexion S3 et le jeu de données à utiliser comme destination dans votre pipeline.
  10. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  11. Cliquez sur ADD SOURCE pour ouvrir le panneau permettant de sélectionner vos données source, ici un jeu de données public concernant les crimes dans les parcs de New York, stocké dans un bucket Google Cloud Storage.
  12. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  13. Cliquez sur add processor (ajouter un processeur) et ajoutez un processeur Math au pipeline. Le panneau de configuration s'ouvre.
  14. Donnez un nom significatif au processeur.

    Exemple

    calculate acre square root
  15. Configurez le processeur :
    1. Sélectionnez Square root dans la liste Function name, car vous souhaitez calculer la racine carrée du champ SIZE__ACRES_.
    2. Sélectionnez .SIZE__ACRES_ dans la liste Fields to process.
    3. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
      (Facultatif) Consultez l'aperçu du processeur pour voir les données après l'opération de calcul.
      Dans l'aperçu de données de sortie (Output), le processeur a calculé la racine carrée du champ de taille en ares.
  16. Cliquez sur add processor (ajouter un processeur) et ajoutez un processeur Filter (Filtre) au pipeline. Le panneau de configuration s'ouvre.
  17. Donnez un nom significatif au processeur.

    Exemple

    filter on robberies
  18. Configurez le processeur :
    1. Ajoutez un élément et sélectionnez .ROBBERY dans la liste Input, car vous souhaitez conserver uniquement la catégorie des vols parmi les crimes listés dans le jeu de données.
    2. Sélectionnez None (Aucune) dans la liste Optionally select a function to apply (Sélectionner une option facultative à appliquer).
    3. Sélectionnez >= dans la liste Operator.
    4. Saisissez 1 dans le champ Value, car vous souhaitez filtrer les données contenant au moins un cas de vol.
    5. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  19. (Facultatif) Consultez l'aperçu du processeur Filter pour voir l'échantillon de données après l'opération de filtre.

    Exemple

    Dans l'aperçu des données de sortie (Output), cinq enregistrements correspondent aux critères.
  20. Cliquez sur ADD DESTINATION et sélectionnez le jeu de données S3 qui contiendra vos données réorganisées.
    Renommez-le si nécessaire.
  21. Dans l'onglet Configuration de la destination, activez l'option Overwrite (Écraser) afin d'écraser le fichier existant dans S3 et de le remplacer par le fichier contenant les données traitées, puis cliquez sur Save (Sauvegarder) afin de sauvegarder votre configuration.
  22. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  23. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution et le flux de sortie est envoyé au bucket Amazon S3 indiqué.
Flux de sortie du pipeline sélectionné dans le bucket Amazon S3.
Si vous avez téléchargé le fichier de sortie, vous pouvez voir que les données des crimes ont été traitées et que les cas de vols ont été isolés.
Feuille Excel contenant les données des crimes, y compris la colonne des vols (robbery).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.