Accéder au contenu principal Passer au contenu complémentaire

Filtrer des données d'un fichier local et les scinder en deux sorties Amazon S3

Ce scénario a pour objectif de vous aider à configurer et à utiliser des connecteurs dans un pipeline. Ce scénario doit être adapté en fonction de votre environnement et de votre cas d'utilisation.

Exemple de pipeline créé en suivant les instructions ci-dessous.

Avant de commencer

Step (Incrément)
  • Si vous souhaitez reproduire ce scénario, téléchargez et extrayez le fichier local_file-to_s3.zip . Le fichier contient des données concernant des achats d'utilisateurs, notamment leur enregistrement, le prix d'achat ou encore leur date de naissance.

Procédure

  1. Cliquez sur Connections (Connexions) > Add connection (Ajouter une connexion).
  2. Dans le panneau qui s'ouvre, sélectionnez le type de connexion à créer.

    Exemple

    Local connection
  3. Sélectionnez votre moteur dans la liste Engine.
    Note InformationsRemarque :
    • Il est recommandé d'utiliser Moteur distant Gen2 plutôt que Moteur Cloud pour le design pour un traitement avancé des données.
    • Si aucun Moteur distant Gen2 n'a été créé depuis Talend Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion.
    • Les types de connexion disponibles dépendent du moteur sélectionné.
  4. Sélectionnez le type de connexion à créer.
    Ici, sélectionnez Local connection.
  5. Renseignez les propriétés de la connexion et cliquez sur ADD DATASET.
  6. Dans le panneau Add a new dataset, nommez votre jeu de données user purchases.
  7. Click the upload icon to browse and select the local_file-to_s3.csv file located on your machine, click Auto detect to automatically fill the file format information then click View sample to see a preview of your dataset sample.
    Configuration d'un nouveau jeu de données local.
  8. Cliquez sur Validate (Valider) pour sauvegarder votre jeu de données.
  9. Répétez l'opération pour ajouter la connexion Amazon S3 et les sorties S3 à utiliser comme destinations dans votre pipeline. Renseignez les propriétés de la connexion comme décrit dans Propriétés Amazon S3.
    Configuration d'une nouvelle connexion à Amazon S3.
  10. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  11. Donnez-lui un nom significatif.

    Exemple

    From local file to S3 - Filter by age
  12. Cliquez sur ADD SOURCE et sélectionnez votre jeu de données source, user purchases dans le panneau qui s'ouvre.
  13. Cliquez sur add processor (ajouter un processeur) et ajoutez un processeur Filter (Filtre) au pipeline afin de filtrer les données utilisateur·trices et leur donner un nom significatif. Le panneau de configuration s'ouvre.
  14. Donnez un nom significatif au processeur.

    Exemple

    filter on registered users
  15. Dans la zone Filters (Filtres) :
    1. Sélectionnez .registered dans la liste Input, car vous souhaitez filtrer sur l'enregistrement des utilisateurs et des utilisatrices.
    2. Sélectionnez None (Aucun(e)) dans la liste Optionally select a function to apply (Sélectionnez une fonction facultative à appliquer, car vous ne souhaitez pas appliquer de fonction tout en filtrant les données.
    3. Sélectionnez == dans la liste Operator et saisissez TRUE dans le champ Value, car vous souhaitez filtrer sur les utilisateurs et utilisatrices enregistré·e·s.
  16. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  17. Cliquez sur add processor (ajouter un processeur) et ajoutez un processeur Date au pipeline afin de calculer l'âge des utilisateur·trices en se basant sur leur date de naissance. Le panneau de configuration s'ouvre.
  18. Donnez un nom significatif au processeur.

    Exemple

    calculate user age
  19. Configurez le processeur :
    1. Sélectionnez Calculate time since dans la liste Function name, puisque vous souhaitez calculer l'âge des utilisateurs et des utilisatrices selon leur date de naissance.
    2. Sélectionnez .date_of_birth dans le champ Fields to process.
    3. Activez l'option Create new column (Créer une colonne) pour afficher le résultat dans un nouveau champ. Nommez le champ age.
    4. Sélectionnez Years dans la liste Time unit, sélectionnez Now dans le champ Until et saisissez dd/MM/yyyy dans le champ Set the date pattern car vous souhaitez calculer le nombre d'années jusqu'à la date actuelle, au format mois/jour/année.
  20. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  21. (Facultatif) Consultez l'aperçu du processeur pour voir les âges calculés.
    Dans la sortie de l'aperçu des données, une nouvelle colonne "age" s'affiche.
  22. Cliquez sur add processor (ajouter un processeur) et ajoutez un processeur Filter (Filtre) au pipeline. Le panneau de configuration s'ouvre.
  23. Donnez un nom significatif au processeur.

    Exemple

    filter on users aged 60+
  24. Dans la zone Filters (Filtres) :
    1. Sélectionnez .age dans la liste Input, car vous souhaitez filtrer sur l'âge des utilisateurs et des utilisatrices.
    2. Sélectionnez None (Aucun(e)) dans la liste Optionally select a function to apply (Sélectionnez une fonction facultative à appliquer, car vous ne souhaitez pas appliquer de fonction tout en filtrant les données.
    3. Sélectionnez >= dans la liste Operator et saisissez 60 dans le champ Value, car vous souhaitez filtrer sur les utilisateurs et utilisatrices ayant au moins 60 ans.
  25. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  26. Cliquez sur l'élément ADD DESTINATION dans le pipeline pour ouvrir le panneau vous permettant de sélectionner le premier jeu de données qui contiendra les données de sortie répondant au filtre (S3).
  27. Donnez un nom significatif à votre destination, older users par exemple.
  28. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  29. Cliquez sur add datastream (ajouter un flux de données) dans le processeur Filter (Filtre) pour ajouter une destination et ouvrez le panneau vous permettant de sélectionner le second jeu de données qui contiendra les données de sortie ne correspondant pas au filtre (S3).
  30. Donnez un nom significatif à votre Destination, other users par exemple.
  31. (Facultatif) Consultez l'aperçu du processeur Filter pour voir les données après l'opération de filtre : il contient tous les utilisateurs et utilisatrices enregistré·e·s ayant 60 ans ou plus.
    Dans l'aperçu des données de sortie (Output), deux enregistrements correspondent aux critères.
  32. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  33. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution. Les nombre d'utilisateurs et d'utilisatrices connecté·e·s stockées dans votre fichier local ont bien été filtrées, l'âge des utilisateurs et des utilisatrices a été calculé et les flux de sortie sont envoyés dans le bucket S3 défini. Ces différentes sorties peuvent à présent être utilisées pour séparer les campagnes marketing ciblées, par exemple.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.