Accéder au contenu principal Passer au contenu complémentaire

Agréger des informations clients pour calculer les achats

Un pipeline avec une source de test, un processeur Aggregate et une destination HDFS.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Téléchargez et extrayez le fichier aggregate-customers.zip. Il contient une liste hiérarchique des données client·es, notamment l'ID ou les informations produits comme les titres et les prix des livres.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un fichier stocké dans HDFS.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Aggregate Customer Data to Calculate Purchases
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici une liste de données clients hiérarchiques concernant des achats de livres.

    Exemple

    Aperçu d'un échantillon de données concernant des achats de livres.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Aggregate au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    calculate customer purchases
  7. Dans la zone Group by, sélectionnez le champ à utiliser pour votre jeu d'agrégation, ici .customerId.
  8. Dans la zone Operations :
    1. Sélectionnez .customerId dans la liste Field path et Count dans la liste Operation.
    2. Nommez le champ généré (Output field name), nbOfPurchases par exemple.
    3. Cliquez sur le bouton + pour ajouter un élément, sélectionnez .product.price dans la liste Field path et sélectionnez Sum dans la liste Operation.
    4. Nommez le champ généré totalPrice, par exemple.
    5. Cliquez sur le bouton + pour ajouter un élément, sélectionnez .product.name dans la liste Field path et sélectionnez List dans la liste Operation.
    6. Nommez le champ généré books, par exemple.
  9. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Vous pouvez prévisualiser les données calculées après l'opération d'agrégation : les livres achetés et la somme dépensée par client.

    Aperçu du processeur après application d'une opération d'agrégation.
  10. Cliquez sur ADD DESTINATION (AJOUTER UNE DESTINATION) dans le pipeline pour ouvrir le panneau vous permettant de sélectionner le jeu de données qui contiendra vos données de sortie (HDFS).

    Renommez-le si nécessaire.

  11. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  12. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les achats de livres sont agrégés par client et le flux de sortie est envoyé dans les systèmes cible définis.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.