Accéder au contenu principal Passer au contenu complémentaire

Générer des données client·es de test et les traiter

Exemple de pipeline créé en suivant les instructions ci-dessous.

Procédure

  1. Cliquez sur Connections (Connexions) > Add connection (Ajouter une connexion).
  2. Dans le panneau qui s'ouvre, sélectionnez le type de connexion à créer.

    Exemple

    data generator (générateur de données)
  3. Sélectionnez votre moteur dans la liste Engine.
    Note InformationsRemarque :
    • Il est recommandé d'utiliser Moteur distant Gen2 plutôt que Moteur Cloud pour le design pour un traitement avancé des données.
    • Si aucun Moteur distant Gen2 n'a été créé depuis Talend Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion.
    • Les types de connexion disponibles dépendent du moteur sélectionné.
  4. Sélectionnez le type de connexion à créer.
    Ici, sélectionnez Data generator (Générateur de données).
  5. Cliquez sur Add dataset (Ajouter un jeu de données) et renseignez les propriétés du jeu de données comme décrit dans Propriétés du générateur de données.
  6. Dans le panneau Add a new dataset, nommez votre jeu de données.

    Exemple

    customer generated data (Données client·es générées)
  7. Renseignez les propriétés pour générer les données client·es de test de votre choix. Dans cet exemple:
    1. Dans le champ Rows (Lignes), saisissez 100 pour générer 100 enregistrements de test.
    2. Cliquez sur Add (Ajouter) , saisissez firstname dans le champ Name de l'élément, sélectionnez First Name dans la liste Type et saisissez 0 dans le champ Blank % (% vide) pour générer des prénoms aléatoires sans champ vide.
    3. Cliquez sur Add (Ajouter) , saisissez lastname dans le champ Name de l'élément, sélectionnez Last Name dans la liste Type et saisissez 0 dans le champ Blank % (% vide) pour générer des noms de famille aléatoires sans champ vide.
    4. Cliquez sur Add (Ajouter) , saisissez age dans le champ Name de l'élément, sélectionnez Age dans la liste Type. Saisissez 18 dans le champ Min et 99 dans le champ Max et saisissez 0 dans le champ Blank % (% vide), car vous souhaitez générer des âges compris entre 18 et 99, sans champ vide.
    5. Cliquez sur Add (Ajouter), saisissez hair_color dans le champ Name de l'élément, sélectionnez Random within list (Aléatoire au sein de la liste) dans la liste Type et saisissez 0 dans le champ Blank % (% vide). Ajoutez les éléments à la liste aléatoire que vous souhaitez créer, ici différentes valeurs relatives aux couleurs de cheveux et au poids.
    6. Saisissez brown dans le premier champ Element et 0.4 dans le champ Weight (Poids), saisissez blond dans le deuxième champ Element et 0.2 dans le champ Weight (Poids) et saisissez red dans le troisième champ Element et 0.4 dans le champ Weight (Poids), car vous souhaitez générer des champs relatifs aux couleurs de cheveux contenant 40 % de cheveux bruns (brown), 20 % de cheveux blonds et 40 % de cheveux roux (red).
    7. Cliquez sur Add (Ajouter) , saisissez email dans le champ Name de l'élément, sélectionnez Email dans la liste Type et saisissez 20 dans le champ Blank % (% vide) pour générer des adresses e-mail aléatoires avec 20 % de champs vides.
    8. Cliquez sur Add (Ajouter) , saisissez phone dans le champ Name de l'élément, sélectionnez Phone number (ext) dans la liste Type et saisissez 0 dans le champ Blank % (% vide) pour générer des numéros de téléphone aléatoires sans champ vide.
    9. Cliquez sur Validate (Valider) pour sauvegarder votre jeu de données. Dans la vue détaillée du jeu de données, vous pouvez voir les données générées correspondant aux critères définis.
    Échantillon de début (Head) avec indications relatives aux informations manquantes et incorrectes.
  8. Ajoutez deux jeux de données de test à utiliser comme destinations dans votre pipeline. Renseignez les propriétés de la connexion comme décrit dans Tester les propriétés de la connexion.
  9. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  10. Donnez-lui un nom significatif.

    Exemple

    Clean, format & sort customer generated data (Nettoyer, formater et trier les données client·es générées)
  11. Cliquez sur ADD SOURCE (AJOUTER UNE SOURCE) et sélectionnez votre jeu de données source, customers generated data, dans le panneau qui s'ouvre.
  12. Cliquez sur add processor (ajouter un processeur) et ajoutez un processeur Field concatenator (Concaténation de champs) au pipeline. Donnez-lui un nom significatif, concatenate names par exemple et utilisez la fonction Concatenate with value/another field (Concaténer à une valeur/un autre champ) afin de concaténer les champs firstname et lastname.
  13. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Tous les prénoms et les noms de famille sont à présent combinés, avec un espace comme séparateur.

    Dans l'aperçu de données de sortie (Output), la catégorie full name (nom complet) s'affiche.
  14. Cliquez sur add processor (ajouter un processeur) et ajoutez un processeur Data cleansing (Nettoyage de données) au pipeline. Donnez-lui un nom significatif, fill empty emails with N/A par exemple et utilisez la fonction Fill empty cells with text pour remplacer les valeurs vides d'email par le texte N/A.
  15. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Toutes les valeurs vides dans les champs d'e-mail sont remplacées par N/A.

    Dans l'aperçu de données de sortie (Output), l'information email (e-mail) est renseignée par N/A.
  16. Cliquez sur add processor (ajouter un processeur) et ajoutez un processeur Phones (Téléphone) au pipeline. Donnez-lui un nom significatif, format customer phones par exemple et utilisez la fonction Format phone number pour formater les champs générés de numéros de téléphone à l'aide de la syntaxe américaine standard.
  17. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Toutes les valeurs de numéros de téléphone sont à présent formatées.

    Dans l'aperçu de données de sortie (Output), le numéro de téléphone a une syntaxe américaine standard.
  18. Cliquez sur add processor (ajouter un processeur) et ajoutez un processeur Filter (Filtre) au pipeline. Donnez-lui un nom significatif, sort customers by age par exemple et utilisez <= comme Operator (Opérateur) avec la valeur 35 pour scinder les client·es par âge (inférieur ou supérieur à 35 ans).
  19. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Dans cet aperçu, 10 enregistrements correspondent au critère (moins de 35 ans) défini.

    Dans l'aperçu de données de sortie (Output), la liste est triée par âge et uniquement pour les personnes de moins de 35 ans.
  20. Cliquez sur l'élément ADD DESTINATION (AJOUTER UNE DESTINATION) près du processeur Filter et sélectionnez le jeu de données qui contiendra les données correspondant au·x critère·s de filtre.
    Renommez-le si nécessaire.
  21. Cliquez sur le bouton add datastream (ajouter un flux de données) dans le processeur Filter (Filtre) et sélectionnez le jeu de données qui contiendra les données rejetées.
    Renommez-le si nécessaire.
  22. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  23. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution. Les 100 champs de test générés sont traités et les flux de données sont envoyés aux jeux de données de test définis. Vous pouvez voir dans les logs que les données sont divisées entre les client·es ayant moins de 35 ans et les client·es ayant plus de 35 ans.
Seul·es les client·es de moins de 35 ans s'affichent dans les logs.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.