Accéder au contenu principal Passer au contenu complémentaire

Traiter des chaînes de caractères pour obtenir les sommes liées à des petits trajets en taxi

Un pipeline avec une source Test, un processeur Field Selector, un processeur Type Converter, un processeur Filter et une destination HDFS.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Ici, des données hiérarchiques concernant des taxis, notamment les heures de prise en charge et de fin de course, les tarifs, etc. (téléchargez le fichier type_converter-taxi.json depuis l'onglet Téléchargements dans le panneau de gauche de la page).

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un fichier stocké dans HDFS.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Convert small taxi rides (Convertir les petites courses de taxi)
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données relatives aux taxis.
    Aperçu d'un échantillon de données contenant des données hiérarchiques relatives à des taxis.
    Note InformationsAvertissement : Le processeur Type converter ne peut traiter de sous-enregistrement. Si vous souhaitez convertir ces enregistrements, vous devez utiliser un processeur Field selector avant, afin de réorganiser les enregistrements et de les mettre en haut du schéma.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Field selector au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    reorganize records
  7. Cliquez sur l'icône Edit (Modifier) dans le mode de sélection Simple :
    1. Sélectionnez le champ .pickup.pickup_datetime et renommez-le pickup_time, puisque vous souhaitez sélectionner et renommer le champ pickup_datetime du premier emplacement, puis le déplacer en haut du schéma.
    2. Sélectionnez le champ .dropoff.dropoff_datetime et renommez-le dropoff_time, puisque vous souhaitez sélectionner et renommer le champ dropoff_datetime du premier emplacement, puis le déplacer en haut du schéma.
    3. Sélectionnez le champ .payment.fare_amount et renommez-le fare, puisque vous souhaitez sélectionner et renommer le champ fare_amount du premier emplacement, puis le déplacer en haut du schéma.
    4. Cliquez sur Edit (Modifier) puis sur Save (Sauvegarder) pour sauvegarder votre configuration.
      Aperçu du processeur Field Selector après réorganisation des enregistrements des taxis.
  8. Cliquez sur le bouton + et ajoutez un processeur Type converter au pipeline. Le panneau de configuration s'ouvre.
  9. Donnez un nom significatif au processeur.

    Exemple

    convert rides and fares
  10. Dans la zone Converters :
    1. Sélectionnez .pickup_time dans la liste Field path (Chemin du champ), sélectionnez le mode Primitive (Primitif), sélectionnez DateTime dans la liste Output type (Type de sortie) et saisissez yyyy-MM-dd HH:mm:ss dans le champ Format, car vous souhaitez convertir le champ de type DateTime contenant les heures de prise en charge en un champ de type Integer. yyyy-MM-dd HH:mm:ss correspond au format du champ d'entrée.
      Note InformationsConseil : Pour en savoir plus concernant les formats et modèles de date, consultez Informations supplémentaires concernant les modèles de date et heure.
    2. Cliquez sur l'icône + pour ajouter un convertisseur et sélectionnez .dropoff_time dans la liste Field path (Chemin du champ). Sélectionnez le mode Primitive (Primitif), sélectionnez DateTime dans la liste Output type (Type de sortie) et saisissez yyyy-MM-dd HH:mm:ss dans le champ Format, car vous souhaitez convertir le champ de type DateTime contenant les heures de fin de course en un champ de type Integer. yyyy-MM-dd HH:mm:ss correspond au format du champ d'entrée.
    3. Cliquez sur l'icône + pour ajouter un convertisseur et sélectionnez .fare dans la liste Field path (Chemin du champ). Sélectionnez le mode Primitive (Primitif) et sélectionnez Double dans la liste Output type (Type de sortie), puisque vous souhaitez convertir le champ de type String contenant le prix des courses en un champ de type Double.
      Note InformationsConseil : Vous avez la possibilité d'appliquer plusieurs conversions sur le même champ. Par exemple, vous pouvez convertir un champ de type String contenant une date en un champ de type Long et utiliser ce champ généré de type Long pour le convertir en un champ de type DateTime.
    4. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
      Aperçu du processeur Type Converter après conversion des enregistrements relatifs aux courses et tarifs.
  11. Cliquez sur + après le processeur Type Converter dans le pipeline et ajoutez un processeur Filter.
  12. Donnez un nom significatif au processeur.

    Exemple

    filter on short rides
  13. Dans la zone Filters (Filtres) :
    1. Saisissez .{.dropoff_time - .pickup_time > 660000} dans la liste Input, pour filtrer les courses ayant duré moins de 11 minutes.
    2. Sélectionnez Count (Nombre) dans la liste Optionally select a function to apply (De manière facultative, sélectionnez une fonction à appliquer), > dans la liste Operator (Opérateur) et saisissez 0 dans la liste Value (Valeur) puisque vous souhaitez compter ces courses rapides.
    3. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
      Aperçu du processeur Filter après filtrage des enregistrements liés aux courses rapides des taxis.
  14. (Facultatif) Consultez l'aperçu du processeur Filter pour voir les données après l'opération de filtre.
  15. Cliquez sur ADD DESTINATION (AJOUTER UNE DESTINATION) dans le pipeline pour ouvrir le panneau vous permettant de sélectionner le jeu de données qui contiendra vos données (HDFS).
  16. Donnez-lui un nom significatif, short rides data par exemple.
  17. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  18. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les types de champs sont convertis et filtrés et le flux de sortie est envoyé vers le système cible défini.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.