Accéder au contenu principal Passer au contenu complémentaire

Hacher des champs pour comparer les données de manière sécurisée

Un pipeline avec une source S3, un processeur Data masking, un processeur Field selector et une destination S3.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion Amazon S3.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Téléchargez le fichier string-crops.csv. Il contient un jeu de données concernant des cultures récoltées au Mali, ainsi que les types de cultures, la valeur de production, les zones de récolte, etc.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un jeu de données stocké dans le même bucket S3.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Hash fields to compare data safely
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données relatives aux cultures récoltées au Mali en 2005.

    Exemple

  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Data hashing au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    hash fields
  7. Dans la zone Configuration :
    1. Sélectionnez Hash data dans la liste Function name.
    2. Cliquez sur l'icône Open dialog (Ouvrir la boîte de dialogue) près de la liste Fields to process (Champs à traiter) afin de sélectionner tous les champs, car vous souhaitez hacher toutes les valeurs en une fois.
      La boîte de dialogue Data hashing (Hachage de données) affichant les champs à traiter.
  8. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération.

    Tous les champs sont hachés et sécurisés. Vous pouvez voir que les champs crop et id ont la même valeur de sortie, ce qui signifie que la valeur originale est la même dans les deux champs.

    Aperçu du processeur Data hashing après hachage des enregistrements contenant les cultures et les ID.
  9. Cliquez sur le bouton + et ajoutez un processeur Field selector au pipeline. Le panneau de configuration s'ouvre.
  10. Donnez un nom significatif au processeur.

    Exemple

    merge identical hashed values
  11. Dans la zone Selectors :
    1. Sélectionnez .crop dans la liste Input et saisissez crop_id dans la liste Output, comme les deux champs .crop et .id sont identiques et que vous souhaitez fusionner les deux champs.
    2. Cliquez sur le bouton + pour ajouter un élément, saisissez .crop_parent dans la liste Input et crop_type dans la liste Output, car vous souhaitez conserver et renommer ce champ.
    3. Cliquez sur le bouton + pour ajouter un élément, saisissez .harvested_area dans la liste Input et harvested_area dans la liste Output, car vous souhaitez conserver ce champ dans la sortie.
    4. Cliquez sur le bouton + pour ajouter un élément, saisissez .value_of_production dans la liste Input et production_value dans la liste Output, car vous souhaitez conserver et renommer ce champ.
  12. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération.

    Aperçu du processeur Field selector après renommage et réorganisation des enregistrements liés aux cultures.
  13. Cliquez sur ADD DESTINATION (AJOUTER UNE DESTINATION) et sélectionnez le jeu de données qui contiendra les données traitées.
    Renommez-le si nécessaire.
  14. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  15. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, les données sont hachées, les champs identiques ont été fusionnés et réorganisés selon les conditions spécifiées et la sortie est envoyée vers le système cible défini.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.