Mélanger des valeurs de données afin de restreindre l'utilisation de données sensibles

Avec le composant tDataShuffling, vous pouvez mélanger des informations sensibles pour les remplacer par d'autres valeurs pour la même colonne, d'une ligne différente, permettant ainsi aux données de production d'être utilisées pour le test et l'apprentissage.

Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend MDM Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Ce scénario décrit un Job utilisant :

un tFixedFlowInput pour générer des données personnelles, notamment des numéros de carte de crédit,
un tDataShuffling pour mélanger les données originales et remplacer les valeurs par d'autres valeurs de la même colonne, d'une ligne différente,
un tFileOutputExcel pour écrire en sortie le jeu de données mélangées.

Job utilisant les composants tFixedFlowInput, tDataShuffling et tFileOutputExcel.

Prérequis : Restreindre encore plus l'utilisation des données sensibles

Lors d'un mélange de données, il est recommandé de masquer les données sensibles. Rappelez-vous également de considérer les relations entre les colonnes lors du mélange de données et de vous assurer que le jeu de données original ne peut être reconstruit.

Dans ce scénario, les noms de famille et prénoms sont groupés, mais les adresses e-mail ne sont pas dans le même groupe. Ce qui signifie que la colonne email n'a aucune relation avec les colonnes lname et fname. Puisque la colonne email contient généralement des informations relatives aux noms et prénoms, cela peut permettre à des personnes malveillantes de reconstruire les données d'origine.

De plus, les colonnes address1, city et email ne sont dans aucun groupe, elles n'ont donc pas été mélangées. Cela signifie qu'il est possible de déduire, par exemple que Robert Damstra vit à 1619 Stillman Court, Lynnwood.

Avec ce scénario, vous pouvez restreindre encore plus l'utilisation des données sensibles :

Pour éviter l'utilisation de numéros de cartes de crédit réels, vous pouvez masquer les numéros de carte de crédit à l'aide du composant tDataMasking.
Pour éviter l'identification des clients par leur adresse e-mail, vous pouvez masquer les adresses e-mail à l'aide du composant tDataMasking.
Pour rendre plus difficile la lecture des adresses réelles, vous pouvez ajouter les colonnes address1 et city dans d'autres groupes.

Conseil : Comme le tDataShuffling est supporté par le framework Spark, vous pouvez convertir ce Job standard en un Job Spark Batch en modifiant ses propriétés. Ainsi, vous n'avez pas besoin de redéfinir les paramètres des composants dans le Job.

Configurer votre Job

Procédure

Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tDataShuffling et un tFileOutputExcel.
Reliez ces trois composants à l'aide de liens Main.

Configurer le composant d'entrée

Procédure

Double-cliquez sur le composant tFixedFlowInput pour ouvrir sa vue Basic settings dans l'onglet Component.
Créez le schéma en cliquant sur le bouton Edit schema.

Dans la fenêtre qui s'ouvre, cliquez sur le bouton [+] et ajoutez les colonnes qui contiendront les données d'entrée d'origine : customer id, credit_card, lname, fname, mi, address1, city, state_province, postal_code, country, phone et email.
Cliquez sur OK.
Dans le champ Number of rows, saisissez 1.
Dans la zone Mode, sélectionnez l'option Use Inline Content.

Dans la table Content, saisissez les données clients à mélanger, par exemple :

0|4244487462024688|Nowmer|Sheri|A.|2433 Bailey Road|Tlaxiaco|Oaxaca|15057|Mexico|271-555-9715|SheriNowmer@@Tlaxiaco.org
1|3458687462024688|Nowmer|Alan|A.|2433 Bailey Road|Tlaxiaco|Oaxaca|15057|Mexico|271-555-9715|AlanNowmer@Tlaxiaco.org.org
2|4639587470586299|Whelply|Derrick|I.|2219 Dewing Avenue|Sooke|BC|17172|Canada|211-555-7669|DerrickWhelply@Sooke.org
3|2541387475757600|Derry|Jeanne||7640 First Ave.|Issaquah|WA|73980|USA|656-555-2272|JeanneDerry@Issaquah.org
4|7845987500482201|Spence|Michael|J.|337 Tosca Way|Burnaby|BC|74674|Canada|929-555-7279|MichaelSpence@Burnaby.org
5|1547887514054179|Gutierrez|Maya||8668 Via Neruda|Novato|CA|57355|$$#|387-555-7172|MayaGutierrez@Novato.org
6|5469887517782449|Damstra|Robert|F.|1619 Stillman Court|Lynnwood|WA|90792|$$#|922-555-5465|RobertDamstra@Lynnwood.org
7|54896387521172800|Kanagaki|Rebecca||2860 D Mt. Hood Circle|San Andres|DF|13343|Mexico|515-555-6247|RebeccaKanagaki@Tlaxiaco.org
8|47859687539744377|Brunner|Kim|H.|6064 Brodia Court|San Andres|DF|12942|Mexico|411-555-6825|Kim@Brunner@San Andresorg
9|35698487544797658|Blumberg|Brenda|C.|7560 Trees Drive|Sooke|BC|$$|Canada|815-555-3975|BrendaBlumberg@Richmond.org
10|36521487568712234|Stanz|Darren|M.|1019 Kenwal Rd.|$$#|OR|82017|USA|847-555-5443|DarrenStanz@Lake Oswego.org
...

Configurer le composant tDataShuffling

Procédure

Double-cliquez sur le tDataShuffling pour afficher sa vue Basic settings et définir ses propriétés.
Cliquez sur Sync columns afin de récupérer le schéma défini dans le composant d'entrée.
Dans la table Shuffling columns, cliquez quatre fois sur le bouton [+], pour ajouter quatre lignes, puis :
- dans la colonne Column, sélectionnez les colonnes desquelles mélanger les données,
- dans la colonne Group ID, sélectionnez l'identifiant de groupe pour chaque colonne. Les colonnes ayant le même identifiant de groupe sont mélangées ensemble.
Dans l'exemple ci-dessus, il y a deux groupes de colonnes à mélanger :
- Group ID 1 : credit_card
- Group ID 2 : lname (nom de famille), fname (prénom) et mi (initiale du deuxième prénom)
Le Job va remplacer les numéros de cartes de crédit de la colonne credit_card par des valeurs de différentes lignes. Il va également conserver ensemble les noms de famille, prénoms et initiales du deuxième prénom des colonnes lname, fname et mi, puis les remplacer par des valeurs de lignes différentes.
Cliquez sur l'onglet Advanced settings.

Dans la colonne Partitioning columns, cliquez sur le bouton [+] pour ajouter une ligne.

Le Job va mélanger les lignes de données originales partageant une même valeur pour les colonnes de partitions.

Dans l'exemple ci-dessus, le composant est configuré pour appliquer le processus de mélange aux lignes partageant la même valeur pour la colonne country.

Configurer le composant de sortie et exécuter le Job

Procédure

Double-cliquez sur le composant tFileOutputExcel pour afficher sa vue Basic settings et définir ses propriétés.
Configurez le nom du fichier de destination ainsi que le nom de la feuille et cochez la case Define all columns auto size.
Enregistrez votre Job et appuyez sur F6 pour l'exécuter.
Le composant tDataShuffling mélange les données dans les colonnes sélectionnées et écrit les résultats dans un fichier de sortie.
Cliquez-droit sur le composant de sortie et sélectionnez Data Viewer pour afficher les données mélangées.

Le tDataShuffling écrit en sortie les données mélangées. Le tDataShuffling mélange les valeurs au sein du premier groupe de colonnes (credit_card) et au sein du second groupe de colonnes (lname, fname et mi).

Le processus de mélange s'applique uniquement aux lignes partageant les mêmes valeurs pour la colonne country, comme défini dans les paramètres avancés du composant.

Les informations sensibles des données d'entrée ont été mélangées mais les données semblent toujours réelles et cohérentes. Les données mélangées sont toujours utilisables pour d'autres objectifs que la production.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici