Mélanger des valeurs de données afin de restreindre l'utilisation de données sensibles
Avec le composant tDataShuffling, vous pouvez mélanger des informations sensibles pour les remplacer par d'autres valeurs pour la même colonne, d'une ligne différente, permettant ainsi aux données de production d'être utilisées pour le test et l'apprentissage.
Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend MDM Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.
- un tFixedFlowInput pour générer des données personnelles, notamment des numéros de carte de crédit,
- un tDataShuffling pour mélanger les données originales et remplacer les valeurs par d'autres valeurs de la même colonne, d'une ligne différente,
- un tFileOutputExcel pour écrire en sortie le jeu de données mélangées.
Prérequis : Restreindre encore plus l'utilisation des données sensibles
Lors d'un mélange de données, il est recommandé de masquer les données sensibles. Rappelez-vous également de considérer les relations entre les colonnes lors du mélange de données et de vous assurer que le jeu de données original ne peut être reconstruit.
Dans ce scénario, les noms de famille et prénoms sont groupés, mais les adresses e-mail ne sont pas dans le même groupe. Ce qui signifie que la colonne email n'a aucune relation avec les colonnes lname et fname. Puisque la colonne email contient généralement des informations relatives aux noms et prénoms, cela peut permettre à des personnes malveillantes de reconstruire les données d'origine.
De plus, les colonnes address1, city et email ne sont dans aucun groupe, elles n'ont donc pas été mélangées. Cela signifie qu'il est possible de déduire, par exemple que Robert Damstra vit à 1619 Stillman Court, Lynnwood.
-
Pour éviter l'utilisation de numéros de cartes de crédit réels, vous pouvez masquer les numéros de carte de crédit à l'aide du composant tDataMasking.
-
Pour éviter l'identification des clients par leur adresse e-mail, vous pouvez masquer les adresses e-mail à l'aide du composant tDataMasking.
-
Pour rendre plus difficile la lecture des adresses réelles, vous pouvez ajouter les colonnes address1 et city dans d'autres groupes.
Configurer votre Job
Procédure
- Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tDataShuffling et un tFileOutputExcel.
- Reliez ces trois composants à l'aide de liens Main.