Accéder au contenu principal Passer au contenu complémentaire

Masquer des numéros d'assurance-maladie Medicare

À l'aide du composant tPatternMasking, vous pouvez remplacer les informations sensibles, comme les numéros d'assurance-maladie Medicare, par des valeurs réalistes de manière cohérente.

Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend MDM Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Un numéro d'assurance-maladie Medicare identifie de manière unique un bénéficiaire du programme d'assurance-maladie fédéral américain. L'identifiant se compose de 11 caractères, sans compter les tirets, et utilise le modèle suivant :
  • un chiffre compris entre 1 et 9,
  • une lettre allant de A à Z (sauf S, L, O, I, B, Z),
  • un chiffre ou une lettre allant de A à Z (sauf S, L, O, I, B, Z),
  • un chiffre compris entre 0 et 9,
  • une lettre allant de A à Z (sauf S, L, O, I, B, Z),
  • un chiffre ou une lettre allant de A à Z (sauf S, L, O, I, B, Z),
  • un chiffre compris entre 0 et 9,
  • une lettre allant de A à Z (sauf S, L, O, I, B, Z),
  • une lettre allant de A à Z (sauf S, L, O, I, B, Z),
  • un chiffre compris entre 0 et 9,
  • un chiffre compris entre 0 et 9.

Par exemple, 1EG4-TE5-MK73 est un numéro d'assurance-maladie Medicare valide.

Ce scénario décrit un Job utilisant :
  • un tFixedFlowInput pour générer des numéros d'assurance-maladie Medicare ,
  • un tPatternMasking pour remplacer les numéros d'assurance-maladie Medicare originaux par des valeurs numériques aléatoires ou des lettres d'un jeu de valeurs nommées ou par une valeur numérique d'une plage spécifiée ,

  • un tLogRow pour écrire en sortie le jeu de données de substitution.
    Job utilisant les composants tFixedFlowInput, tPatternMasking et tLogRow.

Configurer votre Job

Procédure

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tPatternMasking et un tLogRow.
  2. Reliez ces trois composants à l'aide de liens Row > Main.

Configurer le composant d'entrée

Procédure

  1. Double-cliquez sur le composant tFixedFlowInput pour ouvrir sa vue Basic settings dans l'onglet Component.
    Configuration du composant tFixedFlowInput.
  2. Cliquez sur le bouton [...] à côté du champ Edit schema et utilisez le bouton [+] dans la boîte de dialogue pour ajouter une colonne de type String.
    Schéma du composant tFixedFlowInput.
  3. Cliquez sur OK dans la boîte de dialogue et acceptez la propagation des modifications lorsqu'elle vous est proposée.
  4. Dans le champ Number of rows, saisissez 1.
  5. Dans la zone Mode, sélectionnez l'option Use Inline Content(delimited file).
  6. Dans la zone Content, saisissez les données à masquer.

Configurer les opérations de masquage

Le fichier alpha_values.zip contient les valeurs alphabétiques autorisées : toutes les lettres de A à Z (sauf S, L, O, I, B, Z). Le fichier alpha_values.zip contient les valeurs alphanumériques autorisées : les valeurs provenant de alpha_values.zip et les chiffres.

Avant de commencer

Procédure

  1. Double-cliquez sur le tPatternMasking pour afficher sa vue Basic settings dans l'onglet Component.
    Configuration du composant tPatternMasking.
  2. Si nécessaire, cliquez sur Sync columns afin de récupérer le schéma défini dans le composant d'entrée.
  3. Cliquez sur le bouton Edit schema pour ouvrir la boîte de dialogue du schéma.

    Le tPatternMasking ajoute une colonne en lecture seule au schéma de sortie.

    Exemples de schémas d'entrée et de sortie.

    La colonne ORIGINAL_MARK libelle les enregistrements de sortie :

    • les enregistrements originaux sont libellés comme true.
    • les enregistrements substitués sont libellés comme false.
  4. Sous la table Modifications, cliquez sur le bouton [+] pour ajouter dix lignes, pour configurer les opérations de masquage de données :
    Les neuf premières lignes définissent les opérations de masquage pour chacun des neufs premiers caractères dans les valeurs en entrée. La dernière ligne définit l'opération de masquage pour les deux derniers caractères dans les valeurs en entrée.
    Le tiret est utilisé comme séparateur dans les valeurs en entrée. Vous n'avez pas besoin de configurer d'opérations de masquage des données pour les séparateurs car les données masquées générées en sortie conservent les séparateurs des valeurs en entrée.
  5. Configurez les opérations de masquage des données pour le premier, le quatrième et le septième caractères des données d'entrée :
    1. Cliquez sur le champ Column to mask de la première ligne et sélectionnez la colonne qui contient les données à masquer.
      Dans cet exemple, sélectionnez MBI.
    2. Dans le champ Field type, sélectionnez Interval comme type de champ auquel appartiennent les données et saisissez la plage de valeurs numériques autorisées dans le champ Values.
      Dans cet exemple, l'objectif est de masquer le premier caractère par un chiffre compris entre 1 et 9 ("1,9"). Le quatrième et le septième caractère seront masqués par un chiffre compris entre 0 et 9 ("0,9").
    3. Appliquez la même configuration à la quatrième et à la septième ligne de la table Modifications.
  6. Configurez les opérations de masquage des données pour le deuxième, le cinquième, le huitième et le neuvième caractère des données d'entrée :
    1. Cliquez dans le champ Column to mask de la deuxième ligne et sélectionnez la colonne qui contient les données à masquer.
    2. Dans le champ Field type, sélectionnez Enumeration from file.
    3. Cliquez sur le champ Values et appuyez sur Ctrl + Espace pour sélectionner la variable correspondant au fichier qui contient les valeurs autorisées.
      Dans cet exemple, sélectionnez la variable correspondant au fichier qui contient les valeurs alphabétiques autorisées.
    4. Appliquez la même configuration à la cinquième, la huitième et la neuvième lignes de la table Modifications.
  7. Configurez les opérations de masquage des données pour le troisième et le sixième caractère des données d'entrée :
    1. Cliquez sur le champ Column to mask de la troisième ligne et sélectionnez la colonne qui contient les données à masquer.
    2. Dans le champ Field type, sélectionnez Enumeration from file.
    3. Cliquez sur le champ Values et appuyez sur Ctrl + Espace pour sélectionner la variable correspondant au fichier qui contient les valeurs autorisées.
      Dans cet exemple, sélectionnez la variable correspondant au fichier qui contient les valeurs alphanumériques autorisées.
    4. Appliquez la même configuration à la sixième ligne de la table Modifications.
  8. Configurez les opérations de masquage des données pour les deux derniers caractères des données d'entrée :
    1. Cliquez sur le champ Column to mask de la dernière ligne et sélectionnez la colonne qui contient les données à masquer.
    2. Dans le champ Field type, sélectionnez Interval comme type de champ auquel appartiennent les données et saisissez "0,99" comme plage de valeurs numériques autorisées dans le champ Values.
      Dans cet exemple, l'objectif est de masquer les caractères par des chiffres compris entre 0 et 9.
      Pour masquer chacun des deux caractères séparément, vous pouvez ajouter une ligne à la table Modifications, définir deux opération de masquage et saisir "0,9" comme plage de valeurs numériques autorisées.

Configurer le composant de sortie et exécuter le Job

Procédure

  1. Double-cliquez sur le composant tLogRow pour afficher sa vue Basic settings et configurer ses propriétés.
    Configuration du composant tLogRow.
  2. Cliquez sur le bouton Sync columns afin de récupérer le schéma défini dans le composant précédent.
  3. Sélectionnez Table dans la zone Mode.
  4. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Résultats

Résultats dans la console.

Le composant tPatternMasking modifie les valeurs des données d'entrée et écrit en sortie les enregistrements originaux et de substitution.

Les données d'entrée ont été altérées mais les données de sortie semblent réelles et cohérentes. Les données de substitution sont utilisables en dehors de la production.

Le premier enregistrement est libellé comme true car 1EG4-T-E5-MK73 est un enregistrement original. Le deuxième enregistrement est libellé comme false car 7H24-E-K4-HY91 est un enregistrement de substitution :
  • Le premier caractère est remplacé par un caractère compris entre 1 et 9, comme défini dans les propriétés du tPatternMasking.
  • Le deuxième, le cinquième, le huitième et le neuvième caractères sont remplacés par l'une des lettres figurant parmi les valeurs autorisées contenues dans le fichier d'énumérations.
  • Le troisième et le sixième caractères sont remplacés par l'une des valeurs alphanumériques définies dans le fichier d'énumérations.
  • Les quatrième et septième caractères sont remplacés par un chiffre compris entre 0 à 9, comme défini dans les propriétés du tPatternMasking.
  • Les deux derniers caractères sont remplacés un nombre compris entre 0 et 99, comme défini dans les propriétés du tPatternMasking.
  • Les valeurs d'entrée utilisent des tirets comme séparateurs. Les tirets restent inchangés dans les données de sortie.

Le tPatternMasking retourne null pour 0EF6-T-F4-AC44 car cette valeur est invalide : le premier caractère, 0, est en dehors de la plage spécifiée ("1,9").

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.