Accéder au contenu principal Passer au contenu complémentaire

Fonctions de génération de données

Vous pouvez générer des données de sortie différentes des données d'entrée.

Function (Fonction) Génération aléatoire Génération cohérente Génération bijective Validation de données d'entrée
Générer à partir d'un modèle Oui No (Non) Non Non
Générer un UUID Oui No (Non) Non Non
Generate sequence Oui No (Non) Non Non
Generate from file/list Oui Oui No (Non) Non

Générer à partir d'un modèle

Cette fonction génère une valeur basée sur un modèle défini par l'utilisateur ou l'utilisatrice. Cette fonction ne s'applique qu'au type String.
Option Description
Paramètres supplémentaires Cette fonction nécessite un paramètre supplémentaire.

Le paramètre supplémentaire est un modèle suivant ces règles :

  • A est remplacé par une lettre capitale latine aléatoire.
  • a est remplacé par une lettre minuscule latine aléatoire.
  • 9 est remplacé par un chiffre aléatoire.
  • H est remplacé par un caractère Hiragana aléatoire.
  • K est remplacé par un caractère Katakana pleine chasse aléatoire.
  • k est remplacé par un caractère Katakana demi-chasse aléatoire.
  • C est remplacé par un caractère Kanji aléatoire.
  • G est remplacé par un caractère Hangul aléatoire.

Tous les autres caractères sont copiés tels quels dans la valeur générée.

Pour plus d'informations concernant les types de caractères supportés et les intervalles Unicodes associés, consultez Fonctions de masquage de données dans les composants de masquage.

Vous pouvez également utiliser des références arrière numérotées (\\<number>) à l'aide de la syntaxe suivante : <pattern>\\<number>,<group1>,<groupN>.

  • <pattern> correspond au modèle utilisé pour générer la valeur en sortie.
  • \\&lt;number> est une référence arrière numérotée. &lt;number> identifie la position du groupe placée après le premier caractère &quot;,&quot;.
  • <group1>,<groupN> sont des groupes de caractères séparés par des virgules. Chaque groupe est traité comme une seule sous-chaîne. Si une référence arrière fait référence à un groupe, celui-ci est ajouté tel quel dans la valeur générée.

Si vous souhaitez copier l'un des caractères utilisés dans les modèles (A, a, 9, H, h, K, k, C, G) tel quel dans la valeur générée, utilisez une référence arrière.

Cette fonction ne fonctionne pas correctement si une virgule est utilisée dans le modèle.

Dans l'exemple suivant :
  • Les caractères a sont remplacés par des lettres aléatoires latines en minuscule.
  • Les caractères s ne sont pas masqués dans la sortie générée.
  • \\2 fait référence au groupe placé après le deuxième caractère ",", @talend.com.
Valeur d'entrée Paramètre supplémentaire Exemple de valeur masquée
A26 "aaaass\\2,@gmail.com,@talend.com" hjdfss@talend.com
Dans l'exemple suivant :
  • \\3 fait référence au groupe placé après le troisième caractère ",", a.
  • Les caractères 9 sont masqués par des chiffres aléatoires.
Valeur d'entrée Paramètre supplémentaire Exemple de valeur masquée
A26 "\\39999,D,Z,a" a4825

Generate UUID

Cette fonction masque la valeur d'entrée par un identifiant unique universel généré aléatoirement (UUID).

Cette fonction utilise la méthode UUID.randomUUID() fournie par Java. Cette méthode Java n'utilise pas de graine. Si vous exécutez ce Job deux fois, la fonction génère ainsi des UUID différents.

Cette fonction n'est appliquée qu'aux types String.

Cette fonction ne nécessite aucun paramètre supplémentaire.

Dans l'exemple suivant, la valeur masquée est un UUID généré aléatoirement.

Valeur d'entrée Exemple de valeur masquée
A26 28e92000-aafa-4ec3-bd56-240f192a4a8c

Generate sequence

Cette fonction retourne le paramètre supplémentaire et, pour chaque ligne, ce nombre sera augmenté de 1.

Cette fonction peut être appliquée à tous les types de données sauf les Dates (Integer, Long, Strings, etc.).

Note InformationsRemarque : Cette fonction n'est pas compatible avec la version Spark de ce composant.
Option Description
Extra parameter Cette fonction nécessite un paramètre supplémentaire.

Le paramètre supplémentaire doit être un nombre.

Si le paramètre supplémentaire n'est pas un nombre, il est configuré à 0.

Dans l'exemple suivant, la séquence générée commence par le numéro configuré comme paramètre supplémentaire.
Valeurs d'entrée Paramètres supplémentaires Exemples de valeurs masquées
21

A48

"0" 0

1

Generate from file/list

Cette fonction remplace aléatoirement la valeur d'entrée par une des valeurs définies par l'utilisateur ou l'utilisatrice.

Cette fonction s'applique aux types String ou de données numériques.

Option Description
Method La méthode Randomly sélectionne aléatoirement une valeur de la liste (ou un fichier). Deux valeurs d'entrée similaires peuvent ainsi être masquées par différentes valeurs de sortie.

La méthode Consistently s'assure que deux valeurs d'entrée similaires sont masquées par la même valeur de sortie.

Lorsque vous utilisez l'option Consistently, la probabilité de générer des doublons peut être calculée à l'aide des formules suivantes :
  • P = 1 if K < N, or
  • P = 1-K*(K-1)*(K-2)*…*(K-N+1) / K^N

P est la probabilité de générer des doublons, N la taille des données d'entrée et K la taille de la liste d'entrée donnée en paramètre.

Via cette approche, il est possible de calculer la probabilité de trouver une paire partageant la même valeur au sein d'un groupe.

Par exemple, la probabilité que, dans un groupe de n personnes, deux personnes fêtent leur anniversaire le même jour est de :
  • 2,7 % dans un groupe de cinq personnes,
  • 41,1 % dans un groupe de 20 personnes,
  • 100 % dans un groupe de 367 personnes, puisque 366 dates d'anniversaire sont possibles, en comptant le 29 février.
Extra parameter Cette fonction nécessite un paramètre supplémentaire.
Le paramètre supplémentaire peut être :
  • une liste de deux valeurs minimum, séparées par une virgule,
  • ou un chemin d'accès à un fichier contenant les valeurs.

Les valeurs doivent êtres stockées dans une chaîne de caractères et séparées par des virgules, par exemple "item1, item2, item3, etc.". Cette fonction utilise la méthode hashCode() fournit par Java pour choisir un élément d'une liste.

Si vous utilisez la version Apache Spark du composant, configurez le chemin d'accès au fichier comme suit :
  • En mode local :
    • Apache Spark 3.1 et versions précédentes : prefix://file path ou file:///file path.
    • Apache Spark 3.2 et supérieures : file:///file path.
  • En modes Standalone et Yarn : prefix://file path.
  • Si l'index se situe dans un cluster : hdfs://hdpnameservice1/file path.

Les chemins vers les dossiers ne sont pas supportés.

Si le paramètre supplémentaire n'est pas défini, la fonction retourne une chaine vide ou 0.

Dans l'exemple suivant, la valeur masquée est l'une des valeurs définie comme paramètres supplémentaires.

Valeur d'entrée Method Paramètres supplémentaires Exemples de valeurs masquées
21 Randomly "help,documentation" help

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.