Générer des données en doublon d'un flux d'entrée
Ce scénario décrit un Job simple générant un échantillon de données en doublon d'un flux d'entrée à l'aide des théories des probabilités et des critères spécifiés sur trois colonnes : Name, City et DOB (date of birth).
Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend MDM Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.
Ce scénario utilise :
- un tFileInputDelimited comme composant d'entrée,
- un tDuplicateRow pour générer des données en doublon d'un flux d'entrée,
- un tFileOutputDelimited pour écrire en sortie les données dans un fichier délimité.
Voici une capture d'écran des données d'exemple du flux d'entrée :
Configurer votre Job
Procédure
- Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tDuplicateRow et un tFileOutputDelimited.
- Reliez les composants à l'aide d'un lien Row > Main.
Configurer les données d'entrée
Procédure
Configurer les données dupliquées
Procédure
Configurer le composant de sortie
Procédure
Exécuter le Job
Procédure
Afficher les diagrammes de résultats pour chaque distribution de probabilité
Le meilleur moyen de voir comment sont générés les doublons selon chacune des trois distributions de probabilité est de créer une analyse de rapprochement sur chacun des résultats et comparer les diagrammes.
Procédure
Résultats
Bernoulli distribution (Distribution de Bernoulli) : la courbe est symétrique. Les groupes de doublons sont distribués équitablement de chaque côté de la valeur moyenne, 4 dans cet exemple. Cette valeur moyenne est le nombre moyen de doublons dans un groupe de doublons et est la valeur définie dans le champ Average group size dans la vue Basic settings du composant tDuplicateRow.
Poisson distribution (Distribution de Poisson) : la courbe n'est pas symétrique. Les groupes de doublons ne sont pas distribués équitablement.
Geometric distribution (Distribution géométrique) : la forme de cette courbe est définie par le pourcentage configuré pour les enregistrements en doublon dans la vue Basics settings du tDuplicateRow. Plus le pourcentage est haut, moins il y aura de groupes, mais ils contiendront plus d'enregistrements. Dans cet exemple, le pourcentage pour les enregistrements en doublon est configuré à 80%. C'est la raison pour laquelle il y a de nombreux groupes avec deux enregistrements en doublon générés (148 groupes), alors qu'il n'y a qu'un groupe avec 14, 15 et 16 doublons.