Créer un Job pour dédoublonner des données
Vous pouvez générer un Job pour dédoublonner des données dans un fichier spécifique des Métadonnées du Studio Talend. Via les paramètres de ce Job automatiquement généré, vous pouvez choisir d'écrire les doublons et les valeurs uniques dans deux fichiers ou bases de données séparé(e)s.
La séquence de dédoublonnage de données dans un fichier spécifique comprend les étapes suivantes :
- Sélection du fichier que vous souhaitez dédoublonner.
- Choix des colonnes sur lesquelles exécuter le Job de dédoublonnage.
- Si nécessaire, définition d'une clé de bloc pour partitionner les données à traiter. Une clé de bloc est généralement nécessaire lorsque le fichier comprend de nombreuses données.
- Choix de l'emplacement où écrire les enregistrements uniques et en doublons.
- Exécution du Job généré.
Procédure
Résultats
Les valeurs uniques et en doublon dans le fichier sont identifiées et stockées dans les sorties définies, fichiers ou bases de données. Le Job généré est stocké sous le nœud Job Designs dans la vue Repository.