Accéder au contenu principal Passer au contenu complémentaire

Créer un Job pour dédoublonner des données

Vous pouvez générer un Job pour dédoublonner des données dans un fichier spécifique des Métadonnées du . Via les paramètres de ce Job automatiquement généré, vous pouvez choisir d'écrire les doublons et les valeurs uniques dans deux fichiers ou bases de données séparé(e)s.

La séquence de dédoublonnage de données dans un fichier spécifique comprend les étapes suivantes :
  • Sélection du fichier que vous souhaitez dédoublonner.
  • Choix des colonnes sur lesquelles exécuter le Job de dédoublonnage.
  • Si nécessaire, définition d'une clé de bloc pour partitionner les données à traiter. Une clé de bloc est généralement nécessaire lorsque le fichier comprend de nombreuses données.
  • Choix de l'emplacement où écrire les enregistrements uniques et en doublons.
  • Exécution du Job généré.

Procédure





  1. Emplacement de l'option Launch Other (Lancer autre) dans le panneau Cheat Sheets (Aide-mémoire).
  2. Développez - Cheat Sheets > Job et sélectionnez Deduplicate Data, puis cliquez sur OK pour fermer la boîte de dialogue.
    Emplacement de l'aide-mémoire Deduplicate Data (Dédoublonner les données) dans la boîte de dialogue de sélection de l'aide-mémoire.

    Vue d'ensemble de l'aide-mémoire dans le panneau Cheat Sheet (Aide-mémoire).
  3. Lisez l'introduction puis cliquez sur Click to Restart.

    Cela va développer la première étape de la procédure : Select File (Sélectionner un fichier).

  4. Lisez les instructions puis cliquez sur Click to perform.

    L'assistant Input Type Select Dialog s'ouvre et vous guide à travers les étapes de la création du Job.

  5. Dans le champ Type list, sélectionnez le type de fichier sur lequel vous souhaitez exécuter le Job et cliquez sur OK.
    Une boîte de dialogue s'ouvre et affiche les connexions aux bases de données et fichiers définis dans le .
  6. Sélectionnez le fichier à nettoyer dans la section Metadata > connections et cliquez sur OK.

    L'étape suivante de l'aide-mémoire est développée.

  7. Lisez les instructions concernant comment choisir les champs à mettre en correspondance puis cliquez sur Click to perform afin d'ouvrir la vue suivante de l'assistant.
  8. Suivez les instructions et passez de l'assistant aux étapes dans la page des aide-mémoire jusqu'à la dernière étape : Review and Run the Generated Job.

    L'assistant configure tous les composants et métadonnées du Repository selon les paramètres définis dans les différentes vues de l'assistant puis génère le Job. Le passe à la perspective afin d'afficher le Job généré devant ressembler à celui présenté dans la capture d'écran ci-dessous :

    Job utilisant un composant tFileInputDelimited, un tGenKey, un tMatchGroup, un tFilterRow et deux tFileOutputDelimited.

Résultats

Les valeurs uniques et en doublon dans le fichier sont identifiées et stockées dans les sorties définies, fichiers ou bases de données. Le Job généré est stocké sous le nœud Job Designs dans la vue Repository.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.