Accéder au contenu principal Passer au contenu complémentaire

Extraire des valeurs distinctes

Avant de commencer

Vous devez avoir créé et exécuté une analyse de colonne utilisant l'indicateur Value Frequency (Fréquence des valeurs).

Pourquoi et quand exécuter cette tâche

Dans la perspective Profiling , vous pouvez créer une analyse de colonne·s pour calculer le nombre de valeurs les plus fréquentes pour chaque enregistrement distinct dans une colonne. Après avoir exécuté l'analyse de colonne(s), vous pouvez générer un Job prêt à l'emploi extrayant dans un fichier de sortie les valeurs distinctes d'une table de fréquence.

Vous pouvez utiliser ces valeurs distinctes comme jeu de données de référence pour d'autres processus de standardisation de données.

Dans l'exemple ci-dessous, une analyse de la colonne postal_code dans une base de données MySQL a été créée et exécuté dans la perspective Profiling .

Procédure

  1. Dans l'éditeur d'analyse, cliquez-droit sur l'indicateur Value Frequency.
    Menu contextuel d'un indicateur dans la section Analyzed Columns (Colonnes analysées).
  2. Sélectionnez Generate Job.
    La perspective Integration s'ouvre sur le Job généré.
    Job généré utilisant les composants tMysqlInput, tAggregateRow et tFileOutputDelimited.
    Les paramètres simples (Basic settings) du composant de base de données sont déjà configurés par la connexion à la base de données utilisée dans l'analyse de colonne.
    Les paramètres simples (Basic settings) du composant tAggregateRow sont déjà configurés pour compter le nombre de valeurs distinctes de la table de fréquence de la colonne postal_code.
    Vue d'ensemble des paramètres simples du tAggregateRow.
  3. Facultatif : Si nécessaire, utilisez un composant de sortie différent afin de récupérer les valeurs distinctes dans un type différent de fichier ou dans une base de données.
  4. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.
    Le Job extrait les valeurs distinctes de la table de fréquence et les écrit dans le fichier de sortie défini.
    Vous pouvez utiliser ce fichier comme une sorte de fichier de référence dans vos Jobs de qualité de données. Vous pouvez utiliser les codes postaux du fichier, par exemple, lorsque vous effectuez des correspondances de données sur des codes postaux.
    Pour plus d'informations concernant les composants et les Jobs de qualité de données, consultez le chapitre Data Quality, dans le Composants de qualité de données (Data Quality).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.