Accéder au contenu principal Passer au contenu complémentaire

Détecter des anomalies dans des colonnes (Analyse de dépendance fonctionnelle)

Ce type d'analyse vous permet de détecter des anomalies dans les dépendances des colonnes à travers la définition de colonnes "déterminantes" ou "dépendantes" et d'analyser les valeurs des colonnes dépendantes par rapport à celles des colonnes déterminantes. Cette analyse supporte uniquement les tables de bases de données.

Pourquoi et quand exécuter cette tâche

Ce type d'analyse détecte à quel point une valeur dans une colonne déterminante détermine fonctionnellement une autre valeur dans une colonne dépendante.

Cela peut vous permettre d'identifier les problèmes contenus dans vos données, comme les valeurs invalides. Par exemple, si vous analysez les dépendances entre une colonne contenant des codes postaux des États-Unis et une colonne contenant des états des États-Unis, le même code postal devra correspondre au même état. L'exécution de l'analyse de dépendance fonctionnelle sur ces deux colonnes montrera s'il y a une violation de cette dépendance.

Définir l'analyse pour détecter des anomalies dans des colonnes

Before you begin

Au moins une connexion à une base de données doit avoir été définie dans la perspective Profiling du Studio Talend.

Procedure

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.
  2. Dans le champ de filtre, commencez à saisir functional dependency analysis, sélectionnez Functional Dependency Analysis puis cliquez sur le bouton Next.
  3. Saisissez un nom.
  4. De manière facultative, saisissez les métadonnées de l'analyse de colonnes (Purpose (Objectif), Description et Author (Auteur)) dans les champs correspondants.
  5. Cliquez sur Next (Suivant).

Sélectionner les colonnes déterminantes ou dépendantes

Procedure

  1. Développez DB connections, parcourez l'arborescence jusqu'à la base de données que vous souhaitez analyser, sélectionnez-la et cliquez sur Finish pour fermer l'assistant [New Analysis].
    Un dossier pour l'analyse nouvellement créée s'affiche sous le nœud Analyses dans la vue DQ Repository et l'éditeur d'analyse s'ouvre avec les métadonnées définies de l'analyse.
    Vue d'ensemble de la section Analyzed Columns Set (Ensemble des colonnes analysées).
    La zone Data Preview affiche un échantillon de données des colonnes de la table.
  2. Dans le panneau Left Column, cliquez sur A Columns Set pour ouvrir la boîte de dialogue [Column Selection].
    Vous pouvez sélectionner le premier ensemble de colonnes par rapport auquel vous souhaitez analyser les valeurs dans les colonnes dépendantes. Vous pouvez également glisser les colonnes directement à partir de l'arborescence DQ Repository dans le panneau de gauche.
    L'objectif de cet exemple est d'évaluer les enregistrements présents dans la colonne city et ceux de la colonne state_province l'un par rapport à l'autre, afin de voir si les noms d'états correspondent aux noms des villes et vice versa.
    Vue d'ensemble de la fenêtre Column Selection (Sélection des colonnes).
  3. Dans la boîte de dialogue Column Selection, développez le nœud DB Connections et naviguez jusqu'aux colonnes que vous souhaitez définir comme colonnes déterminantes.
    Vous pouvez filtrer la liste des tables ou colonnes en saisissant le texte de votre choix dans les champs Table filter ou Column filter, respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.
  4. Cochez la case près des colonnes que vous souhaitez analyser et cliquez sur OK pour passer à l'étape suivante.
    Les colonnes sélectionnées s'affichent dans le panneau Left Columns de la vue Analyzed Columns Set. Dans cet exemple, sélectionnez la colonne city comme colonne déterminante.
    Vue d'ensemble des sections Left Columns (Colonnes de gauche) et Right Columns (Colonnes de droite).
  5. Répétez l'opération pour sélectionner les colonnes dépendantes ou glissez-les de la vue en arborescence DQ Repository (Référentiel DQ) vers le panneau Right Columns (Colonnes de droite). Dans cet exemple, sélectionnez la colonne state_province comme colonne dépendante. Cette analyse montrera si les noms des états correspondent aux noms des villes.
    Cliquez-droit sur l'une des colonnes listées dans la vue Analyzed Columns et sélectionnez Show in DQ Repository view.
  6. Cliquez sur l'onglet Reverse columns pour inverser automatiquement les colonnes définies et évaluer la relation inverse, quel nom de ville correspond à quel nom d'État.
    Vous pouvez vous connecter à une base de données différente en sélectionnant une autre connexion dans la liste Connection, dans la zone Data Preview. Cette liste affiche toutes les connexions créées dans le Studio Talend. Si les colonnes listées dans la vue Analyzed Columns Set (Ensembles de colonnes analysées) n'existent pas dans la nouvelle connexion, un message d'avertissement s'ouvre et vous permet de continuer ou d'annuler l'opération.

Finaliser et exécuter l'analyse de dépendance fonctionnelle

Procedure

  1. Dans la vue Analysis Parameter et dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la base de données sélectionnée, si besoin.
    Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.
  2. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.

    L'éditeur d'analyse passe à la vue Analysis Results.

    Diagrammes affichant les résultats de l'analyse de dépendance fonctionnelle.
    Cette analyse de dépendance fonctionnelle évalue les enregistrements présents dans la colonne city et ceux de la colonne state_province l'un par rapport à l'autre afin de voir si les noms d'états correspondent aux noms des villes, et vice versa. Les résultats retournés dans la colonne %Match indiquent la force de la dépendance fonctionnelle pour chaque colonne déterminante. Les enregistrements ne correspondant pas sont indiqués en rouge.
    La colonne #Match dans la table de résultats liste le nombre de valeurs déterminantes distinctes dans chacune des colonnes analysées. La colonne #row dans les résultats d'analyse liste les relations entre l'attribut déterminant et l'attribut dépendant. Dans cet exemple, #Match dans la première ligne de la table des résultats représente le nombre de villes distinctes et #row représente le nombre de paires distinctes (city, state_province). Puisque ces deux nombres ne sont pas équivalents, la relation de dépendance fonctionnelle est seulement partielle et le ratio des nombres (%Match) mesure la force de la dépendance. Lorsque ces nombres sont équivalents, la relation de dépendance fonctionnelle est "stricte", c'est-à-dire que chaque ville apparaît une seule fois avec chaque état.
    Note InformationsNote: La présence de valeurs nulls dans l'une des deux colonnes analysées diminuera la force de la dépendance. Le système n'ignore pas les valeurs nulls mais les considère comme des valeurs violant la dépendance fonctionnelle.
  3. Dans la vue Analysis Results, cliquez-droit sur l'une des lignes de dépendance et sélectionnez une action à effectuer :
    • View valid/invalid rows  : accéder à une liste, dans l'éditeur SQL, de toutes les lignes valides et invalides mesurées par rapport à l'analyse de dépendance fonctionnelle.
    • View valid/invalid values  : accéder à une liste, dans l'éditeur SQL, de toutes les valeurs valides et invalides mesurées par rapport à l'analyse de dépendance fonctionnelle.
    • View detailed valid/detailed invalid values : accéder à une liste détaillée, dans l'éditeur SQL, de toutes les valeurs valides et invalides mesurées par rapport à l'analyse de dépendance fonctionnelle.
    Dans l'éditeur SQL, vous pouvez sauvegarder la requête exécutée et la lister sous les dossiers Libraries > Source Files dans la vue DQ Repository, si vous cliquez sur l'icône de sauvegarde dans la barre d'outils de l'éditeur. Pour plus d'informations, consultez Sauvegarder les requêtes exécutées sur les indicateurs.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.