Accéder au contenu principal Passer au contenu complémentaire

Détecter des anomalies dans des colonnes (Analyse de dépendance fonctionnelle)

Ce type d'analyse vous permet de détecter des anomalies dans les dépendances des colonnes à travers la définition de colonnes "déterminantes" ou "dépendantes" et d'analyser les valeurs des colonnes dépendantes par rapport à celles des colonnes déterminantes. Cette analyse supporte uniquement les tables de bases de données.

Pourquoi et quand exécuter cette tâche

Ce type d'analyse détecte à quel point une valeur dans une colonne déterminante détermine fonctionnellement une autre valeur dans une colonne dépendante.

Cela peut vous permettre d'identifier les problèmes contenus dans vos données, comme les valeurs invalides. Par exemple, si vous analysez les dépendances entre une colonne contenant des codes postaux des États-Unis et une colonne contenant des états des États-Unis, le même code postal devra correspondre au même état. L'exécution de l'analyse de dépendance fonctionnelle sur ces deux colonnes montrera s'il y a une violation de cette dépendance.

Définir l'analyse pour détecter des anomalies dans des colonnes

Avant de commencer

Au moins une connexion à une base de données doit avoir été définie dans la perspective Profiling du Studio Talend.

Procédure

  1. Dans la vue DQ repository (Référentiel DQ), développez le nœud Data Profiling (Profiling de données) et cliquez-droit sur Analyses > New analysis (Nouvelle analyse).
  2. Sélectionnez Table > Functional dependency (Dépendance fonctionnelle) et cliquez sur Create (Créer).
  3. Saisissez un nom.
  4. De manière facultative, saisissez les métadonnées de l'analyse (Purpose (Objectif), Description et Author (Auteur)) dans les champs correspondants.
  5. Cliquez sur Next (Suivant).

Sélectionner les colonnes déterminantes ou dépendantes

Procédure

  1. Dans le menu Connection (Connexion), sélectionnez la connexion et cliquez sur Next (Suivant). Vous vous trouvez dans le menu Compare (Comparer).
  2. Cliquez sur Select column A (Sélectionner la colonne A) pour ouvrir la boîte de dialogue Column selection (Sélection de colonnes).
    Vous pouvez sélectionner le premier ensemble de colonnes par rapport auquel vous souhaitez analyser les valeurs dans les colonnes dépendantes. Vous pouvez également déposer les colonnes à analyser directement de la vue DQ repository (Référentiel DQ) dans le panneau des colonnes, à gauche.
    L'objectif de cet exemple est d'évaluer les enregistrements présents dans la colonne city et ceux de la colonne state_province l'un par rapport à l'autre, afin de voir si les noms d'états correspondent aux noms des villes et vice versa.
    Vue d'ensemble de la fenêtre Column Selection (Sélection des colonnes).
  3. Dans la boîte de dialogue Column Selection (Sélection des colonnes) , développez la connexion et naviguez jusqu'aux colonnes que vous souhaitez définir comme colonnes déterminantes.
    Vous pouvez filtrer la liste des tables ou colonnes en saisissant le texte de votre choix dans les champs Table filter ou Column filter, respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.
  4. Cochez la case près des colonnes que vous souhaitez analyser et cliquez sur OK pour passer à l'étape suivante.
    Dans cet exemple, sélectionnez la colonne city comme colonne déterminante.
    Vue d'ensemble de la fenêtre de sélection des colonnes A et B.
  5. Cliquez sur Select column B (Sélectionner la colonne B) et suivez les mêmes étapes pour sélectionner le second ensemble de colonnes, ou glissez-le dans le panneau de la colonne de droite.. Dans cet exemple, sélectionnez la colonne state_province comme colonne dépendante. Cette analyse montrera si les noms des états correspondent aux noms des villes.
    Si vous cliquez-droit sur une colonne listée dans la vue Analyzed Columns (Colonnes analysées)et que vous sélectionnez Show in DQ repository view (Afficher dans la vue du référentiel DQ), la colonne sélectionnée est automatiquement située sous la connexion correspondante dans l'arborescence.
  6. Cliquez sur Switch columns pour passer automatiquement aux colonnes définies et évaluer la relation inverse, les noms de villes correspondant aux noms d'États listés.
    Vous pouvez vous connecter à une base de données différente en sélectionnant une autre connexion dans la liste Connection, dans la zone Data Preview. Cette liste affiche toutes les connexions créées dans le Studio Talend. Si les colonnes listées dans la vue Analyzed Columns Set (Ensembles de colonnes analysées) n'existent pas dans la nouvelle connexion, un message d'avertissement s'ouvre et vous permet de continuer ou d'annuler l'opération.

Finaliser et exécuter l'analyse de dépendance fonctionnelle

Procédure

  1. Dans le menu Settings (Paramètres), configurez le nombre de connexions simultanées autorisées par analyse dans le champ Number of connections per analysis (Nombre de connexions par analyse).
    Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.
  2. Cliquez sur Save and Run (Enregistrer et exécuter).

    Une fenêtre d'information s'ouvre afin de confirmer que l'opération est en cours. L'éditeur d'analyse affiche les résultats d'analyse.

    Diagrammes affichant les résultats de l'analyse de dépendance fonctionnelle.
    Cette analyse de dépendance fonctionnelle évalue les enregistrements présents dans la colonne city et ceux de la colonne state_province l'un par rapport à l'autre afin de voir si les noms d'états correspondent aux noms des villes, et vice versa. Les résultats retournés dans la colonne %Match indiquent la force de la dépendance fonctionnelle pour chaque colonne déterminante. Les enregistrements ne correspondant pas sont indiqués en rouge.
    La colonne #Match dans la table de résultats liste le nombre de valeurs déterminantes distinctes dans chacune des colonnes analysées. La colonne #row dans les résultats d'analyse liste les relations entre l'attribut déterminant et l'attribut dépendant. Dans cet exemple, #Match dans la première ligne de la table des résultats représente le nombre de villes distinctes et #row représente le nombre de paires distinctes (city, state_province). Puisque ces deux nombres ne sont pas équivalents, la relation de dépendance fonctionnelle est seulement partielle et le ratio des nombres (%Match) mesure la force de la dépendance. Lorsque ces nombres sont équivalents, la relation de dépendance fonctionnelle est "stricte", c'est-à-dire que chaque ville apparaît une seule fois avec chaque état.
    Note InformationsRemarque : La présence de valeurs nulls dans l'une des deux colonnes analysées diminuera la force de la dépendance. Le système n'ignore pas les valeurs nulls mais les considère comme des valeurs violant la dépendance fonctionnelle.
  3. Dans la vue des résultats de l'analyse, cliquez-droit sur l'une des lignes de dépendance et sélectionnez une action à effectuer :
    • View valid/invalid rows  : accéder à une liste, dans l'éditeur SQL, de toutes les lignes valides et invalides mesurées par rapport à l'analyse de dépendance fonctionnelle.
    • View valid/invalid values  : accéder à une liste, dans l'éditeur SQL, de toutes les valeurs valides et invalides mesurées par rapport à l'analyse de dépendance fonctionnelle.
    • View detailed valid/detailed invalid values : accéder à une liste détaillée, dans l'éditeur SQL, de toutes les valeurs valides et invalides mesurées par rapport à l'analyse de dépendance fonctionnelle.
    Dans l'éditeur SQL, vous pouvez enregistrer la requête exécutée et l'afficher sous les nœuds Libraries (Bibliothèques) > Source Files (Fichiers sources) de la vue DQ repository (Référentiel DQ) si vous cliquez sur l'icône d'enregistrement dans la barre d'outils de l'éditeur. Pour plus d'informations, consultez Sauvegarder les requêtes exécutées sur les indicateurs.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.