Accéder au contenu principal Passer au contenu complémentaire

Comparaison de colonnes identiques dans différentes tables

Dans votre Studio Talend, vous pouvez créer une analyse comparant deux ensembles identiques de colonnes dans deux tables différentes. Cette analyse de redondance supporte uniquement les tables de bases de données.

Avant de commencer

Au moins une connexion à une base de données doit avoir été définie dans la perspective Profiling. Pour plus d'informations, consultez Se connecter à une base de données.

Dans cette vue, vous pouvez également accéder aux données actualisées via la perspective Data Explorer.

Pour accéder aux lignes de données analysées, cliquez-droit sur l'une des lignes de la table et sélectionnez une action à effectuer :
  • View match rows : pour accéder à une liste de toutes les lignes pouvant correspondre aux deux ensembles de colonnes identiques.
  • View not match rows : pour accéder à une liste de toutes les lignes ne pouvant pas correspondre aux deux ensembles de colonnes identiques.
  • View rows : pour accéder à une liste de toutes les lignes dans les deux ensembles de colonnes identiques.
Note InformationsAvertissement : L'explorateur de données ne supporte pas les connexions dont le nom d'utilisateur·trice est vide, par exemple avec l'authentification unique (SSO, Single Sign-On) de MS SQL Server. Si vous analysez des données à l'aide d'une de ces connexions et que vous essayez de visualiser les lignes et les valeurs des données dans la perspective Data Explorer , un message d'avertissement apparaît et vous demande de configurer vos informations de connexion au serveur SQL.

La capture d'écran ci-dessous montre la liste de toutes les lignes pouvant correspondre dans les deux ensembles, huit dans cet exemple.

Nombre de lignes correspondant dans les deux ensembles.

Dans l'éditeur SQL, vous pouvez enregistrer la requête exécutée et l'afficher sous les nœuds Libraries (Bibliothèques) > Source Files (Fichiers sources) de la vue DQ repository (Référentiel DQ) si vous cliquez sur l'icône d'enregistrement dans la barre d'outils de l'éditeur. Pour plus d'informations, consultez Sauvegarder les requêtes exécutées sur les indicateurs.

La capture d'écran ci-dessous illustre la liste de toutes les lignes ne pouvant correspondre dans les deux ensembles, trois dans cet exemple.

Nombre de lignes correspondant dans les deux ensembles.

Définir l'analyse de redondance

Procédure

  1. Dans la vue DQ repository (Référentiel DQ), développez le nœud Data Profiling (Profiling de données) et cliquez-droit sur Analyses > New analysis (Nouvelle analyse).
    Menu contextuel du nœud Analyses.
    L'assistant Create new analysis (Créer une analyse) s'ouvre.
  2. Sélectionnez Table > Redundancy Analysis (Analyse de redondance) et cliquez sur Create (Créer).
  3. Dans le champ Name, saisissez un nom pour l'analyse.
    Note InformationsImportant :

    N'utilisez pas les caractères spéciaux suivants dans le nom des éléments : ~ ! ` # ^ * & \\ / ? : ; \ , . ( ) ¥ ' " « » < >

    Ces caractères seront remplacés par un "_" dans le système de fichiers et vous risquez de créer des doublons.

  4. Définissez les métadonnées de l'analyse (son objectif et sa description) dans les champs correspondants et cliquez sur Next (Suivant).

Sélectionner les colonnes à comparer

Procédure

  1. Dans le menu Connection (Connexion), sélectionnez la connexion et cliquez sur Next (Suivant).
  2. Dans le menu Compare (Comparer), sélectionnez les colonnes à comparer.
    Dans cet exemple, vous souhaitez comparer des colonnes identiques dans les tables phone1 et phone2.
    Vue d'ensemble de la comparaison de colonnes dans le menu Compare (Comparer).
  3. Cliquez sur Select column A (Sélectionner la colonne A) pour ouvrir la boîte de dialogue Column selection (Sélection de colonnes).
  4. Parcourez les catalogues/schémas de votre connexion à la base de données pour atteindre la table contenant les colonnes que vous souhaitez analyser.
    Vous pouvez filtrer la liste des tables ou colonnes en saisissant le texte de votre choix dans le champ Table filter (Filtre de table) ou Column filter (Filtre de colonne), respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.
  5. Cliquez sur le nom de la table pour afficher toutes ses colonnes dans le panneau de droite de la boîte de dialogue Column Selection (Sélection de colonnes).
  6. Dans la liste à droite, cochez la case des colonnes que vous souhaitez analyser et cliquez sur OK.
    Vous pouvez également déposer la règle métier directement de la vue DQ repository (Référentiel DQ) dans la table dans l'éditeur d'analyse.
    Si vous cliquez-droit sur une colonne listée dans la vue Analyzed Columns (Colonnes analysées)et que vous sélectionnez Show in DQ repository view (Afficher dans la vue du référentiel DQ), la colonne sélectionnée sera automatiquement située sous la connexion correspondante dans l'arborescence.
  7. Cliquez sur Select column B (Sélectionner la colonne B) et suivez les mêmes étapes pour sélectionner le second ensemble de colonnes, ou glissez-le dans le panneau de la colonne de droite.
  8. Pour rapprocher les données du jeu A de celles du jeu B et non l'inverse, cochez la case Compute only number of A rows not in B (Calculer uniquement le nombre de lignes A qui ne sont pas dans B).
  9. Cochez la case Ignore null (Ignorer les nulls) si vous souhaitez ignorer les valeurs nulles lors du rapprochement.
  10. Si nécessaire, saisissez une clause WHERE SQL pour filtrer les données sur lesquelles exécuter l'analyse.

Finaliser et exécuter l'analyse

Pourquoi et quand exécuter cette tâche

Vous pouvez configurer des paramètres avancés, comme le nombre de connexions par analyse et son contexte.

Procédure

  1. Dans le menu Settings (Paramètres), configurez le nombre de connexions simultanées autorisées par analyse dans le champ Number of connections per analysis (Nombre de connexions par analyse).
    Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.
  2. Pour utiliser des contextes, cliquez sur Open context view (Ouvrir la vue de contexte).
    La vue Context (Contexte) s'ouvre et vous pouvez y gérer les contextes. Pour plus d'informations concernant les contextes et les variables, consultez Utilisation des variables de contexte dans les analyses.
  3. Cliquez sur Save and Run (Enregistrer et exécuter). Un message de confirmation s'affiche.
    Note InformationsConseil : Si vous souhaitez uniquement enregistrer la configuration, cliquez sur Save analysis (Enregistrer l'analyse) dans le coin supérieur droit.
  4. Cliquez sur OK si vous souhaitez continuer l'opération.

Résultats

La vue Analysis results (Résultat de l’analyse) s'ouvre et affiche les résultats d'analyse.

Dans cet exemple, 0 % des données présentes dans les colonnes de la table phone1 correspondent aux mêmes données des colonnes de la table phone2. Il n'y a aucun doublon.

Résultats de l'analyse dans la section Results (Résultats).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.