Accéder au contenu principal Passer au contenu complémentaire

Générer une analyse sur les résultats d'une jointure pour analyser les doublons

Dans certains cas, lorsque vous analysez des tables de bases de données contenant des enregistrements en doublon et une clause de jointure, à l'aide d'une règle métier SQL, les résultats de la jointure indiquent qu'il y a plus de lignes dans la jointure que dans la table analysée.

La perspective dans le Studio vous permet de générer une analyse prête à l'emploi pour analyser ces enregistrements en doublon. Les résultats de cette analyse vous permettent de mieux comprendre la raison d'un nombre plus élevé d'enregistrements dans les résultats de la jointure que dans la table.

Avant de commencer

Une analyse de table contenant une règle métier SQL, avec une condition de jointure, doit avoir été configurée et exécutée dans la perspective Profiling du Studio Talend. Les résultats de la jointure montrent qu'il y a des doublons dans la table.

Pour plus d'informations, consultez Créer une analyse de table avec une règle métier SQL comprenant une condition de jointure.

Procédure

  1. Après avoir créé et exécuté une analyse de table avec des enregistrements en doublon, comme détaillé dans Créer une analyse de table avec une règle métier SQL comprenant une condition de jointure, cliquez sur l'onglet Analysis Results au bas de l'éditeur d'analyse.
  2. Cliquez-droit sur les résultats de la jointure dans la seconde table et sélectionnez Analyze duplicates.

    La boîte de dialogue Column Selection s'ouvre sur les tables analysées sélectionnées par défaut.

  3. Dans la boîte de dialogue, modifiez la sélection, si nécessaire, puis cliquez sur OK.
    Deux analyses de colonnes sont générées et affichées dans le dossier Analyses de la vue DQ Repository.
  4. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
    Les résultats d'analyse montrent deux barres, l'une représentant le nombre de lignes des enregistrements de données dans la colonne analysée, l'autre représente le nombre de doublons.
  5. Cliquez sur Analysis Results au bas de l'éditeur d'analyse pour accéder à la vue détaillée des résultats.
  6. Cliquez-droit sur le nombre de lignes ou de doublons dans la table, ou cliquez-droit sur la barre de résultats dans le graphique lui-même et sélectionnez une action à effectuer :
    Menu contextuel des résultats Row Count (Nombre de lignes) et Duplicate Count (Nombre de doublons).
    • View rows, pour ouvrir une vue sur la liste de toutes les lignes de données ou toutes les lignes en doublon dans la colonne analysée.
    • View values, pour ouvrir une vue sur la liste de toutes les valeurs de données dupliquées dans la colonne analysée.
    • Identify duplicates pour générer un Job prêt à l'emploi identifiant et séparant les enregistrements uniques et les enregistrements en doublon dans la colonne sélectionnée, pour traitement. Ce Job écrit en sortie tous les doublons dans un fichier CSV de rejet par défaut et écrit les valeurs uniques dans un autre fichier séparé.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.