Accéder au contenu principal Passer au contenu complémentaire

Améliorer le Talend Trust Score™ d'un jeu de données à l'aide de Talend Cloud Data Preparation

Talend Cloud Data Preparation, en combinaison avec Talend Cloud Data Inventory, peut être utilisé pour améliorer l'intégrité et la qualité globales de vos données.

Dans cet exemple, vous travaillez pour une entreprise B2B de e-commerce. En tant qu'utilisateur·trice métier, vous devez monitorer, mais également aider à améliorer la qualité des données et l'intégrité globale des données de votre entreprise. Ce scénario vous présente comment naviguer parmi l'inventaire des jeux de données de votre entreprise, identifier les jeux de données nécessitant des améliorations et corriger les problèmes pour améliorer leur qualité et leur Talend Trust Score™.

Consulter votre inventaire via la Console des données (Data Console)

Utilisez la Console des données pour une vue haut niveau de vos données.

Après votre connexion à la plateforme Talend Cloud pour commencer à travailler, ouvrez Talend Cloud Data Inventory pour arriver dans la vue Data Console (Console des données), qui vous donne de la visibilité sur tous les jeux de données de votre entreprise.

Vue de la console de données, avec des indicateurs de qualité, des diagrammes et des informations concernant les jeux de données.

La console de données vous donne des informations instantanées concernant l'intégrité de vos données et comment l'améliorer, grâce aux différentes tuiles couvrant chaque métrique spécifique de votre inventaire de jeux de données, comme le Talend Trust Score™, la qualité de données, les types sémantiques et bien d'autres. Vous pouvez commencer à évaluer la qualité et la fiabilité globales en consultant la tuile Talend Trust Score™.

Vous pouvez voir le score total, un diagramme en étoile illustrant les cinq axes composant le score et un graphique affichant le score global et le score de chaque axe au fil du temps, par rapport aux seuils acceptables précédemment définis.

Les seuils peuvent être configurés pour chaque aspect du Talend Trust Score™, ainsi que pour chaque tuile, afin de définir ce qui est considéré comme bon ou mauvais selon les standards de votre entreprise. Les jeux de données dont le score n'atteint pas le seuil défini sont accessibles directement depuis la tuile, afin que vous puissiez effectuer les corrections nécessaires.

Configuration du seuil pour les paramètres du Trust Score.

Vous allez à présent essayer d'affiner votre recherche à l'aide de filtres, pour trouver les jeux de données diminuant le Talend Trust Score™ global.

Utiliser les filtres pour trouver les jeux de données à corriger

Vous avez appris par votre hiérarchie que le système de facturation de votre entreprise a rencontré des problèmes et que les rapports financiers indiquent des résultats anormaux. En conséquence, vous allez filtrer votre inventaire via la console des données, afin de vérifier que les jeux de données contiennent bien des informations de facturation. Ces jeux de données ont des mots-clés, précédemment ajoutés. C'est ce critère que vous allez utiliser pour affiner votre recherche.

Procedure

  1. En haut de la vue Data console (Console des données), cliquez sur Add filter (Ajouter un filtre).
  2. Dans la liste déroulante qui s'affiche, cliquez sur Tags (Mots-clés) > Billing.
  3. Cliquez sur Apply.
    Mot-clé Billing (Facturation) appliqué à la recherche.

Results

La vue Data console (Console des données) est mise à jour afin de refléter la qualité des jeux de données correspondants. Vous pouvez voir depuis le diagramme d'historique du Talend Trust Score™ que les derniers jeux de données reçus n'atteignent pas le seuil requis en termes de score global.
Tuile du Trust Score avec un diagramme en étoile et un diagramme d'historique du score, affichant récemment un score bas.

En consultant la tuile Data quality (Qualité de données), vous constatez que le nombre de valeurs valides à travers les jeux de données n'est pas acceptable.

Diagrammes Data quality (Qualité des données) affichant un nombre de valeurs valides sous le standard fixé.

En conclusion, la cause principale de la baisse du Talend Trust Score™ global se trouve dans les jeux de données restants. L'étape suivante consiste à regarder dans la liste des jeux de données pour voir plus de détails.

Partager le jeu de données avec les utilisateur·trices compétent·es

Vous avez constaté que les jeux de données contenant des informations de facturation pouvaient être améliorés. Comme vous n'êtes pas particulièrement familiarisé·e avec les jeux de données référençant des données financières, vous allez tirer parti des fonctionnalités de travail collaboratif de Talend Cloud Data Preparation et de Talend Cloud Data Inventory. La meilleure action à faire est de partager le jeu de données ayant le score le plus bas avec l'un·e de vos collègues du service financier, plus expert·e dans le domaine.

Procedure

  1. Cliquez sur Datasets (Jeux de données) dans le menu à gauche, pour accéder à la liste des jeux de données.
    Le filtre précédemment configuré étant toujours actif, seuls les jeux de données ayant le mot-clé Billing sont affichés.
    Liste des jeux de données, filtrée sur le mot-clé Billing (Facturation).
  2. Placez votre curseur sur le jeu de données customers_billing_dataset, qui a le plus bas Talend Trust Score™ et, dans la colonne Sharing (Partage), cliquez sur l'icône de partage.
  3. Dans la fenêtre de configuration du partage qui s'ouvre, placez votre curseur sur le groupe d'utilisateur·trices Group finance et cliquez sur l'icône + pour ajouter ces utilisateur·trices en tant que collaborateur·trices sur ce jeu de données.
    Par défaut, les collaborateur·trices sont ajouté·es avec le droit Viewer (Observateur) uniquement.
  4. Dans la colonne Current collaborators (Collaborateurs actuels), cliquez sur le libellé Viewer (Observateur) près du groupe d'utilisateur·trices et, dans la liste déroulante qui s'affiche, modifiez leur droit en Editor (Éditeur).
    Fenêtre de partage, où Group Finance se voit attribuer l'accès au jeu de données.
  5. Cliquez sur Share (Partager).

Results

Le jeu de données customers_billing_dataset est à présent accessible par vos collègues du service financier. Vos collègues peuvent regarder les données de manière plus détaillée et éventuellement corriger les erreurs de qualité de données.

Corriger les problèmes avec Talend Cloud Data Preparation

Vous êtes à présent analyste de données dans un service financier et votre tâche est de comprendre d'où vient la mauvaise qualité du jeu de données customers_billing_dataset auquel on vous a donné accès. Vous allez consulter les données et créer une préparation.

Procedure

  1. Dans la liste Dataset (Jeu de données), cliquez sur customers_billing_dataset pour ouvrir la vue détaillée du jeu de données.
    Vous pouvez déjà constater que le jeu de données a un problème, grâce au diagramme du Talend Trust Score™, indiquant une tendance à la baisse dans les derniers jours. Cela signifie que les dernières données ajoutées à la base de données contiennent des erreurs. Cela est confirmé par la tuile Data quality (Qualité de données) affichant un pourcentage de valeurs invalides et vides.
    Vue détaillée du jeu de données customers_billing_dataset avec des diagrammes et des indicateurs de qualité.
  2. Pour consulter les données, cliquez sur l'icône Sample (Échantillon) dans le menu de gauche.
    Les données s'affichent sous forme de tableau. Vous pouvez rapidement voir des différences entre les valeurs valides et les valeurs invalides dans certaines colonnes. De manière plus visible, vous constatez que la colonne Billing_Country contient des adresses complètes divisées en plusieurs colonnes.
    Vue de l'échantillon du jeu de données, indiquant les erreurs à corriger dans les données.
  3. Pour commencer une préparation sur ce jeu de données et corriger ces erreurs, cliquez sur le bouton Preparations (Préparations) > Add (Ajouter) en haut à droite de l'écran.
    Curseur pointant sur le bouton Add preparation (Ajouter une préparation).

    Talend Cloud Data Preparation s'ouvre et vous pouvez commencer à appliquer des opérations de transformation à l'échantillon de données.

  4. Appliquez les fonctions suivantes pour corriger les informations de facturation :
    1. Split the text in parts (Scinder le texte en parties) sur la colonne Billing_Country, pour la scinder en 4 Parts (Parties) et avec , comme Separator (Séparateur).
    2. Remove trailing and leading characters (Supprimer les caractères en début et fin de champ) sur les colonnes Billing_Country_Split_2, Billing_Country_Split_3 et Billing_Country_Split_4, pour supprimer les espaces blancs (whitespaces).
    3. Delete the rows that match (Supprimer les lignes qui correspondent à) sur la colonne Billing_Country_Split_1 et utilisez l'expression régulière (FR)|(US)|(GB) comme valeur (Value).
    Les données provenant des adresses complètes ont été divisées en de nouvelles colonnes et nettoyées pour vous assurer que leur format est correct. Il ne vous reste plus que les lignes qui contenaient initialement les erreurs, qui contiennent à présent les informations de facturation proprement divisées dans des colonnes dédiées pour le pays, l'État, la ville et la rue.

Results

La préparation affiche à présent les données propres pouvant être utilisées pour mettre à jour le jeu de données source.
Vue de l'échantillon du jeu de données, avec une meilleure qualité de données et un formatage amélioré.

Exécuter la préparation pour mettre à jour le jeu de données source

Vous devez envoyer les données corrigées depuis la préparation vers le jeu de données original, pour le mettre à jour.

Cependant, à cause de la fonctionnalité de scission utilisée, vous devez d'abord effectuer une étape de mapping afin de réconcilier le schéma de la préparation et le schéma du jeu de données de destination provenant de la base de données.

Après avoir exécuté la préparation, vous pourrez voir l'impact de la préparation sur les différents indicateurs de qualité.

Procedure

  1. Cliquez sur le bouton Run en haut à droite de l'écran pour ouvrir les options d'export.
  2. Sélectionnez Source dataset (Jeu de données source) pour mettre à jour le jeu de données source.
  3. Cliquez sur Next (Suivant).
  4. Sélectionnez Update (Mise à jour) dans la liste déroulante Action, pour que les mauvais enregistrements de la base de données soient remplacés par ceux de la préparation.
  5. Sélectionnez la colonne Customer_id dans la liste déroulante Operation keys (Clés des opérations).
  6. Cliquez sur Next.
  7. Utilisez le glisser-déposer pour effectuer les mappings suivants, entre le schéma qui résulte de la préparation et le schéma du jeu de données de destination :
    1. Customer_id à Customer_id
    2. Billing_Country_Split_1 à Billing_Street
    3. Billing_Country_Split_2 à Billing_City
    4. Billing_Country_Split_3 à Billing_State
    5. Billing_Country_Split_4 à Billing_country
    Consultez Mapper la préparation et les colonnes de destination pour plus d'informations concernant le mapping de colonnes.
    Configuration du mapping entre les colonnes d'entrée et de sortie.
  8. Cliquez sur Next (Suivant).
  9. Sélectionnez le profil d'exécution Standard, pour que la préparation s'exécute sur le Moteur Cloud pour le design.
  10. Cliquez sur Run.
    L'exécution démarre en tâche de fond. Vous retournez sur l'écran de la préparation.
  11. Pour vérifier le statut de l'exécution, cliquez sur le bouton Run history (Historique des exécutions) en haut à droite de l'écran.
    Panneau Run history (Historique des exécutions) affichant les métriques et le statut d'exécution.
    Cet écran vous donne différentes informations concernant l'exécution courante et les exécutions passées. Pour plus d'informations, consultez la Page d'historique des exécutions.
  12. Une fois l'exécution terminée avec succès, cliquez sur customers_billing_dataset, dans la section Destination dataset (Jeu de données de destination) pour retourner directement à la vue détaillée du jeu de données mis à jour.
  13. Dans la tuile Data quality (Qualité de données), cliquez sur Select sample type (Sélectionner le type d'échantillon) > Refresh head sample (Actualiser l'échantillon de début) afin de récupérer les dernières modifications apportées au contenu de la base de données.

Results

Après actualisation, vous pouvez voir que le Talend Trust Score™ du jeu de données a considérablement augmenté, comme indiqué près du score.
Icône du Trust Score affichant une amélioration d'1,05 point.

L'utilisation de Talend Cloud Data Inventory et de Talend Cloud Data Preparation vous a permis de monitorer les jeux de données de toute votre entreprise, d'utiliser différents indicateurs pour identifier les potentielles erreurs et les corriger, afin d'améliorer l'intégrité de vos données.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.