Accéder au contenu principal Passer au contenu complémentaire

Profiler des colonnes d'adresses

À l'aide de la perspective Profiling de votre Studio Talend, vous allez analyser quelques colonnes client·es, notamment email et postal.

À l'aide d'indicateurs et de modèles natifs sur ces colonnes, les résultats d'analyse affichent les données d'adresses qui correspondent et ne correspondent pas, le nombre d'enregistrements les plus fréquents pour chaque modèle distinct, ainsi que le nombre de lignes, de doublons et de blancs dans chaque colonne.

Définir l'analyse de colonnes

Procedure

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.
  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.
    Menu Analyses

    L'assistant Create New Analysis s'ouvre.

    Assistant Create new analysis (Créer une analyse)
  3. Dans le champ de filtre, commencez à saisir basic column analysis (analyse simple de colonne), sélectionnez Basic Column Analysis et cliquez sur Next.
  4. Dans le champ Name, saisissez un nom pour l'analyse de colonne.
    Note InformationsImportant:

    N'utilisez pas les caractères spéciaux suivants dans le nom des éléments : ~ ! ` # ^ * & \\ / ? : ; \ , . ( ) ¥ ' " « » < >

    Ces caractères seront remplacés par un "_" dans le système de fichiers et vous risquez de créer des doublons.

  5. Configurez les métadonnées de l'analyse de colonnes (Purpose (Objectif), Description et Author (Auteur)) dans les champs correspondants, puis cliquez sur Next.
  6. Cliquez sur Finish.

Sélectionner les colonnes d'adresse et configurer les données d'exemple

Procedure

  1. Développez le nœud DB connections et parcourez-le jusqu'aux colonnes d'adresses que vous souhaitez analyser.
    Nœud DB connections (Connexions aux bases de données) développé pour sélectionner les colonnes à analyser.
  2. Sélectionnez les colonnes et cliquez sur Finish pour fermer l'assistant.

    Un fichier pour la nouvelle analyse de colonnes s'affiche sous le nœud Analysis de la vue DQ Repository et l'éditeur d'analyse s'ouvre sur les métadonnées de cette analyse.

  3. Dans la vue Data preview (Aperçu des données), cliquez sur Refresh Data (Actualiser les données).
    Vue d'ensemble de la section Data preview (Aperçu des données).

    Les données des colonnes sélectionnées sont affichées dans la table.

    Vous pouvez modifier votre source de données et les colonnes sélectionnées à l'aide des boutons New Connection et Select Data, respectivement.

  4. Dans le champ Limit, saisissez 50 pour le nombre d'enregistrement que vous souhaitez afficher dans la table et utiliser comme données d'exemple.
  5. Sélectionnez n random rows afin de lister 50 enregistrements aléatoires des colonnes sélectionnées.

Configurer les indicateurs système

Procedure

  1. Dans la zone Data Preview dans l'éditeur d'analyse, cliquez sur Select indicators pour ouvrir la boîte de dialogue Indicator Selection.
    Vue d'ensemble de la boîte de dialogue Indicator Selection (Sélection d'indicateurs).
  2. Cliquez dans les cellules à côté des noms d'indicateurs afin de les paramétrer pour les colonnes analysées et cliquez sur OK.

    Dans cet exemple, vous souhaitez consulter le nombre de lignes, de blancs et de doublons dans toutes les colonnes, afin de voir si les données sont cohérentes. L'indicateur Pattern Frequency Table est utilisé sur les colonnes email et postal afin de calculer le nombre des enregistrements les plus fréquents pour chaque modèle ou valeur distinct(e).

    Des indicateurs sont ainsi ajoutés dans les colonnes qui se trouvent dans la zone Analyzed Columns.

    Vue d'ensemble de la section Analyzed Columns (Colonnes analysées).
  3. Cliquez sur l'icône Options près de l'indicateur Blank Count (Nombre de blancs) et configurez la valeur 0 dans le champ Upper threshold (%) (Seuil supérieur (%)).

    Définir des seuils sur les indicateurs est très utile.

    Définition des paramètres des seuils dans l'assistant Indicator settings (Paramètres des indicateurs).

Configurer les modèles

Vous allez mettre en correspondance le contenu de la colonne email par rapport au format d'e-mail standard et le contenu de la colonne postal par rapport au format standard des codes postaux des États-Unis.

Cela permet de définir le contenu, la structure et la qualité des adresses e-mail et des codes postaux, ainsi que donner un pourcentage des données correspondant aux formats standards et des données ne correspondant pas.

Procedure

  1. Dans la vue Analyzed Columns (Colonnes analysées), cliquez sur l'icône Add pattern (Ajouter un modèle) près de l'adresse e-mail pour ouvrir la boîte de dialogue Pattern Selector (Sélecteur de modèle).
  2. Développez Regex > internet, cochez la case Email Address et cliquez sur OK pour fermer la boîte de dialogue.
  3. Cliquez sur l'icône Options près de l'indicateur Email Address (Adresse e-mail) et configurez la valeur 98.0 dans le champ Lower threshold (%) (Seuil inférieur (%)).

    Si le nombre d'enregistrements correspondants aux modèles est inférieur à 98%, il est indiqué en rouge dans les résultats d'analyse.

  4. Répétez l'opération pour ajouter la colonne postal au modèle US Zipcode Validation depuis le dossier address.

    Pour plus d'informations concernant les types de modèles et leur utilisation lors d'analyses de données, consultez Modèles dans le Guide d'utilisation duStudio Talend.

Exécuter l'analyse et afficher les résultats du profiling

Procedure

  1. Sauvegardez l'analyse de colonnes dans l'éditeur d'analyse puis appuyez sur F6 pour l'exécuter.
    Un groupe de diagrammes s'affiche dans le panneau Graphics, à droite de l'éditeur d'analyse, et montre les résultats de l'analyse de colonnes, notamment ceux de la mise en correspondance des modèles.
  2. Cliquez sur l'onglet Analysis Results au bas de l'éditeur d'analyse pour accéder à une vue plus détaillée des résultats.
    Ces résultats affichent les graphiques générés pour les colonnes analysées, ainsi que les tables détaillant les résultats des statistiques et des mises en correspondance des modèles.

Results

Vue d'ensemble des statistiques de modèles pour une colonne spécifique.

Les résultats du rapprochement de modèles montrent qu'environ 10 % des enregistrements d'adresses e-mail ne correspondent pas au modèle d'adresse e-mail standard. Les résultats de statistiques simples montrent qu'environ 8 % des enregistrements d'adresses e-mail sont vides et qu'environ 5 % sont des doublons. Les résultats du pattern frequency donnent le nombre d'enregistrements les plus fréquents pour chaque modèle distinct. Cela montre que les données ne sont pas cohérentes et que vous devez corriger et nettoyer les données d'emails avant de commencer votre compagne.

Les résultats de la colonne postal se présentent comme suit :

Vue d'ensemble des statistiques de modèles pour une colonne spécifique.

Les ensembles de résultats pour la colonne postal donnent le nombre d'enregistrements qui correspondent et le nombre d'enregistrements qui ne correspondent pas au format standard des codes postaux des États-Unis. Les ensembles de résultats donnent également le nombre de blancs et de doublons, ainsi que le nombre d'enregistrements les plus fréquents pour chaque modèle distinct. Ces résultats montrent que les données ne sont pas vraiment cohérentes.

Un certain pourcentage des clients ne peut être contacté ni par e-mail ni par courrier. Ces résultats montrent clairement que vos données ne sont pas vraiment cohérentes et qu'il faut qu'elles soient corrigées.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.