Profiler des colonnes d'adresses
À l'aide de la perspective Profiling de votre Studio Talend, vous allez analyser quelques colonnes client·es, notamment email et postal.
À l'aide d'indicateurs et de modèles natifs sur ces colonnes, les résultats d'analyse affichent les données d'adresses qui correspondent et ne correspondent pas, le nombre d'enregistrements les plus fréquents pour chaque modèle distinct, ainsi que le nombre de lignes, de doublons et de blancs dans chaque colonne.
Définir l'analyse de colonnes
Procedure
Sélectionner les colonnes d'adresse et configurer les données d'exemple
Procedure
Configurer les indicateurs système
Procedure
Configurer les modèles
Vous allez mettre en correspondance le contenu de la colonne email par rapport au format d'e-mail standard et le contenu de la colonne postal par rapport au format standard des codes postaux des États-Unis.
Cela permet de définir le contenu, la structure et la qualité des adresses e-mail et des codes postaux, ainsi que donner un pourcentage des données correspondant aux formats standards et des données ne correspondant pas.
Procedure
Exécuter l'analyse et afficher les résultats du profiling
Procedure
Results
Les résultats du rapprochement de modèles montrent qu'environ 10 % des enregistrements d'adresses e-mail ne correspondent pas au modèle d'adresse e-mail standard. Les résultats de statistiques simples montrent qu'environ 8 % des enregistrements d'adresses e-mail sont vides et qu'environ 5 % sont des doublons. Les résultats du pattern frequency donnent le nombre d'enregistrements les plus fréquents pour chaque modèle distinct. Cela montre que les données ne sont pas cohérentes et que vous devez corriger et nettoyer les données d'emails avant de commencer votre compagne.
Les résultats de la colonne postal se présentent comme suit :
Les ensembles de résultats pour la colonne postal donnent le nombre d'enregistrements qui correspondent et le nombre d'enregistrements qui ne correspondent pas au format standard des codes postaux des États-Unis. Les ensembles de résultats donnent également le nombre de blancs et de doublons, ainsi que le nombre d'enregistrements les plus fréquents pour chaque modèle distinct. Ces résultats montrent que les données ne sont pas vraiment cohérentes.
Un certain pourcentage des clients ne peut être contacté ni par e-mail ni par courrier. Ces résultats montrent clairement que vos données ne sont pas vraiment cohérentes et qu'il faut qu'elles soient corrigées.