Nettoyage des données
Une fois les données clients profilées et les problèmes identifiés, des actions doivent être effectuées sur ces données, afin de les nettoyer. Commencez par générer deux Jobs Talend : le premier pour supprimer les doublons de la colonne email et le second pour supprimer les valeurs ne correspondant pas au modèle des e-mails.
Cela vous permet de voir les problèmes à résoudre et de décider de l'outil à utiliser pour résoudre ces adresses.
Supprimer les valeurs en doublon
Après analyse des colonnes email et postal à l'aide d'indicateurs de statistiques simples, les résultats d'analyse affichent le nombre d'enregistrements en doublon dans les colonnes. Générez un Job prêt à l'emploi sur les résultats d'analyse. Ce Job supprime les valeurs en doublon dans la colonne sélectionnée.
Vous pouvez suivre la même procédure pour la suppression des doublons dans les colonnes Email or Phone.
Procedure
Results
Les valeurs en doublon sont écrites dans la base de données et dans le fichier spécifiés.
What to do next
Vous pouvez suivre la même procédure afin de retirer les doublons de la colonne postal.
Pour plus d'informations concernant l'utilisation de la perspective Profiling pour identifier et supprimer les données corrompues, incomplètes ou imprécises, consultez le chapitre Nettoyage de données, dans le Guide d'utilisation du Studio Talend.
Supprimer les valeurs ne correspondant pas
Procedure
Results
Les lignes valides et invalides de la colonne email sont écrites dans les fichiers de sortie définis.
Vous pouvez remplacer les fichiers de sortie par différents composants Talend et récupérer les lignes d'e-mails valides/invalides et les écrire dans des bases de données, par exemple.
Pour plus d'informations concernant l'utilisation de la perspective Profiling pour identifier et supprimer les données corrompues, incomplètes ou imprécises, consultez le chapitre Nettoyage de données, dans le Guide d'utilisation du Studio Talend.