Standardiser des adresses provenant de données non structurées
Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend MDM Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.
Dans ce scénario, six composants sont utilisés pour standardiser des adresses provenant de données d'entrée non structurées copiées d'un site Web en les rapprochant des données contenues dans un index, précédemment généré par un Job.
Pour plus d'informations concernant la création d'index, consultez tSynonymOutput.
Glissez-déposez de la Palette dans l'espace de modélisation graphique les composants suivants :
-
Un tFixedFlowInput : contient les données non structurées desquelles extraire les adresses.
-
Un tStandardizeRow : définit les règles de l'adresse et génère les adresses au format XML avec les balises définies. Ceci est le processus de normalisation et de standardisation des données initiales non structurées.
-
Un tFilterColumns : filtre l'adresse standardisée.
-
Un tExtractXMLField : extrait les attributs du nœud Address de l'arborescence XML pour renvoyer en sortie chaque composante de l'adresse dans une colonne typée.
-
Deux tLogRow : servent à afficher les données en sortie. Le premier tLogRow retourne les erreurs s'il y en a. Le second tLogRow affiche le résultat dans la console.
Avant de reproduire ce scénario, vous devez avoir récupéré le contenu d'un index afin de mettre en correspondance les données non structurées avec les données de l'index. Cet index se présente comme suit : <x id="x3427"/>
Les noms des rues de Paris s'affichent à gauche et leurs synonymes utilisés dans les données s'affichent à droite. Les données seront utilisées comme références pour standardiser les données d'adresse collectées depuis un site Web.
Pour reproduire ce scénario, procédez comme dans les sections suivantes.