Standardisation des données
La standardisation des données est une étape essentielle avant d'essayer de mettre des données en correspondance et ce, afin d'améliorer la précision du rapprochement.
Talend fournit différents moyens de standardiser des données :
- Vous pouvez standardiser des données grâce à des index de synonymes. Les synonymes sont standardisés et convertis en mots "maîtres".
Pour plus d'informations concernant les dictionnaires des synonymes de données, consultez Dictionnaires des synonymes des données.
- Vous pouvez utiliser des composants de validation d'adresses afin de valider des données d'adresses par rapport aux outils de validation d'Experian QAS, Loqate et MelissaData. Les adresses renvoyées par ces outils sont cohérentes et les variations dans la représentation des adresses sont éliminées. Les adresses étant standardisées, le rapprochement est plus facile.
Pour plus d'informations concernant les composants tQASBatchAddressRow, tLoqateAddressRow et tMelissaDataAddress, consultez Standardisation d'adresses.
- Vous pouvez utiliser le tStandardizePhoneNumber pour standardiser un numéro de téléphone, selon les conventions de formatage du pays d'origine.
Pour plus d'informations concernant la standardisation des numéros de téléphone, consultez Standardisation de numéros de téléphone.
- Vous pouvez utiliser d'autres composants plus génériques afin de transformer vos données et obtenir des enregistrements plus standardisés, comme le tReplace, le tReplaceList, le tVerifyEmail, le tExtractRegexFields ou le tMap.