Calculer des paires suspectes et un échantillon suspect à partir des données source
Ce scénario s'applique uniquement aux produits Talend Platform avec Big Data et à Talend Data Fabric.
Dans ce scénario, le tMatchPairing utilise une clé de bloc pour calculer les paires de doublons suspects dans une liste de centres d'éducation de la petite enfance à Chicago.
Le cas d'utilisation décrit ici utilise :
-
un composant tFileInputDelimited pour lire le fichier d'entrée, contenant une liste des centres d'éducation de la petite enfance de Chicago, provenant de dix sources différentes,
-
un composant tMatchPairing pour pré-analyser les données, calculer les paires de doublons suspects et générer un modèle permettant d'appairer les données, utilisé par le composant tMatchPredict,
-
trois composants tFileOutputDelimited pour écrire en sortie les doublons suspects, un échantillon des paires suspectes et les enregistrements uniques,
-
un composant tLogRow pour écrire en sortie les doublons exacts.