Accéder au contenu principal

Calculer des paires suspectes et un échantillon suspect à partir des données source

Ce scénario s'applique uniquement aux produits Talend Platform avec Big Data et à Talend Data Fabric.

Dans ce scénario, le tMatchPairing utilise une clé de bloc pour calculer les paires de doublons suspects dans une liste de centres d'éducation de la petite enfance à Chicago.

Le cas d'utilisation décrit ici utilise :

  • un composant tFileInputDelimited pour lire le fichier d'entrée, contenant une liste des centres d'éducation de la petite enfance de Chicago, provenant de dix sources différentes,

  • un composant tMatchPairing pour pré-analyser les données, calculer les paires de doublons suspects et générer un modèle permettant d'appairer les données, utilisé par le composant tMatchPredict,

  • trois composants tFileOutputDelimited pour écrire en sortie les doublons suspects, un échantillon des paires suspectes et les enregistrements uniques,

  • un composant tLogRow pour écrire en sortie les doublons exacts.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.