Indexer un jeu de données de référence dans Elasticsearch
Ce scénario s'applique uniquement aux produits Talend Platform avec Big Data nécessitant souscription et à Talend Data Fabric.
Dans ce Job, le composant tMatchIndex crée un index dans Elasticsearch et l'alimente avec un jeu de données nettoyées et dédoublonnées contenant une liste de centres d'éducation situés à Chicago.
Après avoir effectué toutes les actions de rapprochement sur le jeu de données contenant une liste de centres d'éducation situés à Chicago, il n'est pas nécessaire de reprendre le processus de rapprochement depuis le début lorsque vous avez de nouveaux enregistrements ayant le même schéma. Vous pouvez indexer le jeu de données nettoyées dans Elasticsearch à l'aide de tMatchIndex pour effectuer du rapprochement continu.
-
Vous avez généré un modèle pour appairer les données à l'aide du tMatchPairing.
Pour plus d'informations, consultez Calculer des paires suspectes et écrire un échantillon dans et Calcul de paires suspectes et d'un échantillon suspect à partir de données source.
-
Assurez-vous que les données d'entrée que vous souhaitez indexer sont nettoyées et dédoublonnées.
Pour un exemple de nettoyage et de dédoublonnage d'un jeu de données, consultez Créer un jeu de données nettoyées à partir des paires suspectes libellées par le tMatchPredict et les enregistrements uniques calculés par le tMatchPairing.
-
Le cluster Elasticsearch en version 5+ doit être lancé.