Indexer un jeu de données de référence dans Elasticsearch

Déprécié·e

Ce scénario s'applique uniquement aux produits Talend Platform avec Big Data nécessitant souscription et à Talend Data Fabric.

Dans ce Job, le composant tMatchIndex crée un index dans Elasticsearch et l'alimente avec un jeu de données nettoyées et dédoublonnées contenant une liste de centres d'éducation situés à Chicago.

Après avoir effectué toutes les actions de rapprochement sur le jeu de données contenant une liste de centres d'éducation situés à Chicago, il n'est pas nécessaire de reprendre le processus de rapprochement depuis le début lorsque vous avez de nouveaux enregistrements ayant le même schéma. Vous pouvez indexer le jeu de données nettoyées dans Elasticsearch à l'aide de tMatchIndex pour effectuer du rapprochement continu.

Important : Ce composant est déprécié depuis la version 8.0 R2025-03 du Studio Talend et est supprimé à partir de la version 8.0 R2025-07 du Studio Talend.

Avant d'indexer un jeu de données de référence dans Elasticsearch :

Vous avez généré un modèle pour appairer les données à l'aide du tMatchPairing.

Pour plus d'informations, consultez Calculer des paires suspectes et écrire un échantillon dans et Calcul de paires suspectes et d'un échantillon suspect à partir de données source.
Assurez-vous que les données d'entrée que vous souhaitez indexer sont nettoyées et dédoublonnées.

Pour un exemple de nettoyage et de dédoublonnage d'un jeu de données, consultez Créer un jeu de données nettoyées à partir des paires suspectes libellées par le tMatchPredict et les enregistrements uniques calculés par le tMatchPairing.
Le cluster Elasticsearch en version 5+ doit être lancé.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici

Indexer un jeu de données de référence dans Elasticsearch

Dans cette section

Cette page vous a-t-elle aidé ?