Effectuer un rapprochement continu
Si vous voulez rapprocher de nouveaux enregistrements et un jeu de données nettoyées, il n'est pas nécessaire de reprendre le processus de rapprochement depuis le début.
Vous pouvez réutiliser et indexer le jeu de données nettoyées et effectuer un rapprochement continu.Afin d'effectuer des tâches de rapprochement continu, vous devez avoir lancé Elasticsearch version 5.1.2+.
Le processus de rapprochement continu comprend les étapes suivantes :
- La première étape consiste à calculer les suffixes pour séparer les enregistrements nettoyés et dédoublonnés d'un jeu de données et à les indexer dans Elasticsearch à l'aide du tMatchIndex.
Pour un exemple d'indexation de données dans Elasticsearch à l'aide du tMatchIndex, consultez Indexation d'un jeu de données de référence dans Elasticsearch.
Vous trouverez un exemple d'indexation de données dans Elasticsearch à l'aide du tMatchIndex sur Talend Help Center (https://help.talend.com (uniquement en anglais)).
- La deuxième étape consiste à comparer les enregistrements indexés à de nouveaux enregistrements ayant le même schéma et à écrire en sortie les doublons et les enregistrements uniques à l'aide du tMatchIndexPredict. Ce composant utilise le modèle permettant d'apparier les données et le modèle de rapprochement générés par le tMatchPairing et le tMatchModel
Pour un exemple de rapprochement de nouveaux enregistrements avec des enregistrements d'un jeu de données de référence, consultez Rapprochement continu à l'aide du tMatchIndexPredict.
Vous trouverez un exemple de rapprochement continu à l'aide du tMatchIndex sur Talend Help Center (https://help.talend.com (uniquement en anglais)).
Vous pouvez ensuite nettoyer et dédoublonner les enregistrements n'ayant aucune correspondance à l'aide du tRuleSurvivorship et alimenter le jeu de données nettoyées indexé dans Elasticsearch à l'aide du tMatchIndex.