Faire correspondre des données via de multiples passes à l'aide de composants Map/Reduce
Ce scénario s'applique uniquement aux produits Talend Platform avec Big Data et à Talend Data Fabric.
Notez que les composants Map/Reduce de Talend sont disponibles uniquement pour les utilisateurs et utilisatrices·rices ayant souscrit à une option Big Data.
Ce scénario explique comment créer un Job Map/Reduce Talend afin de rapprocher des données, à l'aide de composants Map/Reduce. Cela permet de générer du code Map/Reduce et exécuter vos Jobs dans Hadoop.
Le Job de ce scénario groupe les enregistrements clients similaires en exécutant deux passes de rapprochement consécutives (via deux composants tMatchGroup) et écrit en sortie les correspondances par groupes. La première passe fournit ses correspondances à la seconde, pour qu'elle ajoute d'autres correspondances identifiées par les nouvelles règles et clés de bloc.
Ce Job est une duplication du Job Standard d'intégration de données décrit dans Rapprochement de données clients via de multiples passes, mais les composants standards sont remplacés par des composants Map/Reduce.
Vous pouvez utiliser le Studio Talend pour convertir automatiquement le Job standard de la section précédente en un Job Map/Reduce. Ainsi, vous n'avez pas besoin de configurer à nouveau les paramètres des composants.
Avant de commencer à reproduire ce scénario, vérifiez que vous disposez des droits et autorisations nécessaires pour accéder à la distribution Hadoop utilisée.