Fusionner deux jeux de données dans HDFS (déprécié)
Pour plus de technologies supportées par Talend, consultez Composants Talend.
Ce scénario s'applique uniquement aux solutions Talend avec Big Data.
Ce scénario montre comment utiliser le tSqoopMerge pour fusionner deux ensembles de données qui sont importés de manière séquentielle dans HDFS, à partir de la même table MySQL, mais dont un enregistrement a été modifié.
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,3000,2010-05-02 15:34:05
Le chemin vers ce jeu de données dans HDFS est /user/ychen/target_old.
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,4000,2013-10-14 18:00:00
Le chemin vers ce jeu de données dans HDFS est /user/ychen/target_new.
Ces ensembles de données sont tous les deux importés à l'aide du composant tSqoopImport. Pour un scénario montrant comment utiliser le tSqoopImport, consultez Importer une table MySQL dans HDFS.
Le Job décrit dans ce scénario fusionne deux ensembles de données. Les nouveaux enregistrements écrasent les anciens.
Avant de commencer à reproduire ce scénario, assurez-vous d'avoir les droits d'accès appropriés à la distribution Hadoop à utiliser. Procédez comme suit :