Fusionner deux jeux de données dans HDFS (déprécié)

Déprécié·e : Les composants Sqoop sont dépréciés depuis la version 7.3.1-R2021-06.

Ce scénario s'applique uniquement aux produits Talend avec Big Data.

Ce scénario montre comment utiliser le tSqoopMerge pour fusionner deux jeux de données qui sont importés de manière séquentielle dans HDFS, à partir de la même table MySQL, mais dont un enregistrement a été modifié.

Le premier jeu de données utilisé (celui avant les modifications) se présente comme suit :

id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,3000,2010-05-02 15:34:05

Le chemin vers ce jeu de données dans HDFS est /user/ychen/target_old.

Le second jeu de données utilisé (celui après les modifications) se présente comme suit :

id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,4000,2013-10-14 18:00:00

Le chemin vers ce jeu de données dans HDFS est /user/ychen/target_new.

Ces jeux de données sont tous les deux importés à l'aide du composant tSqoopImport. Pour un scénario montrant comment utiliser le tSqoopImport, consultez Importer une table MySQL dans HDFS.

Le Job décrit dans ce scénario fusionne deux jeux de données. Les nouveaux enregistrements écrasent les anciens.

Avant de commencer à reproduire ce scénario, assurez-vous d'avoir les droits d'accès appropriés à la distribution Hadoop à utiliser. Procédez comme suit :

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici

Fusionner deux jeux de données dans HDFS (déprécié)

Dans cette section

Cette page vous a-t-elle aidé ?