HDFSで2つのデータセットをマージ(非推奨)
情報メモDeprecated: 7.3.1-R2021-06のリリース以降、Sqoopコンポーネントは非推奨になっています。
このシナリオは、ビッグデータ関連のTalend製品にのみ適用されます。
このシナリオでは、tSqoopMergeを使用して、同じMySQLテーブルからHDFSに順次インポートする2つのデータセットをマージし、その間にレコードを変更する方法を示しています。
このシナリオで使用される最初のデータセット(変更前の古いデータセット)は、以下のように読み取られます:
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,3000,2010-05-02 15:34:05
HDFSのパスは/user/ychen/target_oldになります。
2番目のデータセット(変更後の新しいデータセット)は、以下のように読み取られます:
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,4000,2013-10-14 18:00:00
HDFSのパスは/user/ychen/target_newになります。
データセットは両方ともtSqoopImportによってインポートされています。tSqoopImportの使用方法は、DFSへのMySQLテーブルのインポートをご覧ください。
このシナリオのジョブでは、これら2つのデータセットを新しいレコードとマージして、古いものを上書きします。
このシナリオに沿って作業をする前に、使用するHadoopディストリビューションへの適切なアクセス権限と許可があることをご確認ください。その後、次の手順に従ってください。