ビッグデータでSparkを使用したCDC
この記事では、Talendコンポーネントを使用してCDCを実行する方法のサンプルアプローチを示します。
CDCには、ビッグデータの世界でも同じ利点があります。ただし、HadoopでCDCを使用する際の課題は、Hadoopがデータのアップデートに理想的ではないことです。Hadoopへのデータの挿入はHiveでは簡単ですが、アップデートと削除は簡単ではありません。Hadoopはデータが保存される分散システムであり、ネットワーク全体で複数のノードがあるため、レコードをアップデートすることによるパフォーマンスのオーバーヘッドは膨大です。
この問題を解決する方法の1つは、Hiveベーステーブルまたは内部テーブルとHive外部テーブルを作成し、それらの上にビューを構築することです。ベーステーブルは、新しいレコードがロードされるまで、すべてのデータを保持します。新しく変更されたレコードは、外部テーブルにロードされます。内部テーブルは通常、一時テーブルのデータが使用されるときに使用され、外部テーブルはテーブルのデータがHiveの外部で使用されるときに使用されます。