CDCアーキテクチャーの概要
データウェアハウジングでは、データを分析するため、1つ(または複数)のデータベースからデータを抽出しターゲットシステムへ転送する必要があります。ただし、これには膨大な量のデータを抽出し転送する必要があり、リソースと時間の両方においてかなりのコストがかかります。
変更されたソースデータのみをキャプチャーし、それをリアルタイムにソースからターゲットシステムに移動する機能は、チェンジデータキャプチャー(CDC)として知られています。変更をキャプチャーすることで、ネットワークを経由するトラフィックが削減されるため、ETL時間を短縮できます。
Talend Studioで導入されたCDC機能は、最終抽出以降の変更データを識別するプロセスを簡易化します。Talend StudioのCDCは、データベーステーブルで追加、アップデート、または削除されたデータを迅速に識別してキャプチャーし、その後アプリケーションまたは個々のユーザーがこの変更データを使用できるようにします。CDC機能は、Oracle、MySQL、DB2、PostgreSQL、Sybase、MS SQL Server、Informix、Ingres、Teradata、およびAS/400に対応しています。
Talend Studioでは、3種類のCDCモードを使用できます:
-
[Trigger] (トリガー): このモードはCDCコンポーネントが使用するデフォルトモードです。
-
[Redo/Archive log] (再実行/アーカイブログ): このモードはOracle v11とそれ以前のバージョンおよびAS/400で使用されます。
-
[XStream]: このモードはOracle v12のOCIでのみ使用されます。
これらの3つのモードの詳細は、以下のセクションをご覧ください。