Aperçu de la fonction CDC
L'alimentation d'entrepôts de données implique l'extraction et la migration de données d'une ou plusieurs bases de données vers un ou plusieurs systèmes afin d'être analysées. Mais ces processus d'extraction et de migration de gros volumes de données sont très coûteux en ressources et en temps.
Ainsi le Change Data Capture (CDC) permet de ne capturer que les changements effectués aux données source et de les envoyer en temps réel vers un ou plusieurs systèmes cible. Cette fonction de capture de données réduit le trafic de données sur le réseau et, ainsi, réduit le temps de traitement ETL.
Le CDC utilisé dans le Studio Talend simplifie le processus d'identification des changements apportés aux données depuis la dernière extraction. Le CDC dans le Studio Talend identifie rapidement et capture les données qui ont été ajoutées, mises à jour ou supprimées des tables des bases de données, notamment : Oracle, MySQL, DB2, PostgreSQL, Sybase, MS SQL Server, Informix, Ingres, Teradata et AS/400, et les met à disposition pour une utilisation future par des applications ou des personnes.
Dans le Studio Talend, il existe trois modes de captures (CDC) différents :
-
Trigger : ce mode est le mode utilisé par défaut dans les composants CDC.
-
Redo/Archive log : ce mode est uniquement disponible pour les bases de données Oracle et AS/400.
-
XStream : ce mode est utilisé uniquement avec Oracle 12 avec OCI.
Pour plus d'informations concernant ces trois modes, consultez les trois sections suivantes.