CDC avec Spark dans Big Data
Cet article montre un exemple d'approche pour faire des captures (CDC) à l'aide des composants Talend.
CDC a les mêmes avantages dans l'environnement de Big Data également. Mais la difficulté de l'usage de CDC dans Hadoop réside dans le fait qu'Hadoop n'est pas idéal pour les mises à jour des données. Insérer des données dans Hadoop est simple dans Hive mais les mises à jour et suppressions ne le sont pas. Étant donnée qu'Hadoop est un système distribué dans lequel les données sont stockées dans plusieurs nœuds à travers le réseau, les coûts en termes de performance pour la mise à jour d'un enregistrement sont particulièrement importants.
Un des moyens de régler ce problème est de créer des tables Base ou Hive, et des tables externes Hive, et de construire des vues en haut de ces tables. La table Base contiendra toutes les données jusqu'au chargement de nouveaux enregistrements. Les nouveaux enregistrements modifiés seront chargés dans les tables externes. Les tables internes sont généralement utilisées lorsque les données dans les tables temporaires et externes sont utilisées à l'extérieur de Hive.