Bonne pratique : Capture de données modifiées avec Spark dans Big Data
Dans ce monde où les données sont vitales, les sociétés qui ont accès à des données en temps réel ont un coup d'avance sur leurs concurrents à la traine dans ce domaine. Une des raisons pour laquelle les services informatiques n'arrivent pas à fournir des données en temps réel est le temps que prend l'extraction des données de systèmes hérités et leur chargement dans des systèmes d'analyse.
Aussi, charger toutes ces données dans ces systèmes chaque fois ne constitue pas une utilisation efficace des ressources de calcul et demande également du temps avant d'arriver aux utilisateurs et utilisatrices. C'est là que Change Data Capture (CDC) joue un rôle primordial en intégrant les données plus rapidement dans les systèmes cible.
-
Four Steps Strategy for Incremental Updates in Apache Hive on Hadoop (en anglais) (uniquement en anglais)
-
Qu’est-ce que la capture des changements de données (CDC) ? (uniquement en anglais)
-
Just-in-Time Data Warehousing on Databricks (en anglais) (uniquement en anglais)