Incorporar datos
El primer paso para crear una canalización de datos en un proyecto de Qlik Open Lakehouse es incorporar los datos. Este proceso implica la transferencia de datos desde la fuente y el almacenamiento de los conjuntos de datos en tablas Iceberg optimizadas.
El embarque de datos se crea en una sola operación, pero se realiza en dos pasos. El tipo de fuente de datos, ya sea CDC o streaming, determina las tareas de su proyecto:
Fuentes CDC
-
Aterrizar los datos
Esto implica transferir los datos en minilotes continuos desde la fuente de datos local a un área de destino, utilizando una tarea de datos de destino.
Transferir datos desde fuentes de datos
También puede aterrizar los datos a un lakehouse, donde los datos se aterrizan al almacenamiento de archivos S3.
-
Almacenar conjuntos de datos
Esto implica leer la carga inicial de los datos de aterrizaje en destino o cargas incrementales y aplicar los datos en un formato optimizado para la lectura mediante una tarea de datos de almacenamiento.
Fuentes de streaming
-
Aterrizar los datos
Esto implica transmitir los datos de forma continua desde la fuente a un área de destino, utilizando una tarea de datos de destino de streaming.
-
Almacenar conjuntos de datos
Esto implica leer la carga inicial de los datos de destino y aplicar los datos en un formato optimizado para la lectura mediante una tarea de datos de Transformación de almacenamiento.
Uso de datos incorporados
Cuando haya incorporado los datos, puede utilizar los conjuntos de datos almacenados de varias maneras, incluyendo:
-
Puede utilizar los conjuntos de datos en una aplicación de análisis.
-
Puede replicar datos en uno o más almacenes de datos en la nube, incluidos Amazon Redshift y Snowflake, añadiendo una tarea de datos de Replicación directamente a la tarea de datos de Almacenamiento para fuentes CDC, o a la tarea de Transformación de streaming para fuentes de streaming.
Para más información, vea Reflejar datos en un almacén de datos en la nube.
-
Puede transformar datos en su almacén de datos en la nube creando una canalización entre proyectos que consuma datos de su proyecto de incorporación.