Saltar al contenido principal Saltar al contenido complementario

Incorporar datos

El primer paso para crear una canalización de datos en un proyecto de Qlik Open Lakehouse es incorporar los datos. Este proceso implica la transferencia de datos desde la fuente y el almacenamiento de los conjuntos de datos en tablas Iceberg optimizadas.

El embarque de datos se crea en una sola operación, pero se realiza en dos pasos. El tipo de fuente de datos, ya sea CDC o streaming, determina las tareas de su proyecto:

Fuentes CDC

  • Aterrizar los datos

    Esto implica transferir los datos en minilotes continuos desde la fuente de datos local a un área de destino, utilizando una tarea de datos de destino.

    Transferir datos desde fuentes de datos

    También puede aterrizar los datos a un lakehouse, donde los datos se aterrizan al almacenamiento de archivos S3.

    Enviar datos de destino a Qlik Open Lakehouse

  • Almacenar conjuntos de datos

    Esto implica leer la carga inicial de los datos de aterrizaje en destino o cargas incrementales y aplicar los datos en un formato optimizado para la lectura mediante una tarea de datos de almacenamiento.

    Almacenar conjuntos de datos

Fuentes de streaming

  • Aterrizar los datos

    Esto implica transmitir los datos de forma continua desde la fuente a un área de destino, utilizando una tarea de datos de destino de streaming.

    Enviar datos de streaming a Qlik Open Lakehouse

  • Almacenar conjuntos de datos

    Esto implica leer la carga inicial de los datos de destino y aplicar los datos en un formato optimizado para la lectura mediante una tarea de datos de Transformación de almacenamiento.

    Almacenar conjuntos de datos de streaming

Uso de datos incorporados

Cuando haya incorporado los datos, puede utilizar los conjuntos de datos almacenados de varias maneras, incluyendo:

  • Puede utilizar los conjuntos de datos en una aplicación de análisis.

  • Puede replicar datos en uno o más almacenes de datos en la nube, incluidos Amazon Redshift y Snowflake, añadiendo una tarea de datos de Replicación directamente a la tarea de datos de Almacenamiento para fuentes CDC, o a la tarea de Transformación de streaming para fuentes de streaming.

    Para más información, vea Reflejar datos en un almacén de datos en la nube.

  • Puede transformar datos en su almacén de datos en la nube creando una canalización entre proyectos que consuma datos de su proyecto de incorporación.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.