Saltar al contenido principal Saltar al contenido complementario

Incorporar datos

El primer paso para crear una canalización de datos en un proyecto de Qlik Open Lakehouse es incorporar los datos. Este proceso implica la transferencia de datos desde la fuente y el almacenamiento de los conjuntos de datos en tablas Iceberg optimizadas. Los cambios en las fuentes de datos se aplican continuamente a las tablas de almacenamiento en minilotes eficientes.

El embarque de datos se crea en una sola operación, pero se realiza en dos pasos.

  • Aterrizar los datos

    Esto implica transferir los datos de forma continua desde la fuente de datos local a un área de destino o de aterrizaje mediante una tarea de aterrizaje de datos.

    Transferir datos desde fuentes de datos

    También puede aterrizar los datos a un lakehouse, donde los datos se aterrizan al almacenamiento de archivos S3.

    Enviar datos de destino a Qlik Open Lakehouse

  • Almacenar conjuntos de datos

    Esto implica leer la carga inicial de los datos de aterrizaje en destino o cargas incrementales y aplicar los datos en un formato optimizado para la lectura mediante una tarea de datos de almacenamiento.

    Almacenar conjuntos de datos

Cuando haya incorporado los datos, puede utilizar los conjuntos de datos almacenados de varias maneras.

  • Puede usar los conjuntos de datos en una app de análisis.

  • Puede duplicar datos en Snowflake añadiendo una tarea de duplicación de datos directamente a la tarea de almacenamiento de datos.

  • Puede transformar datos en Snowflake creando una canalización entre proyectos que consuma datos de su proyecto de incorporación.

Incorporar datos

Comience incorporando datos en un proyecto. Los conjuntos de datos se almacenarán en la ubicación S3 definida en el proyecto. Para obtener más información sobre los proyectos, vea Crear un proyecto de canalización de datos.

  1. En su proyecto, haga clic en Crear y después en Aterrizar datos.

    Nota de sugerenciaTambién puede hacer clic en El icono Más en una fuente del proyecto y luego hacer clic en Incorporar datos.
  2. Agregue un Nombre y una Descripción para la incorporación.

    Haga clic en Siguiente.

  3. Seleccione la conexión de origen.

    Puede seleccionar una conexión de origen existente o crear una nueva conexión a la fuente.

    Para obtener más información, consulte Creación de conexiones con fuentes de datos.

    Haga clic en Siguiente.

  4. Seleccione los datos que cargar.

    Para obtener más información, consulte Seleccionar datos.

    Haga clic en Siguiente.

    Se muestra Configuración, donde puede seleccionar el método de actualización y la configuración del historial.

  5. Seleccione qué método utilizar para actualizar los datos en Método de actualización:

    • Captura de datos de cambios(CDC)

      Si sus datos contienen tablas que no admiten CDC, o vistas, se crearán dos canalizaciones de datos: una canalización con todas las tablas que admiten CDC, y otra canalización con el resto de tablas y vistas que utilizan Volver a cargar y comparar.

    • Volver a cargar y comparar

  6. Seleccione si desea replicar el historial de los datos anteriores además de los datos actuales en Historial.

  7. Haga clic en Siguiente cuando esté listo.

  8. Obtenga una vista previa de las tareas de datos que se crean para incorporar datos y cámbieles el nombre, si lo prefiere.

    Nota de sugerenciaLos nombres se utilizan cuando se nombran los esquemas de las bases de datos en la tarea Almacenamiento de datos. Considere la posibilidad de utilizar nombres que sean singulares y únicos para evitar conflictos con las tareas de datos de otros proyectos que utilicen la misma plataforma de datos.
  9. Seleccione si desea abrir alguna de las tareas de datos que se crean o volver al proyecto.

    Cuando esté listo, haga clic en Finalizar.

  10. Ahora ya se han creado las tareas de datos de incorporación. Para comenzar a replicar datos, necesita hacer lo siguiente:

  11. Prepare y ejecute la tarea de aterrizaje de datos.

    Para más información, vea Transferir datos desde fuentes de datos.

  12. Prepare y ejecute la tarea Almacenamiento de datos.

    Para más información, vea Almacenar conjuntos de datos.

Seleccionar datos

Puede seleccionar tablas o vistas específicas, o usar reglas de selección para incluir o excluir grupos de tablas.

Nota informativaSi la selección incluye vistas, CDC no es compatible.

Utilice % como comodín para definir un criterio de selección para esquemas y tablas.

  • %.% define todas las tablas en todos los esquemas.

  • Public.% define todas las tablas del esquema Público.

Criterios de selección le ofrece una vista previa basada en sus selecciones.

Ahora puede o bien:

  • Crear una regla para incluir o excluir un grupo de tablas según los criterios de selección.

    Haga clic en Agregar regla desde los criterios de selección para crear una regla y seleccione o bien Incluir o Excluir.

    Puede ver la regla bajo Reglas de selección.

  • Seleccione uno o más conjuntos de datos y haga clic en Agregar conjuntos de datos seleccionados.

    Puede ver los conjuntos de datos agregados en Conjuntos de datos seleccionados de forma explícita.

Las reglas de selección solo se aplican al conjunto actual de tablas y vistas, no a las tablas y vistas que se agreguen en el futuro.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.