Incorporación de datos a un almacén de datos
El primer paso para crear una canalización de datos en un proyecto de Qlik Talend Data Integration es incorporar los datos. Esto implica la transferencia continua de datos desde la fuente de datos y el almacenamiento de conjuntos de datos en formato de lectura optimizada. Puede actualizar los datos con la gestión continua de cambios o usar recargas programadas.
La incorporación se crea en una sola operación, pero se realiza en dos pasos.
-
Aterrizar los datos
Esto implica transferir los datos de forma continua desde la fuente de datos local a un área de destino de aterrizaje mediante una tarea de aterrizaje de datos.
Transferir datos desde fuentes de datos
También puede aterrizar los datos en un lakehouse, donde los datos se aterrizan en el almacenamiento de archivos en la nube. Esto está disponible para proyectos de Snowflake, en los que el destino/aterrizaje está configurado como Almacenamiento de archivos en la nube.
-
Almacenar conjuntos de datos
Esto implica leer la carga inicial de los datos de aterrizaje en destino o cargas incrementales y aplicar los datos en un formato optimizado para la lectura mediante una tarea de datos de almacenamiento.
Cuando haya incorporado los datos, puede utilizar los conjuntos de datos almacenados de varias maneras.
-
Puede usar los conjuntos de datos en una app de análisis.
-
Puede crear transformaciones.
-
Puede crear una galería de datos o data mart.
Incorporar datos
Comience incorporando datos en un proyecto. Los conjuntos de datos se almacenarán en el data warehouse en la nube, definido en el proyecto. Para obtener más información sobre los proyectos, vea Crear un proyecto de canalización de datos.
-
En su proyecto, haga clic en Crear y después en Aterrizar datos.
Nota de sugerenciaTambién puede hacer clic enen una fuente del proyecto y luego hacer clic en Incorporar datos.
-
Agregue un Nombre y una Descripción para la incorporación.
Haga clic en Siguiente.
-
Seleccione la conexión de origen.
Puede seleccionar una conexión de origen existente o crear una nueva conexión a la fuente.
Para obtener más información, consulte Creación de conexiones con fuentes de datos.
Haga clic en Siguiente.
-
Seleccione los datos que cargar.
Para obtener más información, consulte Seleccionar datos.
Haga clic en Siguiente.
Se muestra Configuración, donde puede seleccionar el método de actualización y la configuración del historial.
-
Seleccione qué método utilizar para actualizar los datos en Método de actualización:
-
Captura de datos de cambios (CDC)
Si sus datos también contienen tablas que no admiten CDC o vistas, se crearán dos canalizaciones de datos. Una canalización con todas las tablas que admiten CDC y otra canalización con todas las demás tablas y vistas que utilizan Volver a cargar y comparar.
-
Volver a cargar y comparar
-
-
Si se está incorporando a Snowflake, puede elegir uno de los siguientes métodos de carga:
-
Carga masiva (opción predeterminada)
Si selecciona Carga masiva, una vez creada la tarea, podrá ajustar los parámetros de carga en la pestaña Carga de datos de la configuración de la tarea.
-
Transmisión de Snowpipe
Nota informativaTransmisión de Snowpipe solo estará disponible para su selección si se cumplen las siguientes condiciones:
- El método de actualización Captura de datos de cambios (CDC) está activado.
- El Mecanismo de autenticación en el conector de Snowflake está configurado como Par de claves.
- Si utiliza Data Movement gateway, necesitará la versión 2024.11.45 o posterior.
Si selecciona Transmisión de Snowpipe, asegúrese de que conoce las limitaciones y consideraciones que se han de tener en cuenta al utilizar este método. Además, si selecciona Transmisión de Snowpipe y luego cambia al método de actualización Volver a cargar y comparar, el método de carga volverá a cambiar automáticamente a Carga masiva.
Las principales razones para elegir Transmisión de Snowpipe en lugar de Carga masiva son:
-
Menos costoso: como la transmisión de Snowpipe no utiliza el almacén de Snowflake, los costes operativos deberían ser significativamente más baratos, aunque esto dependerá de su caso de uso específico.
-
Latencia reducida: como los datos se transmiten directamente a las tablas de destino (en lugar de pasar por una fase intermedia), la replicación desde la fuente de datos al destino debería ser más rápida.
Nota de sugerenciaAl utilizar Transmisión de Snowpipe, la carga completa inicial puede ser significativamente más lenta que con la Carga masiva. Para optimizar el rendimiento de carga, especialmente cuando se cargan grandes conjuntos de datos, la mejor práctica es utilizar la Transmisión de Snowpipe junto con la funcionalidad de Carga paralela. -
-
Seleccione si desea replicar el historial de los datos anteriores además de los datos actuales en Historial.
Haga clic en Siguiente cuando esté listo.
-
Si no va a utilizar Data Movement gateway para acceder a su fuente de datos, se mostrará la siguiente sección en la configuración:
Programador de replicación
-
Replicar datos cada: Puede programar con qué frecuencia capturar los cambios de la fuente de datos y establecer una Hora de inicio y una Fecha de inicio. Si los conjuntos de datos de origen admiten CDC (Captura de datos de cambios), solo se replicarán los cambios de los datos de origen y se aplicarán a las tablas de destino correspondientes. Si los conjuntos de datos de origen no admiten CDC (por ejemplo, Vistas), los cambios se aplicarán recargando todos los datos de origen en las tablas de destino correspondientes. Si algunos de los conjuntos de datos de origen admiten CDC y otros no, se crearán dos subtareas distintas: una para recargar los conjuntos de datos que no admiten CDC y la otra para capturar los cambios en los conjuntos de datos que sí admiten CDC.
El asistente de configuración de la incorporación le permite programar un intervalo de horas. Una vez que haya completado el asistente de incorporación, puede explorar diferentes opciones de programación, tal como se describe en Configuración de la replicación.
Para obtener información sobre los intervalos mínimos de programación según el tipo de fuente de datos y el nivel de suscripción, consulte Intervalos de programación mínimos permitidos.
-
-
Obtenga una vista previa de las tareas de datos que se crean para incorporar datos y cámbieles el nombre, si lo prefiere.
Nota de sugerenciaLos nombres se utilizan al nombrar esquemas de bases de datos en la tarea de almacenamiento de datos. Considere la posibilidad de utilizar nombres que sean singulares y únicos para evitar conflictos con las tareas de datos de otros proyectos que utilicen la misma plataforma de datos. -
Seleccione si desea abrir alguna de las tareas de datos que se crean o volver al proyecto.
Cuando esté listo, haga clic en Finalizar.
Ahora ya se han creado las tareas de datos de incorporación. Para comenzar a replicar datos, necesita hacer lo siguiente:
-
Preparar y ejecutar la tarea de aterrizaje de datos.
Para obtener más información, consulte Transferir datos desde fuentes de datos.
-
Preparar y ejecutar la tarea de almacenamiento de datos.
Para obtener más información, consulte Almacenar conjuntos de datos.
Seleccionar datos
Puede seleccionar tablas o vistas específicas, o usar reglas de selección para incluir o excluir grupos de tablas.
Utilice % como comodín para definir un criterio de selección para esquemas y tablas.
-
%.% define todas las tablas en todos los esquemas.
-
Public.% define todas las tablas del esquema Público.
Criterios de selección le ofrece una vista previa basada en sus selecciones.
Ahora puede o bien:
-
Crear una regla para incluir o excluir un grupo de tablas según los criterios de selección.
Haga clic en Agregar regla desde los criterios de selección para crear una regla y seleccione o bien Incluir o Excluir.
Puede ver la regla bajo Reglas de selección.
-
Seleccione uno o más conjuntos de datos y haga clic en Agregar conjuntos de datos seleccionados.
Puede ver los conjuntos de datos agregados en Conjuntos de datos seleccionados de forma explícita.
Las reglas de selección solo se aplican al conjunto actual de tablas y vistas, no a las tablas y vistas que se agreguen en el futuro.