Incorporar datos
El primer paso para crear una canalización de datos en un proyecto de Qlik Talend Data Integration es incorporar los datos. Esto implica la transferencia continua de datos desde la fuente de datos y el almacenamiento de conjuntos de datos en formato de lectura optimizada. Puede actualizar los datos con la gestión continua de cambios o usar recargas programadas.
La incorporación se crea en una sola operación, pero se realiza en dos pasos.
-
Aterrizar los datos
Esto implica transferir los datos de forma continua desde la fuente de datos local a un área de destino de aterrizaje mediante una tarea de aterrizaje de datos.
-
Almacenar conjuntos de datos
Esto implica leer la carga inicial de los datos de aterrizaje en destino o cargas incrementales y aplicar los datos en un formato optimizado para la lectura mediante una tarea de datos de almacenamiento.
Cuando haya incorporado los datos, puede utilizar los conjuntos de datos almacenados de varias maneras.
-
Puede usar los conjuntos de datos en una app de análisis.
-
Puede crear transformaciones.
-
Puede crear una galería de datos o data mart.
Incorporar datos
Comience incorporando datos en un proyecto. Los conjuntos de datos se almacenarán en el data warehouse en la nube, definido en el proyecto. Para obtener más información sobre los proyectos, vea Crear una canalización de datos.
-
En su proyecto, haga clic en Añadir nuevo y luego en Incorporar datos.
Nota de sugerenciaTambién puede hacer clic en en una fuente del proyecto y luego hacer clic en Incorporar datos. -
Agregue un Nombre y una Descripción para la incorporación.
Haga clic en Siguiente.
-
Seleccione la conexión de origen.
Puede seleccionar una conexión de origen existente o crear una nueva conexión a la fuente.
Para obtener más información, consulte Creación de conexiones con fuentes de datos.
Haga clic en Siguiente.
-
Seleccione los datos que cargar.
Para obtener más información, consulte Seleccionar datos.
Haga clic en Siguiente.
Se muestra Configuración, donde puede seleccionar el método de actualización y la configuración del historial.
-
Seleccione qué método utilizar para actualizar los datos en Método de actualización:
-
Captura de datos de cambios (CDC)
Si sus datos también contienen tablas que no admiten CDC o vistas, se crearán dos canalizaciones de datos. Una canalización con todas las tablas que admiten CDC y otra canalización con todas las demás tablas y vistas que utilizan Volver a cargar y comparar.
-
Volver a cargar y comparar
-
-
Seleccione si desea replicar el historial de los datos anteriores además de los datos actuales en Historial.
Haga clic en Siguiente cuando esté listo.
-
Si no va a utilizar Pasarela Data Movement para acceder a su fuente de datos, se mostrará la siguiente sección en la configuración:
Programador de replicación
-
Replicar datos cada: Puede programar con qué frecuencia capturar los cambios de la fuente de datos y establecer una Hora de inicio y una Fecha de inicio. Si los conjuntos de datos de origen admiten CDC (Captura de datos de cambios), solo se replicarán los cambios de los datos de origen y se aplicarán a las tablas de destino correspondientes. Si los conjuntos de datos de origen no admiten CDC (por ejemplo, Vistas), los cambios se aplicarán recargando todos los datos de origen en las tablas de destino correspondientes. Si algunos de los conjuntos de datos de origen admiten CDC y otros no, se crearán dos subtareas distintas: una para recargar los conjuntos de datos que no admiten CDC y la otra para capturar los cambios en los conjuntos de datos que sí admiten CDC.
El asistente de configuración de la incorporación le permite programar un intervalo de horas. Una vez que haya completado el asistente de incorporación, puede explorar diferentes opciones de programación, tal como se describe en Programación de tareas al trabajar sin Pasarela Data Movement.
Para obtener información sobre los intervalos mínimos de programación según el tipo de fuente de datos y el nivel de suscripción, consulte Intervalos de programación mínimos permitidos.
-
-
Obtenga una vista previa de las tareas de datos que se crean para incorporar datos y cámbieles el nombre, si lo prefiere.
Nota de sugerenciaLos nombres se utilizan al nombrar esquemas de base de datos en el activo de almacenamiento de datos. Como un esquema solo puede asociarse con una tarea, considere usar nombres que sean únicos para evitar conflictos con activos de datos de otros proyectos que usen la misma plataforma de datos. -
Seleccione si desea abrir alguna de las tareas de datos que se crean o volver al proyecto.
Cuando esté listo, haga clic en Finalizar.
Ahora ya se han creado las tareas de datos de incorporación. Para comenzar a replicar datos, necesita hacer lo siguiente:
-
Preparar y ejecutar la tarea de aterrizaje de datos.
Para obtener más información, consulte Transferir datos desde fuentes de datos.
-
Preparar y ejecutar la tarea de almacenamiento de datos.
Para obtener más información, consulte Almacenar conjuntos de datos.
Seleccionar datos
Puede seleccionar tablas o vistas específicas, o usar reglas de selección para incluir o excluir grupos de tablas.
Utilice % como comodín para definir un criterio de selección para esquemas y tablas.
-
%.% define todas las tablas en todos los esquemas.
-
Public.% define todas las tablas del esquema Público.
Criterios de selección le ofrece una vista previa basada en sus selecciones.
Ahora puede o bien:
-
Crear una regla para incluir o excluir un grupo de tablas según los criterios de selección.
Haga clic en Agregar regla desde los criterios de selección para crear una regla y seleccione o bien Incluir o Excluir.
Puede ver la regla bajo Reglas de selección.
-
Seleccione uno o más conjuntos de datos y haga clic en Agregar conjuntos de datos seleccionados.
Puede ver los conjuntos de datos agregados en Conjuntos de datos seleccionados de forma explícita.
Las reglas de selección solo se aplican al conjunto actual de tablas y vistas, no a las tablas y vistas que se agreguen en el futuro.