Transferir datos desde fuentes de datos
El primer paso para transferir los datos es aterrizarlos en un destino previo. Esto implica la transferencia continua de datos desde la fuente de datos local a un área de destino donde aterrizan.
Puede obtener datos de varias fuentes de datos a través de conexiones de origen.
El área de destino donde aterrizan se define al crear el proyecto.
-
Qlik Cloud (a través de Amazon S3)
Cuando envía datos a Qlik Cloud (a través de Amazon S3), puede usarlos para generar tablas QVD listas para el análisis en Qlik Cloud.
-
Almacén de datos en la nube
Cuando envíe datos a un almacén de datos en la nube, como Snowflake o Azure Synapse Analytics, puede almacenar tablas en el mismo almacén de datos en la nube.
Crear y configurar una tarea de aterrizaje de datos
Aquí se describe cómo crear una tarea de aterrizaje de datos. La forma más rápida de crear una canalización de datos es incorporar los datos, lo que crea una tarea de aterrizaje de datos y una tarea de almacenamiento de datos, listas para prepararse y ejecutarse. Para más información, consulte Incorporar datos.
-
En su proyecto, haga clic en Añadir nuevo y seleccione Aterrizar datos.
-
En el diálogo Aterrizar datos, escriba un nombre y una descripción de la tarea de datos.
Seleccione Abrir para abrir la tarea de aterrizaje de datos cuando se crea.
Haga clic en Crear.
-
Haga clic en Seleccionar datos de origen.
-
Seleccione una conexión a los datos de origen y haga clic en Siguiente.
Puede usar los filtros del panel izquierdo para filtrar la lista de conexiones por tipo de fuente, espacio y propietario.
Si aún no tiene una conexión con los datos de origen, primero debe crear una haciendo clic en Agregar conexión.
Para obtener más información sobre cómo configurar una conexión con fuentes de datos, consulte Creación de conexiones con fuentes de datos.
Nota informativaCuando haya seleccionado tablas en el paso siguiente, no será posible cambiar la conexión de fuente de una fuente de datos local a una fuente de datos en la nube, o viceversa. Solo podrá cambiar la conexión a otra fuente de datos del mismo tipo. -
Seleccione los conjuntos de datos que incluir en la tarea de datos. El cuadro de diálogo de selección es diferente dependiendo del tipo de fuente a la que se haya conectado.
Cuando haya terminado de seleccionar tablas, haga clic en Guardar.
Se muestran los Conjuntos de datos.
-
Puede cambiar las opciones de configuración del aterrizaje en destino. Esto no es obligatorio.
-
Haga clic en Configuración.
Para obtener más información acerca de la configuración, consulte Configuraciones de aterrizaje en destino.
-
-
Ahora puede obtener una vista previa de la estructura y los metadatos de las tablas de activos de datos seleccionadas. Esto incluye todas las tablas explícitamente mostradas y las tablas que coinciden con las reglas de selección.
Si desea agregar más tablas del origen de datos, haga clic en Seleccionar datos de origen.
-
Puede realizar transformaciones básicas en los conjuntos de datos, como filtrar datos o agregar columnas. Esto no es obligatorio.
Para obtener más información, consulte Administrar conjuntos de datos.
-
Cuando haya agregado las transformaciones que desea, puede validar los conjuntos de datos haciendo clic en Validar conjuntos de datos. Si la validación encuentra errores, corríjalos antes de continuar.
Para obtener más información, consulte Validar y ajustar los conjuntos de datos.
-
Cuando esté listo, haga clic en Preparar para catalogar la tarea de datos y prepararlo para su ejecución.
Puede seguir el progreso en Progreso de la preparación, en la parte inferior de la pantalla.
-
Cuando la tarea de datos esté preparada y esté listo para comenzar a replicar datos, haga clic en Ejecutar.
La replicación ahora debería comenzar y puede ver el progreso en Supervisar. Para obtener más información, consulte Supervisión de una tarea de datos individual.
Seleccionar datos de una base de datos
Puede seleccionar tablas o vistas específicas, o usar reglas de selección para incluir o excluir grupos de tablas.
Utilice % como comodín para definir un criterio de selección para esquemas y tablas.
-
%.% define todas las tablas en todos los esquemas.
-
Public.% define todas las tablas del esquema Público.
Criterios de selección le ofrece una vista previa basada en sus selecciones.
Ahora puede o bien:
-
Crear una regla para incluir o excluir un grupo de tablas según los criterios de selección.
Haga clic en Agregar regla desde los criterios de selección para crear una regla y seleccione o bien Incluir o Excluir.
Puede ver la regla bajo Reglas de selección.
-
Seleccione uno o más conjuntos de datos y haga clic en Agregar conjuntos de datos seleccionados.
Puede ver los conjuntos de datos agregados en Conjuntos de datos seleccionados de forma explícita.
Las reglas de selección solo se aplican al conjunto actual de tablas y vistas, no a las tablas y vistas que se agreguen en el futuro.
Ejecutar una tarea de ubicación de destino con Captura de datos de cambios (CDC)
Puede ejecutar la tarea de ubicación de destino cuando esté preparada. Esto inicia la tarea "replication", que transfiere datos de la fuente de datos local al área de destino.
-
Haga clic en Ejecutar para comenzar a entregar los datos en destino.
Ahora debería comenzar la replicación y la tarea de datos tendrá el estado En ejecución. Primero se copia la fuente de datos completa, luego se realiza un seguimiento de los cambios. Esto significa que los cambios se rastrean y transfieren continuamente cuando se descubren. Esto mantiene actualizados los datos que aterrizan en el área de destino.
En la página principal de Qlik Talend Data Integration puede ver el estado, la fecha y hora de actualización de los datos de destino y el número de tablas que dan error. También puede abrir la tarea de datos y seleccionar la pestaña Tablas para ver la información básica de metadatos de las tablas.
Puede supervisar el progreso en detalle abriendo la pestaña Supervisar. Para obtener más información, consulte Supervisión de una tarea de datos individual.
Cuando se han cargado todas las tablas y el primer lote de cambios se ha procesado, Datos actualizados a en el panel de la tarea de datos indica que los cambios en la fuente hasta ese momento están disponibles en la tarea de datos.
Recarga de tablas
Puede recargar datos desde la fuente.
Recargar tablas individuales
Puede recargar tablas específicas manualmente sin interferir en la captura de datos de cambios. Esto resulta útil cuando hay problemas de CDC con una o más tablas.
-
Abra la tarea de aterrizaje de datos y seleccione la pestaña Monitor.
-
Seleccione las tablas que desea cargar.
-
Haga clic en Cargar tablas.
Si no puede resolver los problemas recargando las tablas, o si afectan a toda la tarea, puede volver a cargar todas las tablas en el destino. Esto reiniciará la captura de datos de cambios.
Recargar todas las tablas en el destino
Puede recargar todas las tablas en el destino si experimenta problemas de CDC que no se pueden resolver recargando tablas específicas. Algunos ejemplos de problemas son eventos que faltan, problemas ocasionados por la reorganización de la base de datos de origen o fallos al leer eventos de la base de datos de origen.
- Detenga la tarea de datos y todas las tareas que los consuman.
-
Abra la tarea de datos y seleccione la pestaña Supervisar.
-
Haga clic en ... y luego en Recargar destino.
Esto recargará todas las tablas en el destino usando Drop-Create y reiniciará toda la captura de datos modificados a partir de ahora.
-
Las tareas de almacenamiento que consumen la tarea de aterrizaje de datos se recargarán mediante comparar y aplicar en su próxima ejecución para sincronizarse. Se mantendrá el historial existente. El historial de tipo 2 se actualizará para reflejar los cambios después de que se ejecute el proceso de recarga y comparación.
La marca de tiempo de la fecha desde en el historial de tipo 2 reflejará la fecha de recarga y no necesariamente la fecha en que ocurrió el cambio en la fuente.
-
Las vistas en vivo del almacenamiento no serán fiables durante la operación de recarga del objetivo y hasta que el almacenamiento esté sincronizado. El almacenamiento se sincronizará completamente cuando:
-
Todas las tablas se recarguen usando comparar y aplicar.
-
Se realice un ciclo de cambios para cada tabla.
-
Ejecutar una tarea de aterrizaje de datos con Volver a cargar y comparar
Puede copiar datos utilizando la tarea de aterrizaje de datos cuando esté preparada.
-
Haga clic en Ejecutar para iniciar la carga completa.
Los datos ahora comenzarán a copiarse y la tarea de datos mostrará el estado En ejecución. Cuando se copia la fuente de datos completa, el estado es Finalizado.
En la página principal de Qlik Talend Data Integration puede ver el estado, la fecha y hora de actualización de los datos de destino y el número de tablas que dan error. También puede abrir la tarea de datos y seleccionar la pestaña Tablas para ver la información básica de metadatos de las tablas.
Puede supervisar el progreso en detalle abriendo la pestaña Supervisar. Para obtener más información, consulte Supervisión de una tarea de datos individual.
Cuando todas las tablas están cargadas, Datos actualizados a en el panel del activo de datos indica que los cambios en la fuente hasta ese momento están disponibles en la tarea de datos. No obstante, puede que algunas tablas de la tarea de datos se actualicen en un momento posterior, dependiendo de cuándo comenzó la carga. Esto significa que no se garantiza la coherencia de los datos. Por ejemplo, si la carga comenzó a las 08:00 y duró 4 horas, Datos actualizados a mostrará las 08:00 horas, cuando se completó la carga. Sin embargo, una tabla que comenzó a recargarse a las 11.30 incluirá cambios de la fuente que ocurrieron entre las 08:00 y las 11:30.
Datos actualizados a refleja solo las tablas que se cargaron correctamente. No muestra nada relativo a las tablas que indique que sus recargas hayan fallado. En destinos en la nube, el campo estará vacío si se completa una recarga con todas las tablas con errores.
Recargar datos al usar Volver a cargar y comparar
Cuando utiliza Volver a cargar y comparar como método de actualización, necesita volver a cargar los datos para mantenerlos actualizados con la fuente de datos.
-
Haga clic en Recargar para realizar una recarga manual de todas las tablas.
-
Configure una recarga programada.
Recargar tablas individuales
Puede recargar tablas específicas de forma manual. Esto resulta útil cuando hay problemas con una o más tablas.
-
Abra la tarea de aterrizaje de datos y seleccione la pestaña Monitor.
-
Seleccione las tablas que desea cargar.
-
Haga clic en Cargar tablas.
- Esta opción estará disponible después de que la tarea de aterrizaje se haya ejecutado al menos una vez y solo cuando la tarea no se esté ejecutando.
- No se admiten cambios en los metadatos. Si hay cambios de metadatos en la fuente, se propagan al destino al recargar los datos, pero no se manejarán adecuadamente. Esto puede provocar que falle el almacenamiento.
Programar una tarea de aterrizaje de datos con Volver a cargar y comparar
Puede programar recargas periódicas para la tarea de aterrizaje de datos si tiene el rol Puede operar en el espacio de la tarea de datos. El estado de la tarea de datos debe ser al menos Preparado para que la programación esté activa.
-
Haga clic en ... en una tarea de datos y seleccione Programación.
Puede establecer una programación basada en el tiempo.
Para obtener información sobre los intervalos mínimos de programación según el tipo de fuente de datos y el nivel de suscripción, consulte Intervalos de programación mínimos permitidos.
Establecer prioridad de carga para conjuntos de datos
Puede controlar el orden de carga de los conjuntos de datos en su tarea de datos asignando una prioridad de carga a cada conjunto de datos. Esto puede resultar útil, por ejemplo, si desea cargar conjuntos de datos más pequeños antes que conjuntos de datos grandes.
-
Haga clic en Prioridad de carga.
-
Seleccione una prioridad de carga para cada conjunto de datos.
La prioridad de carga predeterminada es Normal. Los conjuntos de datos se cargarán en el siguiente orden de prioridad:
-
La más alta
-
Más alta
-
Alta
-
Normal
-
Baja
-
Más baja
-
La más baja
Los conjuntos de datos con la misma prioridad se cargan sin ningún orden en particular.
-
-
Haga clic en Aceptar.
Operaciones en la tarea de aterrizaje de datos
Puede realizar las siguientes operaciones en una tarea de aterrizaje de datos desde el menú de tareas.
-
Abrir
Esto abre la tarea de aterrizaje de datos. Puede ver la estructura de la tabla y los detalles sobre la tarea de datos.
-
Editar
Puede editar el nombre y la descripción de la tarea.
-
Eliminar
Puede eliminar la tarea de datos.
Los objetos siguientes no se eliminan y deben eliminarse manualmente:
-
Los datos en el área de destino.
-
-
Ejecutar
Puede ejecutar la tarea de datos para comenzar a copiar datos.
Ejecutar una tarea de ubicación de destino con Captura de datos de cambios (CDC)
Ejecutar una tarea de aterrizaje de datos con Volver a cargar y comparar
-
Detener
Puede detener el funcionamiento de una tarea de datos que se está ejecutando. El área de destino no se actualiza con los datos modificados.
Cuando detiene una tarea de datos de carga completa con un programa de recarga, solo se detiene la recarga actual. Si el estado de la tarea de datos es Detenido y hay un programa de recarga activo, se volverá a cargar a la próxima hora programada. Debe desactivar el programa de recarga en Programar recarga.
-
Recargar
Puede realizar una recarga manual de una tarea de datos en el modo de actualización Volver a cargar y comparar.
- Preparar
Esto prepara la tarea para su ejecución. Esto incluye:
-
Validar que el diseño sea válido.
-
Crear o modificar las tablas físicas y las vistas para que coincidan con el diseño.
-
Generar el código SQL para la tarea de datos.
-
Crear o modificar las entradas de catálogo para los conjuntos de datos de salida de la tarea.
Puede seguir el progreso en Progreso de la preparación, en la parte inferior de la pantalla.
-
-
Volver a crear las tablas
Esto vuelve a crear los conjuntos de datos a partir de la fuente.
-
Programación
Puede configurar una recarga programada para las tareas de aterrizaje de datos en el modo de carga completa. Puede establecer una programación basada en el tiempo y esta se puede personalizar.
También puede activar o desactivar las recargas programadas.
Debe tener el rol Puede operar en el espacio de la tarea de datos para programar recargas.
-
Almacenar datos
Puede crear una tarea de almacenamiento de datos que utilice datos de esta tarea de aterrizaje de datos.
Actualizar los metadatos
Puede actualizar los metadatos de la tarea para alinearlos con los cambios en los metadatos de la fuente en la vista Diseño de una tarea. Para aplicaciones SaaS que utilizan el administrador de metadatos, este debe actualizarse antes de poder actualizar los metadatos en la tarea de datos.
-
Tiene una de dos opciones:
-
Haga clic en ... y luego en Actualizar metadatos para actualizar los metadatos de todos los conjuntos de datos de la tarea.
-
Haga clic en ... en un conjunto de datos de Conjuntos de datos y luego en Actualizar metadatos, para actualizar los metadatos de un único conjunto de datos.
Puede ver el estado de la actualización de metadatos en Actualizar metadatos en la parte inferior de la pantalla. Puede ver cuándo se actualizaron los metadatos por última vez pasando el cursor del ratón sobre .
-
-
Prepare la tarea de datos para aplicar los cambios.
Una vez preparada la tarea de datos y aplicados los cambios, estos se eliminan de Actualizar metadatos.
Debe preparar tareas de almacenamiento que consuman esta tarea para propagar los cambios.
Si se elimina una columna, se añade una transformación con valores Null para garantizar que el almacenamiento no perderá datos históricos.
Limitaciones
-
Un cambio de nombre con una columna eliminada antes de eso, en el mismo intervalo de tiempo, se traducirá en el cambio de nombre de la columna eliminada si tienen el mismo tipo y longitud de datos.
Ejemplo:
Antes: a b c d
Después: a c1 d
En este ejemplo, se eliminó b y se cambió el nombre de c a c1, y b y c tienen el mismo tipo y longitud de datos.
Esto se identificará como un cambio de nombre de b a c1 y una eliminación de c.
-
El cambio de nombre de la última columna no se reconoce, incluso si se eliminó la última columna y se cambió el nombre de la anterior.
Ejemplo:
Antes: a b c d
Después: a b c1
En este ejemplo, se eliminó d y se cambió el nombre de c a c1.
Esto se identificará como una eliminación de c y d y una adición de c1.
-
Se supone que se agregarán nuevas columnas al final. Si se agregan columnas en el medio con el mismo tipo de datos que la siguiente columna, pueden interpretarse como retirar y cambiar el nombre.
Eliminar columnas
Si descarta una columna que es consumida por una tarea de almacenamiento de datos con el historial habilitado, debe seguir estos pasos para conservar el historial y evitar una posible pérdida de datos.
Detenga la tarea de aterrizaje de datos.
Ejecute la tarea de almacenamiento de datos para asegurarse de que se lean todos los datos de aterrizaje.
Suelte la columna en el destino de aterrizaje.
Ejecute la tarea de aterrizaje de datos.
En el almacenamiento, agregue la columna con una expresión predeterminada (valor nulo o predeterminado) o elimine la columna.
Mantenimiento del área de destino de aterrizaje
No se admite la limpieza automática del área de destino. Esto puede afectar al rendimiento.
Le recomendamos realizar limpiezas manuales de la antigua carga completa y los datos en el área de destino.
Qlik Cloud (a través de Amazon S3)
Si hay varias carpetas de datos de carga completa, puede eliminar todas menos la carpeta más reciente. También puede eliminar particiones de datos modificados que se hayan procesado.
Almacén de datos en la nube
Puede eliminar registros de carga completa y de tablas de cambios que se hayan procesado.
Recomendaciones
Si se puede actualizar una clave principal en una tabla de origen, habilite ELIMINAR e INSERTAR al actualizar una columna de clave principal en Ajustes en el procesamiento de cambios.
Limitaciones
No se admite la replicación de datos varchar de más de 8000 bytes o Nvarchar de más de 4000 bytes.
No se admite la modificación de la anulabilidad en columnas que se han movido, ya sea cambiándola directamente o utilizando una regla de transformación. Sin embargo, las nuevas columnas creadas en la tarea son anulables por defecto.
Las transformaciones están sujetas a las siguientes limitaciones:
- No se admiten transformaciones en columnas con idiomas que se escriben de derecha a izquierda.
Las transformaciones no pueden llevarse a cabo en columnas que contengan caracteres especiales (por ejemplo #, \, /, -) en el nombre.
- La única transformación admitida para los tipos de datos LOB/CLOB consiste en soltar la columna en el objetivo.
- No se admite el uso de una transformación para renombrar una columna y luego añadir otra nueva con el mismo nombre.