Configuraciones de aterrizaje en destino
Puede configurar los ajustes para la tarea de aterrizaje de datos.
-
Abra la tarea de ubicación de destino y haga clic en Configuración en la barra de herramientas.
Se abre el cuadro de diálogo Configuración: <Nombre de tarea>. Las opciones disponibles se describen a continuación.
General
-
Base de datos
Base de datos que se ha de utilizar en el destino.
Nota informativaEsta opción no está disponible cuando se aterrizan datos en Qlik Cloud (a través de Amazon S3). -
Esquema de tarea
Puede cambiar el nombre del esquema de la tarea de datos de destino. El nombre predeterminado es Destino de aterrizaje.
Nota informativaEsta opción no está disponible cuando se aterrizan datos en Qlik Cloud (a través de Amazon S3). -
Prefijo para todas las tablas y vistas
Puede establecer un prefijo para todas las tablas y vistas creadas con esta tarea.
Nota informativaEsta opción no está disponible cuando se aterrizan datos en Qlik Cloud (a través de Amazon S3).Nota informativaDebe usar un prefijo único cuando desee usar un esquema de base de datos en varias tareas de datos. -
Método de actualización
La tarea de aterrizaje siempre comienza con una carga completa. Una vez completada la carga completa, puede mantener actualizados los datos transferidos mediante uno de los siguientes métodos:
Nota informativaNo es posible cambiar el método de actualización una vez que se haya completado la operación de preparación de la tarea de aterrizaje de datos.-
Captura de datos de cambios (CDC)
Los datos desembarcados se mantienen actualizados mediante la tecnología CDC (Change Data Capture: Captura de datos de cambios). CDC puede que no sea compatible con todas las fuentes de datos. CDC no captura las operaciones DDL, como el cambio de nombre de las columnas o los cambios en los metadatos.
Si sus datos también contienen vistas o tablas que no admiten CDC, se crearán dos canalizaciones de datos. Una canalización con todas las tablas que admiten CDC y otra canalización con todas las demás tablas y vistas que utilizan Volver a cargar y comparar como método de actualización.
-
Volver a cargar y comparar
Todos los datos transferidos se recargan desde la fuente. Esto es útil si su fuente no es compatible con CDC, pero se puede utilizar con cualquier fuente de datos compatible.
Puede programar las recargas periódicamente.
-
-
Carpeta para usar en el área de preparación
Para las plataformas de datos que requieren un área de preparación (por ejemplo, Databricks y Azure Synapse Analytics), puede seleccionar qué carpeta usar al aterrizar los datos.
-
Carpeta predeterminada
Esto crea una carpeta con el nombre predeterminado: <nombre de proyecto>/<nombre de la tarea de datos>.
-
Carpeta raíz
Almacene los datos en la carpeta raíz del almacenamiento.
Nota informativaEsta opción solo está disponible cuando se aterrizan datos en Qlik Cloud (a través de Amazon S3). -
Carpeta
Especifique un nombre de carpeta que usar.
-
-
Intervalo de procesamiento de cambios
Puede establecer el intervalo entre el procesamiento de cambios desde el origen.
Nota informativaEsta opción solo está disponible cuando se aterrizan datos en Qlik Cloud (a través de Amazon S3). -
Servidor proxy cuando se utiliza la pasarela de movimiento de datos
Nota informativaEsta opción solo está disponible cuando se accede a destinos a través de la pasarela de movimiento de datos.Puede seleccionar usar un servidor proxy cuando la puerta de enlace de Data Movement se conecta al almacén de datos en la nube y al área de almacenamiento.
Para obtener más información sobre cómo configurar la pasarela o puerta de enlace de Data Movement para usar un servidor proxy, consulte Configurar el espacio empresarial inquilino de Qlik Cloud y un servidor proxy.
-
Usar proxy para conectarse al almacén de datos en la nube
Nota informativaDisponible al usar Snowflake, Google BigQuery y Databricks. -
Usar proxy para conectarse al almacenamiento
Nota informativaDisponible al usar Azure Synapse Analytics, Amazon Redshift y Databricks.
-
Carga de datos
-
Tamaño máximo de archivo (MB)
El tamaño máximo que puede alcanzar un archivo antes de cerrarse. Los archivos más pequeños pueden cargarse más rápido (dependiendo de la red) y mejorar el rendimiento cuando se usan junto con la opción de ejecución paralela. Sin embargo, generalmente se considera una mala práctica saturar la base de datos con archivos pequeños.
Nota informativaEsta configuración es relevante para todos los destinos excepto Qlik Cloud. -
Usar compresión
Cuando se selecciona, los archivos CSV se comprimirán (usando gzip) antes de cargarse en Google BigQuery.
Nota informativa- Esta configuración solo es relevante para Google BigQuery.
- Requiere Pasarela Data Movement 2023.5.16 o posterior.
Metadatos
Columnas LOB
-
Incluir columnas LOB y limitar el tamaño de las columnas a (KB):
Puede optar por incluir columnas LOB en la tarea y establecer el tamaño máximo del objeto LOB. Los LOB que superen el tamaño máximo se truncarán.
Nota informativaCuando se utiliza Azure Synapse Analytics como destino, el tamaño máximo de LOB no puede superar 7 MB.
Tablas de control
Seleccione cuáles de las tablas de control siguientes desea que se creen en la plataforma de destino:
- Estado de aterrizaje: Proporciona detalles sobre la tarea de ubicación de destino actual, incluido el estado de la tarea, la cantidad de memoria consumida por la tarea, la cantidad de cambios que aún no se han aplicado a la plataforma de datos y la posición en el punto final de origen desde el que Pasarela Data Movement está leyendo actualmente.
- Tablas suspendidas: Proporciona una lista de tablas suspendidas y el motivo por el que fueron suspendidas.
- Historial de aterrizaje: Proporciona información sobre el historial de tareas, incluida la cantidad y el volumen de registros procesados durante una tarea de ubicación de destino, la latencia al final de una tarea de CDC y más.
-
DDL History: Contiene un historial de todos los cambios DDL admitidos que ocurrieron durante una tarea.
Nota informativaLa tabla de Historial de DDL solo es compatible con las siguientes plataformas de destino:
-
Databricks
- Microsoft Fabric
-
Para acceder a una descripción detallada de cada una de las Tablas de control, consulte Tablas de control
Carga completa
Optimización del rendimiento
- Número máximo de tablas para cargar en paralelo: indique el número máximo de tablas que se cargarán en el destino de una sola vez. El valor predeterminado es 5.
-
Tiempo de espera de coherencia de la transacción (segundos): indique el número de segundos que deberá esperar a que se cierren las transacciones abiertas, antes de iniciar la operación de Carga completa. El valor predeterminado es 600 (10 minutos). La carga completa comenzará después de que se alcance el valor del tiempo de espera, incluso si hubiera transacciones abiertas.
Nota informativaPara replicar transacciones que estaban abiertas cuando se inició la Carga completa, pero que solo se consignaron después de que se alcanzara el valor de tiempo de espera, deberá volver a cargar las tablas de destino. - Confirmar cifra durante la carga completa: el número máximo de eventos que pueden transferirse juntos. El valor predeterminado es 10000.
Tras finalizar la carga completa
Crear clave principal o única: seleccione esta opción si desea retrasar la creación de la clave primaria o el índice único en la plataforma de datos hasta que finalice la carga completa.
Para carga inicial
Al mover datos desde una fuente de aplicación SaaS, puede configurar cómo realizar la carga completa inicial:
Usar datos almacenados en caché |
Esta opción le permite usar datos almacenados en caché que se leyeron al generar metadatos con el Examen completo de datos seleccionado. Esto genera menos consumo en general con respecto al uso de la API y las cuotas, ya que los datos se leen desde la fuente. Cualquier cambio desde el examen de datos inicial puede ser recogido por Change data capture (CDC). |
Cargar datos de fuente |
Esta opción realiza una nueva carga desde la fuente de datos. Esta opción es útil si:
|
Manejo de errores
Errores de datos
El manejo de errores de datos solo se admite con el método de actualización Captura de datos de cambios (CDC).
Para errores de truncamiento de datos: Seleccione lo que desea que suceda cuando se produzca un truncamiento en uno o más registros específicos. Puede seleccionar uno de los siguientes de la lista:
- Ignorar: La tarea continúa y el error se ignora.
- Suspender tabla: La tarea continúa, pero los datos de la tabla con el registro de error pasan a un estado de error y sus datos no se replican.
- Detener tarea: La tarea se detiene y se requiere intervención manual.
Para otros errores de datos: Seleccione lo que desea que suceda cuando ocurra un error en uno o más registros específicos. Puede seleccionar uno de los siguientes de la lista:
- Ignorar: La tarea continúa y el error se ignora.
- Suspender tabla: La tarea continúa, pero los datos de la tabla con el registro de error pasan a un estado de error y sus datos no se replican.
- Detener tarea: La tarea se detiene y se requiere intervención manual.
Escalar el manejo de errores cuando los errores de datos lleguen a (por tabla): Seleccione esta casilla de verificación para escalar el manejo de errores cuando el número de errores de datos no truncados (por tabla) alcance la cantidad especificada. Los valores válidos son 1-10.000.
Acción de escalada: Elija qué debe suceder cuando se intensifica el manejo de errores. Tenga en cuenta que las acciones disponibles dependen de la acción seleccionada en la lista desplegable Para otros errores de datos descrita anteriormente.
-
Suspender tabla (opción predeterminada): La tarea continúa, pero los datos de la tabla con el registro de error pasan a un estado de error y sus datos no se landed.
- Detener tarea: La tarea se detiene y se requiere intervención manual.
Errores de tabla
Al encontrar un error en la tabla: Seleccione una de las siguientes opciones en la lista desplegable:
- Suspender tabla (opción predeterminada): La tarea continúa pero los datos de la tabla con el registro de error se mueven a un estado de error y sus datos no se replican.
- Detener tarea: La tarea se detiene y se requiere intervención manual.
Escalar cuando los errores de tabla lleguen a (por tabla): Seleccione esta casilla de verificación para escalar el manejo de errores cuando el número de errores de tabla (por tabla) alcance la cantidad especificada. Los valores válidos son 1-10.000.
Acción de escalada: La política de escalamiento para errores de tabla está configurada en Detener tarea y no se puede cambiar.
Error de entorno
-
Recuento máximo de reintentos: Seleccione esta opción y luego especifique el número máximo de intentos de ejecutar una tarea cuando se produzca un error de entorno recuperable. Después de que la tarea se haya reintentado la cantidad de veces especificada, la tarea se detiene y se requiere intervención manual.
Para no volver a intentar nunca una tarea, desactive la casilla de verificación o especifique "0".
Para volver a intentar ejecutar una tarea un número infinito de veces, especifique "-1"
-
Intervalo entre reintentos (segundos): Utilice el contador para seleccionar o escribir la cantidad de segundos que el sistema debe esperar entre intentos para volver a ejecutar una tarea.
Los valores válidos son 0-2.000.
-
- Aumentar el intervalo de reintentos en caso de interrupciones prolongadas: Seleccione esta casilla de verificación para aumentar el intervalo de reintentos en caso de interrupciones prolongadas. Cuando esta opción está habilitada, se duplica el intervalo entre cada reintento y el siguiente, hasta alcanzar el Intervalo máximo de reintentos (y continúa intentándolo conforme al intervalo máximo especificado).
- Intervalo máximo de reintentos (segundos): Utilice el contador para seleccionar o escribir el número de segundos que se debe esperar entre los intentos de activar una tarea cuando la opción Aumentar el intervalo de reintentos en caso de interrupciones prolongadas está habilitada. Los valores válidos son 0-2.000.
Ajustes en el procesamiento de cambios
Ajustes de descargas de transacciones
-
Descargar transacciones en curso en el disco si:
Los datos de una transacción generalmente se mantienen en la memoria hasta que se confirman por completo en el origen o el destino. Sin embargo, las transacciones que superen la memoria asignada o que no se consignen en el plazo especificado se descargarán al disco.
- El tamaño total de la memoria de transacciones excede (MB): el tamaño máximo que pueden ocupar todas las transacciones en memoria antes de ser descargadas a disco. El valor predeterminado es 1024.
- La duración de las transacciones supera (segundos): el tiempo máximo que cada transacción puede permanecer en memoria antes de ser descargada a disco. La duración se calcula a partir de la hora en que Qlik Talend Data Integration comenzó a capturar la transacción. El valor predeterminado es 60.
Ajuste por lotes
Algunas de las configuraciones en esta pestaña
Configuraciones que son relevantes para todos los objetivos excepto Qlik Cloud:
- Aplicar cambios por lotes a intervalos:
-
Por encima de: el tiempo mínimo de espera entre cada aplicación de cambios por lotes. El valor predeterminado es 1.
Aumentar el valor Más de disminuye la frecuencia con la que se aplican los cambios al objetivo, al tiempo que aumenta el tamaño de los lotes. Esto puede mejorar el rendimiento cuando se aplican cambios a bases de datos de destino que están optimizadas para procesar grandes lotes.
- Menos de: la cantidad máxima de tiempo que se ha de esperar entre cada aplicación de cambios por lotes (antes de declarar un tiempo de espera). En otras palabras, la latencia máxima aceptable. El valor predeterminado es 30. Este valor determina el tiempo máximo de espera antes de aplicar los cambios, una vez alcanzado el valor Más de.
-
Forzar la aplicación de un lote cuando la memoria de procesamiento exceda (MB): la cantidad máxima de memoria que se utilizará para el preprocesamiento. El valor predeterminado es 500 MB.
Para el tamaño máximo de lote, ajuste este valor a la mayor cantidad de memoria que pueda asignar a la tarea de datos. Esto puede mejorar el rendimiento cuando se aplican cambios a bases de datos de destino que están optimizadas para procesar grandes lotes.
-
Aplicar cambios por lotes a varias tablas al mismo tiempo: seleccionar esta opción mejorará el rendimiento al aplicar cambios desde varias tablas de origen.
-
Número máximo de tablas: El número máximo de tablas a las que aplicar cambios por lotes simultáneamente. El valor predeterminado es cinco.
Nota informativaEsta opción no se admite cuando se utiliza Google BigQuery como plataforma de datos. -
-
Limitar el número de cambios aplicados por sentencia de procesamiento de cambios a: seleccione esta opción para limitar la cantidad de cambios aplicados en una sola sentencia de procesamiento de cambios. El valor predeterminado es 10 000.
Nota informativaEsta opción solo se admite cuando se utiliza Google BigQuery como plataforma de datos.
Configuraciones que son relevantes solo para Qlik Cloud:
-
Número mínimo de cambios por transacción: el número mínimo de cambios que se ha de incluir en cada transacción. El valor predeterminado es 1000.
Nota informativaLos cambios se aplicarán al objetivo cuando el número de cambios sea igual o mayor que el Número mínimo de cambios por transacción o cuando se alcance el Tiempo máximo para procesar transacciones por lotes antes de aplicarlas (segundos), el valor que ocurra primero. Dado que la frecuencia de los cambios aplicados al destino está controlada por estos dos parámetros, es posible que los cambios en los registros de origen no se reflejen inmediatamente en los registros de destino.
- Tiempo máximo para procesar transacciones por lotes antes de aplicarlas (segundos): el tiempo máximo para recopilar transacciones por lotes antes de declarar un tiempo de espera. El valor predeterminado es 1.
Intervalo
-
Leer los cambios cada (Minutos)
Establezca el intervalo entre los cambios de lectura de la fuente en minutos. El rango válido es de 1 a 1440.
Nota informativaEsta opción solo está disponible cuando:
- Uso de Pasarela Data Movement
- Se transfieren datos desde fuentes de aplicaciones SaaS
- La tarea se define con el método de actualización de Captura de Datos de Cambios (CDC)
Optimización variada
- Tamaño de la caché de sentencias (número de sentencias): El número máximo de sentencias preparadas que se puede almacenar en el servidor para su posterior ejecución (al aplicar cambios al destino). El valor predeterminado es 50. El máximo es 200.
-
ELIMINAR e INSERTAR al actualizar una columna de clave principal Esta opción requiere que el registro complementario completo esté activado en la base de datos de origen.
Evolución del esquema
Seleccione cómo manejar los siguientes tipos de cambios de DDL en el esquema. Cuando haya modificado las opciones de evolución del esquema, deberá preparar de nuevo la tarea. La tabla siguiente describe las acciones disponibles para los cambios de DDL admitidos.
Cambio de DDL | Aplicar al objetivo | Ignorar | Suspender tabla | Detener tarea |
---|---|---|---|---|
Añadir columna | Sí | Sí | Sí | Sí |
Renombrar columna | No | No | Sí | Sí |
Renombrar tabla | No | No | Sí | Sí |
Cambiar tipo de datos de columnas | No | Sí | Sí | Sí |
Crear tabla
Si ha utilizado una regla de selección para añadir conjuntos de datos que coinciden con un patrón, se detectarán y añadirán nuevas tablas que cumplan el patrón. |
Sí | Sí | No | No |
Sustitución de caracteres
Puede sustituir o eliminar caracteres de origen en la base de datos de destino y/o puede sustituir o eliminar caracteres de origen que no sean compatibles con un conjunto de caracteres seleccionado.
-
Todos los caracteres deben especificarse como puntos de código Unicode.
- La sustitución de caracteres también se realizará en las tablas de control.
-
Los valores no válidos se indicarán mediante un triángulo rojo en la parte superior derecha de la celda de la tabla. Al pasar el cursor del ratón sobre el triángulo se mostrará el mensaje de error.
-
Cualquier transformación global o a nivel de tabla definida para la tarea se realizará después de que se haya completado la sustitución del carácter.
-
Las acciones de sustitución definidas en la tabla Sustituir o eliminar caracteres de origen se realizan antes de la acción de sustitución definida en la tabla Sustituir o eliminar caracteres de origen no admitidos por el conjunto de caracteres seleccionado.
- La sustitución de caracteres no admite tipos de datos LOB.
Sustituir o eliminar caracteres de origen
Utilice la tabla Sustituir o eliminar caracteres de origen para definir reemplazos para caracteres de origen específicos. Esto puede ser útil, por ejemplo, cuando la representación Unicode de un carácter es diferente en las plataformas de origen y destino. Por ejemplo, en Linux, el carácter menos en el juego de caracteres Shift_JIS se representa como U+2212, pero en Windows se representa como U+FF0D.
Para | Haga esto |
---|---|
Definir acciones de sustitución. |
|
Editar el carácter de origen o del destino especificado |
Haga clic en al final de la fila y seleccione Editar. |
Eliminar entradas de la tabla |
Haga clic en al final de la fila y seleccione Eliminar. |
Sustituir o eliminar caracteres de origen no admitidos por el juego de caracteres seleccionado
Utilice la tabla Caracteres de origen no admitidos por juego de caracteres para definir un único carácter de sustitución para todos los caracteres no admitidos por el juego de caracteres seleccionado.
Para | Haga esto |
---|---|
Defina o edite una acción de sustitución. |
|
Desactivar la acción de sustitución. |
Seleccione la entrada en blanco de la lista desplegable Juego de caracteres. |
Más opciones
Estas opciones no están expuestas en la interfaz de usuario ya que solo son relevantes para versiones o entornos específicos. En consecuencia, no configure estas opciones a menos que se lo indique explícitamente el Soporte de Qlik o la documentación del producto.
Para configurar una opción, simplemente copie la opción en el campo Añadir nombre de característica y haga clic en Añadir. Luego configure el valor o habilite la opción de acuerdo con las instrucciones que recibió.
Programación de tareas CDC al trabajar sin Pasarela Data Movement.
Pasarela Data Movement no se admite con una suscripción Qlik Talend Cloud Starter y es opcional con otros niveles de suscripción. Al trabajar sin Pasarela Data Movement, mantiene los datos de destino actualizados al configurar un intervalo de programación. La programación determina la frecuencia con la que se actualizarán los conjuntos de datos de destino con los cambios realizados en los conjuntos de datos de la fuente. Mientras que la programación determina la frecuencia de actualización, el tipo de conjunto de datos determina el método de actualización. Si los conjuntos de datos de origen admiten CDC (Captura de datos de cambios), solo se replicarán los cambios de los datos de origen y se aplicarán a las tablas de destino correspondientes. Si los conjuntos de datos de origen no admiten CDC (por ejemplo, Vistas), los cambios se aplicarán recargando todos los datos de origen en las tablas de destino correspondientes. Si algunos de los conjuntos de datos de origen admiten CDC y otros no, se crearán dos subtareas distintas: una para recargar los conjuntos de datos que no admiten CDC y la otra para capturar los cambios en los conjuntos de datos que sí admiten CDC. En este caso, para garantizar la coherencia de los datos, se recomienda encarecidamente establecer la misma programación para ambas subtareas.
Para obtener información sobre los intervalos mínimos de programación según el tipo de fuente de datos y el nivel de suscripción, consulte Intervalos de programación mínimos permitidos.
Para cambiar la programación:
Abra su proyecto de datos y realice una de las siguientes acciones:
- En la vista de tareas, haga clic en en la tarea de datos y seleccione Programación.
- En la vista de canalización, haga clic en en la tarea de datos y seleccione Programación.
- Abra la tarea de aterrizaje y haga clic en el botón de la barra de herramientas Programación.
- Cambie la configuración de programación según sea necesario y, a continuación, haga clic en Aceptar.