Configuración de los objetivos de almacenamiento en la nube
Puede cambiar la configuración predeterminada de aterrizaje en el lago de datos según sus necesidades.
General
Método de actualización
Puede entregar datos de dos maneras. No es posible cambiar el modo una vez que se prepara la tarea de aterrizaje en el lago de datos.
-
Captura de Datos de Cambios (CDC): Las tareas de aterrizaje en el lago de datos comienzan con una carga completa (durante la cual se transfieren todas las tablas seleccionadas). Los datos desembarcados se mantienen actualizados mediante la tecnología CDC (Change Data Capture: Captura de datos de cambios, también conocido como Captura de datos modificados).
Nota informativaNo se admite CDC (Captura de Datos de Cambios) en operaciones DDL.Cuando se trabaja con Pasarela Data Movement, los cambios se capturan desde la fuente casi en tiempo real. Cuando se trabaja sin Pasarela Data Movement, los cambios se capturan según la configuración del programador. Para obtener más información, consulte Programación de tareas al trabajar sin Pasarela Data Movement.
- Recargar: Realiza una carga completa de los datos de las tablas de origen seleccionadas en la plataforma de destino y crea las tablas de destino, si es necesario. La carga completa se produce automáticamente cuando se inicia la tarea, pero también se puede realizar manualmente o programarse para que se realice de forma periódica según sea necesario.
Carpeta que se utilizará
Seleccione una de las siguientes opciones, según la carpeta de depósitos en la que desee que se escriban los archivos:
- Carpeta predeterminada: El formato de carpeta por defecto es <nombre-de-su-proyecto>/<nombre-de-su-tarea>.
- Carpeta raíz: Los archivos se escribirán directamente en el depósito.
-
Carpeta: Escriba el nombre de la carpeta. La carpeta se creará durante la tarea de aterrizaje en el lago de datos, si no existe.
Nota informativa El nombre de la carpeta no puede incluir caracteres especiales (por ejemplo, @, #, !, etc.).
Cambiar la partición de datos
En una tarea de aterrizaje estándar, los cambios se envían al objetivo sin ningún orden en particular. La partición de datos modificados permite el procesamiento de datos modificados de muchas tablas de forma coherente. Puede definir la duración de las particiones, así como la hora base de la partición, garantizando así la coherencia general de los datos particionados (es decir, sin operaciones parciales, sin encabezados de pedidos a los que les falten líneas de orden, etc.).
La información sobre las particiones se registra en la tabla de control attrep_cdc_partitions en la base de datos de destino. Esta información se puede utilizar para identificar datos particionados que deban procesarse más.
Las opciones de partición son las siguientes:
-
Partición cada: especifique la duración (en horas y minutos) de cada partición.
Nota informativaSe recomienda especificar una duración de partición superior a una hora. Aunque especificar una duración de partición inferior a una hora puede mejorar la latencia, la creación de muchas particiones en el destino también puede afectar al rendimiento (del destino) (especialmente en sistemas con grandes volúmenes de cambios).
Si reanuda una tarea ANTES del momento en que se creó la última partición, la tarea de inicio del lago de datos escribirá en una partición que ya se ha cerrado.
- Hora base de partición: las particiones se crean durante un período de 24 horas, que se calcula de acuerdo con la "hora base de partición" especificado en la base de datos de origen (en hora UTC). Por ejemplo, un intervalo de partición de 8 horas con una "hora base de partición" de 02:00 creará las siguientes particiones: 02:00-10:00, 10:00-18:00, 18:00-02:00, pero no necesariamente en ese orden. Por ejemplo, si una tarea comenzó a la 01:00, entonces el período de tiempo de la primera partición será de 18:00 a 02:00. Además, si una tarea comenzó en medio de una partición (por ejemplo, a las 04:00), sus datos de cambios se insertarán en la partición de 02:00 a 10:00 (aunque no se hayan captado cambios antes de las 04:00).
Carga de datos
Atributos de archivo
Formato
Puede crear los archivos de destino en formato CSV, JSON o Parquet.
En un archivo JSON, cada registro va representado por una sola línea, como en el siguiente ejemplo:
{ "book_id": 123, "title": "Alice in Wonderland", "price": 6.99, "is_hardcover": false }
{ "book_id": 456, "title": "Winnie the Pooh", "price": 6.49, "is_hardcover": true }
{ "book_id": 789, "title": "The Cat in the Hat", "price": 7.23, "is_hardcover": true }
Vea también: Propiedades Content-type y Content-encoding
- Si elige el formato JSON o Parquet , los siguientes campos estarán ocultos, ya que solo son relevantes para el formato CSV: Delimitador de campo, Delimitador de registro, Valor nulo, Carácter de entrecomillado, Carácter de escape y Añadir cabecera de metadatos.
- Los siguientes campos solo son relevantes para el formato Parquet: Versión de Parquet, Unidad de marca de tiempo de parquet y Tamaño máximo de LOB de parquet (KB).
Para obtener información sobre las asignaciones de tipos de datos cuando se utiliza el formato Parquet y sus limitaciones, vea Mapping from Qlik Cloud data types to Parquet
Delimitador de campos
El delimitador que se utilizará para separar campos (columnas) en los archivos de destino. El valor predeterminado es una coma.
Ejemplo de uso de una coma como delimitador:
"miguel","hombre"
Los delimitadores pueden ser caracteres estándar o un valor hexadecimal (hex). Tenga en cuenta que el prefijo "0x
" debe utilizarse para denotar un delimitador hexadecimal (por ej. 0x01 = SOH
). En los campos Delimitador de campos, Delimitador de registros y Valor nulo, el delimitador puede consistir en valores hexadecimales concatenados (por ejemplo, 0x0102
= SOHSTX
), mientras que en los campos Carácter de cita y Carácter de escape de cita, solo puede ser un único valor hexadecimal.
No se admite el número hexadecimal 0x00
(es decir, solo se admiten 0x01
-0xFF
).
Valor nulo
La cadena que se utilizará para indicar un valor nulo en los archivos de destino.
Ejemplo (donde \n es el delimitador de registros y @ es el valor nulo):
Delimitador de registros
El delimitador que se utilizará para separar los registros (filas) en los archivos de destino. El valor por defecto es un retorno o nueva línea (\n
).
Ejemplo:
Carácter de entrecomillado
El carácter que se utilizará al principio y al final de una columna de texto. Por defecto se utiliza el carácter de comillas dobles ("). Cuando una columna que contiene delimitadores de columna va incluida entre comillas dobles, los caracteres delimitadores de columna se interpretan como datos reales y no como delimitadores de columna.
Ejemplo (donde @ es el carácter de entrecomillado):
Carácter de escape para las comillas
El carácter utilizado para salir de un entrecomillado en los datos reales. Por defecto se utiliza el carácter de comillas dobles (").
Ejemplo (donde " es el carácter de entrecomillado y \ es el carácter de salida):
Versión Parquet
Seleccione qué versión usar según la versión compatible con la plataforma de destino. Tenga en cuenta que la versión 1.0 de Parquet solo admite la unidad de marca de tiempo MICRO , mientras que la versión 2.6 de Parquet admite las unidades de marca de tiempo MICRO y NANO .
Unidad de marca de tiempo de parquet
Cuando la versión de Parquet esté configurada en 2.6, elija MICRO o NANO. Cuando la versión de Parquet está configurada en 1.0, solo se admite MICRO.
Tamaño máximo de LOB de parquet (KB)
El tamaño máximo predeterminado de LOB es 64 KB y el valor máximo que puede insertar en este campo es 10 000 KB. El manejo de columnas LOB requiere mayores recursos, lo que a su vez afecta al rendimiento. Aumente este valor solo si está replicando datos LOB de más de 64 KB y necesita que todos los datos LOB se repliquen en el destino.
Tamaño máximo de archivo
El tamaño máximo que puede alcanzar un archivo antes de cerrarse (y opcionalmente, comprimido).
El tamaño máximo que puede alcanzar un archivo antes de cerrarse. Los archivos más pequeños pueden cargarse más rápido (dependiendo de la red) y mejorar el rendimiento cuando se usan junto con la opción de ejecución paralela. Sin embargo, generalmente se considera una mala práctica saturar la base de datos con archivos pequeños.
Comprimir archivos con
Elija una de las opciones de compresión para comprimir los archivos de destino o NINGUNA (valor predeterminado) para dejarlos sin comprimir. Tenga en cuenta que las opciones de compresión disponibles vienen determinadas por el formato de archivo seleccionado.
Agregar cabecera de metadatos
Opcionalmente, puede agregar una fila de encabezado a los archivos de datos. La fila del encabezado puede contener los nombres de las columnas de origen y/o la intermedia (es decir, tipos de datos de Qlik Talend Data Integration).
Ejemplo de un archivo de destino con una fila de encabezado cuando se seleccionan Con nombres de columna y Con tipos de datos:
Position:DECIMAL(38,0),Color:VARCHAR(10)
1,"BLUE"
2,"BROWN"
3,"RED"
...
Procesamiento de cambios
Esta sección describe los ajustes condicionales en Procesamiento de cambios.
Aplicar/almacenar los cambios cuando
- El tamaño del archivo alcanza (KB): especifique el tamaño máximo de datos de cambios que se acumulará antes de cargar el archivo en el destino.
- El tiempo transcurrido llega a:: El tiempo transcurrido llega a x.
Archivos de metadatos
Cuando se selecciona la opción Crear archivos de metadatos en la carpeta de destino, para cada archivo de datos se creará un archivo de metadatos correspondiente con extensión .dfm en la carpeta de destino especificada. Los archivos de metadatos proporcionan información adicional sobre la tarea/datos, como el tipo de conector de origen, el nombre de la tabla de origen, el número de registros del archivo de datos, etc.
Para una descripción completa del archivo de metadatos, así como sus posibles usos, vea Descripción del archivo de metadatos
Metadatos
Columnas LOB
-
Incluir columnas LOB y limitar el tamaño de las columnas a (KB):
Puede optar por incluir columnas LOB en la tarea y establecer el tamaño máximo del objeto LOB. Los LOB que superen el tamaño máximo se truncarán.
Tablas de control
Seleccione cuáles de las tablas de control siguientes desea que se creen en la plataforma de destino:
- Estado de replicación: Proporciona detalles sobre la tarea de aterrizaje actual, incluido el estado de la tarea, la cantidad de memoria consumida por la tarea, el número de cambios aún no aplicados a la plataforma de datos y la posición en la fuente de datos desde la que se están leyendo los datos en ese momento.
- Tablas suspendidas: Proporciona una lista de tablas suspendidas y el motivo por el que fueron suspendidas.
- Historial de replicación: Proporciona información sobre el historial de tareas, incluida la cantidad y el volumen de registros procesados durante una tarea de ubicación de destino, la latencia al final de una tarea de CDC y más.
- Cambiar particiones de datos: Proporciona registros de particiones creadas en la base de datos de destino debido a Cambiar la partición de datos. Puede utilizar esta información para identificar datos particionados que deban procesarse más.
Para una descripción detallada de cada una de las Tablas de control, vea Tablas de control
Carga completa
Optimización del rendimiento
- Número máximo de tablas para cargar en paralelo: indique el número máximo de tablas que se cargarán en el destino de una sola vez. El valor predeterminado es 5.
-
Tiempo de espera de coherencia de la transacción (segundos): indique el número de segundos que deberá esperar a que se cierren las transacciones abiertas, antes de iniciar la operación de Carga completa. El valor predeterminado es 600 (10 minutos). La carga completa comenzará después de que se alcance el valor del tiempo de espera, incluso si hubiera transacciones abiertas.
Nota informativaPara replicar transacciones que estaban abiertas cuando se inició la Carga completa, pero que solo se consignaron después de que se alcanzara el valor de tiempo de espera, deberá volver a cargar las tablas de destino. - Confirmar cifra durante la carga completa: el número máximo de eventos que pueden transferirse juntos. El valor predeterminado es 10000.
Tras finalizar la carga completa
Crear clave principal o única: seleccione esta opción si desea retrasar la creación de la clave primaria o el índice único en la plataforma de datos hasta que finalice la carga completa.
Para carga inicial
Al mover datos desde una fuente de aplicación SaaS, puede configurar cómo realizar la carga completa inicial:
Usar datos almacenados en caché |
Esta opción le permite usar datos almacenados en caché que se leyeron al generar metadatos con el Examen completo de datos seleccionado. Esto genera menos consumo en general con respecto al uso de la API y las cuotas, ya que los datos se leen desde la fuente. Cualquier cambio desde el examen de datos inicial puede ser recogido por Change data capture (CDC). |
Cargar datos de fuente |
Esta opción realiza una nueva carga desde la fuente de datos. Esta opción es útil si:
|
Procesamiento de cambios de almacenamiento
Las columnas del encabezado de la tabla de cambios proporcionan información sobre la operación de procesamiento de cambios, como el tipo de operación (por ejemplo, INSERT), el tiempo de confirmación, etc. Si no necesita esta información, puede configurar la tarea de datos para que cree las tablas de cambios sin algunas o todas las columnas de cabecera, reduciendo así su huella en la base de datos de destino. Para ello, desmarque las casillas de verificación de las columnas de encabezado que desea excluir.
Tenga en cuenta que no puede eliminar columnas adicionales ni restaurar columnas mientras se ejecuta una tarea. Para cambiar su selección inicial, primero debe detener la tarea, luego modificar su selección y finalmente volver a cargar las tablas de destino.
Cuando Cambiar la partición de datos está activado, se añade una columna de encabezado adicional denominada «partition_name» a las tablas de cambios y se selecciona automáticamente en la interfaz de usuario. Al tratarse de una columna obligatoria, no puede excluirse.
Para una descripción de las columnas del encabezado, vea Using Change Tables.Usar las tablas de cambios
Manejo de errores
Errores de datos
El manejo de errores de datos solo se admite con el método de actualización Captura de datos de cambios (CDC).
Errores de truncamiento de datos
Para errores de truncamiento de datos: Seleccione lo que desea que suceda cuando se produzca un truncamiento en uno o más registros específicos. Puede seleccionar uno de los siguientes de la lista:
- Ignorar: La tarea continúa y el error se ignora.
- Suspender tabla: La tarea continúa, pero los datos de la tabla con el registro de error pasan a un estado de error y sus datos no se replican.
- Detener tarea: La tarea se detiene y se requiere intervención manual.
Otros errores de datos
Para otros errores de datos: Seleccione lo que desea que suceda cuando ocurra un error en uno o más registros específicos. Puede seleccionar uno de los siguientes de la lista:
- Ignorar: La tarea continúa y el error se ignora.
- Suspender tabla: La tarea continúa, pero los datos de la tabla con el registro de error pasan a un estado de error y sus datos no se replican.
- Detener tarea: La tarea se detiene y se requiere intervención manual.
Escalar el manejo de errores de datos
Escalar el manejo de errores cuando los errores de datos lleguen a (por tabla): Seleccione esta casilla de verificación para escalar el manejo de errores cuando el número de errores de datos no truncados (por tabla) alcance la cantidad especificada. Los valores válidos son 1-10.000.
Acción de escalada: Elija qué debe suceder cuando se intensifica el manejo de errores. Tenga en cuenta que las acciones disponibles dependen de la acción seleccionada en la lista desplegable Para otros errores de datos descrita anteriormente.
-
Suspender tabla (opción predeterminada): La tarea continúa, pero los datos de la tabla con el registro de error pasan a un estado de error y sus datos no se landed.
- Detener tarea: La tarea se detiene y se requiere intervención manual.
Errores de tabla
Al encontrar un error en la tabla: Seleccione una de las siguientes opciones en la lista desplegable:
- Suspender tabla (opción predeterminada): La tarea continúa pero los datos de la tabla con el registro de error se mueven a un estado de error y sus datos no se replican.
- Detener tarea: La tarea se detiene y se requiere intervención manual.
Escalar cuando los errores de tabla lleguen a (por tabla): Seleccione esta casilla de verificación para escalar el manejo de errores cuando el número de errores de tabla (por tabla) alcance la cantidad especificada. Los valores válidos son 1-10.000.
Acción de escalada: La política de escalamiento para errores de tabla está configurada en Detener tarea y no se puede cambiar.
Error de entorno
-
Recuento máximo de reintentos: Seleccione esta opción y luego especifique el número máximo de intentos de ejecutar una tarea cuando se produzca un error de entorno recuperable. Después de que la tarea se haya reintentado la cantidad de veces especificada, la tarea se detiene y se requiere intervención manual.
Para no volver a intentar nunca una tarea, desactive la casilla de verificación o especifique "0".
Para volver a intentar ejecutar una tarea un número infinito de veces, especifique "-1"
-
Intervalo entre reintentos (segundos): Utilice el contador para seleccionar o escribir la cantidad de segundos que el sistema debe esperar entre intentos para volver a ejecutar una tarea.
Los valores válidos son 0-2.000.
-
- Aumentar el intervalo de reintentos en caso de interrupciones prolongadas: Seleccione esta casilla de verificación para aumentar el intervalo de reintentos en caso de interrupciones prolongadas. Cuando esta opción está habilitada, se duplica el intervalo entre cada reintento y el siguiente, hasta alcanzar el Intervalo máximo de reintentos (y continúa intentándolo conforme al intervalo máximo especificado).
- Intervalo máximo de reintentos (segundos): Utilice el contador para seleccionar o escribir el número de segundos que se debe esperar entre los intentos de activar una tarea cuando la opción Aumentar el intervalo de reintentos en caso de interrupciones prolongadas está habilitada. Los valores válidos son 0-2.000.
Ajustes en el procesamiento de cambios
Ajustes de descargas de transacciones
-
Descargar transacciones en curso en el disco si:
Los datos de una transacción generalmente se mantienen en la memoria hasta que se confirman por completo en el origen o el destino. Sin embargo, las transacciones que superen la memoria asignada o que no se consignen en el plazo especificado se descargarán al disco.
- El tamaño total de la memoria de transacciones excede (MB): el tamaño máximo que pueden ocupar todas las transacciones en memoria antes de ser descargadas a disco. El valor predeterminado es 1024.
- La duración de las transacciones supera (segundos): el tiempo máximo que cada transacción puede permanecer en memoria antes de ser descargada a disco. La duración se calcula a partir de la hora en que Qlik Talend Data Integration comenzó a capturar la transacción. El valor predeterminado es 60.
Ajuste por lotes
-
Número mínimo de cambios por transacción: el número mínimo de cambios que se ha de incluir en cada transacción. El valor predeterminado es 1000.
Nota informativaLos cambios se aplicarán al objetivo cuando el número de cambios sea igual o mayor que el Número mínimo de cambios por transacción o cuando se alcance el Tiempo máximo para procesar transacciones por lotes antes de aplicarlas (segundos), el valor que ocurra primero. Dado que la frecuencia de los cambios aplicados al destino está controlada por estos dos parámetros, es posible que los cambios en los registros de origen no se reflejen inmediatamente en los registros de destino.
- Tiempo máximo para procesar transacciones por lotes antes de aplicarlas (segundos): el tiempo máximo para recopilar transacciones por lotes antes de declarar un tiempo de espera. El valor predeterminado es 1.
Intervalo
Esta opción solo está disponible cuando:
- Uso de Pasarela Data Movement
- Se transfieren datos desde fuentes de aplicaciones SaaS
- La tarea se define con el método de actualización de captura de datos de cambios (CDC)
Leer los cambios cada (Minutos)
Establezca el intervalo entre los cambios de lectura de la fuente en minutos. El rango válido es de 1 a 1440.
Optimización variada
- Tamaño de la caché de sentencias (número de sentencias): El número máximo de sentencias preparadas que se puede almacenar en el servidor para su posterior ejecución (al aplicar cambios al destino). El valor predeterminado es 50. El máximo es 200.
-
ELIMINAR e INSERTAR al actualizar una columna de clave principal Esta opción requiere que el registro complementario completo esté activado en la base de datos de origen.
Evolución del esquema
Sustitución de caracteres
Puede sustituir o eliminar caracteres de origen en la base de datos de destino y/o puede sustituir o eliminar caracteres de origen que no sean compatibles con un conjunto de caracteres seleccionado.
-
Todos los caracteres deben especificarse como puntos de código Unicode.
- La sustitución de caracteres también se realizará en las tablas de control.
-
Los valores no válidos se indicarán mediante un triángulo rojo en la parte superior derecha de la celda de la tabla. Al pasar el cursor del ratón sobre el triángulo se mostrará el mensaje de error.
-
Cualquier transformación global o a nivel de tabla definida para la tarea se realizará después de que se haya completado la sustitución del carácter.
-
Las acciones de sustitución definidas en la tabla Sustituir o eliminar caracteres de origen se realizan antes de la acción de sustitución definida en la tabla Sustituir o eliminar caracteres de origen no admitidos por el conjunto de caracteres seleccionado.
- La sustitución de caracteres no admite tipos de datos LOB.
Sustituir o eliminar caracteres de origen
Utilice la tabla Sustituir o eliminar caracteres de origen para definir reemplazos para caracteres de origen específicos. Esto puede ser útil, por ejemplo, cuando la representación Unicode de un carácter es diferente en las plataformas de origen y destino. Por ejemplo, en Linux, el carácter menos en el juego de caracteres Shift_JIS se representa como U+2212, pero en Windows se representa como U+FF0D.
Para | Haga esto |
---|---|
Definir acciones de sustitución. |
|
Editar el carácter de origen o del destino especificado |
Haga clic en al final de la fila y seleccione Editar. |
Eliminar entradas de la tabla |
Haga clic en al final de la fila y seleccione Eliminar. |
Sustituir o eliminar caracteres de origen no admitidos por el juego de caracteres seleccionado
Utilice la tabla Caracteres de origen no admitidos por juego de caracteres para definir un único carácter de sustitución para todos los caracteres no admitidos por el juego de caracteres seleccionado.
Para | Haga esto |
---|---|
Defina o edite una acción de sustitución. |
|
Desactivar la acción de sustitución. |
Seleccione la entrada en blanco de la lista desplegable Juego de caracteres. |
Más opciones
Estas opciones no están expuestas en la interfaz de usuario ya que solo son relevantes para versiones o entornos específicos. En consecuencia, no configure estas opciones a menos que se lo indique explícitamente el Soporte de Qlik o la documentación del producto.
Para configurar una opción, simplemente copie la opción en el campo Añadir nombre de característica y haga clic en Añadir. Luego configure el valor o habilite la opción de acuerdo con las instrucciones que recibió.
Programación de tareas al trabajar sin Pasarela Data Movement
Pasarela Data Movement no se admite con una suscripción Qlik Talend Cloud Starter y es opcional con otros niveles de suscripción. Cuando se trabaja sin Pasarela Data Movement, no se admite la CDC (Captura de datos de cambio) en tiempo casi real. Mantiene los datos de destino actualizados al configurar un intervalo de programación. La programación determina la frecuencia con la que se actualizarán los conjuntos de datos de destino con los cambios realizados en los conjuntos de datos de la fuente. Mientras que la programación determina la frecuencia de actualización, el tipo de conjunto de datos determina el método de actualización. Si los conjuntos de datos de origen admiten CDC (Captura de datos de cambios), solo se replicarán los cambios de los datos de origen y se aplicarán a las tablas de destino correspondientes. Si los conjuntos de datos de origen no admiten CDC (por ejemplo, Vistas), los cambios se aplicarán recargando todos los datos de origen en las tablas de destino correspondientes. Si algunos de los conjuntos de datos de origen admiten CDC y otros no, se crearán dos subtareas separadas (suponiendo que el método de actualización de laCaptura de datos de cambios (CDC) sea o se hayan seleccionado las opciones de replicación Almacenar cambios): una para recargar los conjuntos de datos que no admiten CDC y la otra para capturar los cambios en los conjuntos de datos que sí admiten CDC. En este caso, para garantizar la coherencia de los datos, se recomienda encarecidamente establecer la misma programación para ambas subtareas.
Para cambiar la programación:
-
Abra su proyecto de datos y realice una de las siguientes acciones:
- En la vista de tareas, haga clic en en una tarea de datos y seleccione Programación.
- En la vista de canalización, haga clic en en una tarea de datos y seleccione Programación.
- Abra la tarea de replicación y haga clic en el botón de la barra de herramientas Programación.
- Cambie la configuración de programación según sea necesario y, a continuación, haga clic en Aceptar.