Saltar al contenido principal Saltar al contenido complementario

Configuración de aterrizaje en un lago de datos

Puede cambiar la configuración predeterminada de aterrizaje en el lago de datos según sus necesidades.

General

Método de actualización

Puede entregar datos de dos maneras. No es posible cambiar el modo una vez que se prepara la tarea de aterrizaje en el lago de datos.

  • Captura de Datos de Cambios (CDC): Las tareas de aterrizaje en el lago de datos comienzan con una carga completa (durante la cual se transfieren todas las tablas seleccionadas). Los datos desembarcados se mantienen actualizados mediante la tecnología CDC (Change Data Capture: Captura de datos de cambios, también conocido como Captura de datos modificados).

    Nota informativaNo se admite CDC (Captura de Datos de Cambios) en operaciones DDL.
  • Recargar: Realiza una carga completa de los datos de las tablas de origen seleccionadas en la plataforma de destino y crea las tablas de destino, si es necesario. La carga completa se produce automáticamente cuando se inicia la tarea, pero también se puede realizar manualmente o programarse para que se realice periódicamente según sea necesario.

Carpeta que se utilizará

Seleccione una de las siguientes opciones, según la carpeta de depósitos en la que desee que se escriban los archivos:

  • Carpeta predeterminada: El formato de carpeta por defecto es <nombre-de-su-proyecto>/<nombre-de-su-tarea>.
  • Carpeta raíz: Los archivos se escribirán directamente en el depósito.
  • Carpeta: Escriba el nombre de la carpeta. La carpeta se creará durante la tarea de aterrizaje en el lago de datos, si no existe.

    Nota informativa El nombre de la carpeta no puede incluir caracteres especiales (por ejemplo, @, #, !, etc.).

Cambiar la partición de datos

Nota informativaEsta opción solo está disponible para las tareas de datos con el método de actualización Captura de datos de cambios (CDC).

En una tarea de aterrizaje estándar, los cambios se envían al objetivo sin ningún orden en particular. La partición de datos modificados permite el procesamiento de datos modificados de muchas tablas de forma coherente. Puede definir la duración de las particiones, así como la hora base de la partición, garantizando así la coherencia general de los datos particionados (es decir, sin operaciones parciales, sin encabezados de pedidos a los que les falten líneas de orden, etc.).

La información sobre las particiones se registra en la tabla de control attrep_cdc_partitions en la base de datos de destino. Esta información se puede utilizar para identificar datos particionados que deban procesarse más.

  • Partición cada: especifique la duración (en horas y minutos) de cada partición.

    Nota informativa

    Se recomienda especificar una duración de partición superior a una hora. Aunque especificar una duración de partición inferior a una hora puede mejorar la latencia, la creación de muchas particiones en el destino también puede afectar al rendimiento (del destino) (especialmente en sistemas con grandes volúmenes de cambios).

    Si reanuda una tarea ANTES del momento en que se creó la última partición, la tarea de inicio del lago de datos escribirá en una partición que ya se ha cerrado.

  • Hora base de partición: las particiones se crean durante un período de 24 horas, que se calcula de acuerdo con la "hora base de partición" especificado en la base de datos de origen (en hora UTC). Por ejemplo, un intervalo de partición de 8 horas con una "hora base de partición" de 02:00 creará las siguientes particiones: 02:00-10:00, 10:00-18:00, 18:00-02:00, pero no necesariamente en ese orden. Por ejemplo, si una tarea comenzó a la 01:00, entonces el período de tiempo de la primera partición será de 18:00 a 02:00. Además, si una tarea comenzó en medio de una partición (por ejemplo, a las 04:00), sus datos de cambios se insertarán en la partición de 02:00 a 10:00 (aunque no se hayan captado cambios antes de las 04:00).

Carga de datos

Atributos de archivo

Formato

Puede crear los archivos de destino en formato CSV, JSON o Parquet.

Nota informativaCuando se utiliza el formato de archivo Parquet, no se admiten columnas LOB de más de 1 MB

En un archivo JSON, cada registro va representado por una sola línea, como en el siguiente ejemplo:

{ "book_id": 123, "title": "Alice in Wonderland", "price": 6.99, "is_hardcover": false }

{ "book_id": 456, "title": "Winnie the Pooh", "price": 6.49, "is_hardcover": true }

{ "book_id": 789, "title": "The Cat in the Hat", "price": 7.23, "is_hardcover": true }

Vea también: Propiedades Content-type y Content-encoding

Nota informativaNo se admite cambiar el formato (por ejemplo, de CSV a JSON o de JSON a CSV) mientras la tarea está detenida y luego reanudarla.
Nota informativa
  • Si elige el formato JSON o Parquet , los siguientes campos estarán ocultos, ya que solo son relevantes para el formato CSV: Delimitador de campo, Delimitador de registro, Valor nulo, Carácter de entrecomillado, Carácter de escape y Añadir cabecera de metadatos.
  • Los siguientes campos solo son relevantes para el formato Parquet: Versión de Parquet, Unidad de marca de tiempo de parquet y Tamaño máximo de LOB de parquet (KB).

Para obtener información sobre las asignaciones de tipos de datos cuando se utiliza el formato Parquet y sus limitaciones, vea Supported data types y Amazon S3.

Delimitador de campos

El delimitador que se utilizará para separar campos (columnas) en los archivos de destino. El valor predeterminado es una coma.

Ejemplo de uso de una coma como delimitador:

"miguel","hombre"

Los delimitadores pueden ser caracteres estándar o un valor hexadecimal (hex). Tenga en cuenta que el prefijo "0x" debe utilizarse para denotar un delimitador hexadecimal (por ej. 0x01 = SOH). En los campos Delimitador de campos, Delimitador de registros y Valor nulo, el delimitador puede consistir en valores hexadecimales concatenados (por ejemplo, 0x0102 = SOHSTX), mientras que en los campos Carácter de cita y Carácter de escape de cita, solo puede ser un único valor hexadecimal.

No se admite el número hexadecimal 0x00 (es decir, solo se admiten 0x01-0xFF).

Valor nulo

La cadena que se utilizará para indicar un valor nulo en los archivos de destino.

Ejemplo (donde \n es el delimitador de registros y @ es el valor nulo):

"mike","male",295678\n
"sara","female",@\n

Delimitador de registros

El delimitador que se utilizará para separar los registros (filas) en los archivos de destino. El valor por defecto es un retorno o nueva línea (\n).

Ejemplo:

"mike","male"\n
"sara","female"\n

Carácter de entrecomillado

El carácter que se utilizará al principio y al final de una columna de texto. Por defecto se utiliza el carácter de comillas dobles ("). Cuando una columna que contiene delimitadores de columna va incluida entre comillas dobles, los caracteres delimitadores de columna se interpretan como datos reales y no como delimitadores de columna.

Ejemplo (donde @ es el carácter de entrecomillado):

@mike@,@male@

Carácter de escape para las comillas

El carácter utilizado para salir de un entrecomillado en los datos reales. Por defecto se utiliza el carácter de comillas dobles (").

Ejemplo (donde " es el carácter de entrecomillado y \ es el carácter de salida):

1955,"old, \"rare\", Chevrolet","$1000"

Versión Parquet

Seleccione qué versión usar según la versión compatible con la plataforma de destino. Tenga en cuenta que la versión 1.0 de Parquet solo admite la unidad de marca de tiempo MICRO , mientras que la versión 2.6 de Parquet admite las unidades de marca de tiempo MICRO y NANO .

Unidad de marca de tiempo de parquet

Cuando la versión de Parquet esté configurada en 2.6, elija MICRO o NANO. Cuando la versión de Parquet está configurada en 1.0, solo se admite MICRO.

Tamaño máximo de LOB de parquet (KB)

El tamaño máximo predeterminado de LOB es 64 KB y el valor máximo que puede insertar en este campo es 10.000 KB. El manejo de columnas LOB requiere mayores recursos, lo que a su vez afecta al rendimiento. Aumente este valor solo si está replicando datos LOB de más de 64 KB y necesita que todos los datos LOB se repliquen en el destino.

Tamaño máximo de archivo

El tamaño máximo que puede alcanzar un archivo antes de cerrarse (y opcionalmente, comprimido).

El tamaño máximo que puede alcanzar un archivo antes de cerrarse. Los archivos más pequeños pueden cargarse más rápido (dependiendo de la red) y mejorar el rendimiento cuando se usan junto con la opción de ejecución paralela. Sin embargo, generalmente se considera una mala práctica saturar la base de datos con archivos pequeños.

Comprimir archivos con

Elija una de las opciones de compresión para comprimir los archivos de destino o NINGUNA (valor predeterminado) para dejarlos sin comprimir. Tenga en cuenta que las opciones de compresión disponibles vienen determinadas por el formato de archivo seleccionado.

Agregar cabecera de metadatos

Opcionalmente, puede agregar una fila de encabezado a los archivos de datos. La fila del encabezado puede contener los nombres de las columnas de origen y/o la intermedia (es decir, tipos de datos de Data Movement gateway).

Ejemplo de un archivo de destino con una fila de encabezado cuando se seleccionan Con nombres de columna y Con tipos de datos:

Position:DECIMAL(38,0),Color:VARCHAR(10)

1,"BLUE"

2,"BROWN"

3,"RED"

...

Procesamiento de cambios

Esta sección describe los ajustes condicionales en Procesamiento de cambios.

Aplicar/almacenar los cambios cuando

  • El tamaño del archivo alcanza (KB): especifique el tamaño máximo de datos de cambios que se acumulará antes de cargar el archivo en el destino.
  • El tiempo transcurrido llega a:: El tiempo transcurrido llega a x.

Archivos de metadatos

Cuando se selecciona la opción Crear archivos de metadatos en la carpeta de destino, para cada archivo de datos se creará un archivo de metadatos correspondiente con extensión .dfm en la carpeta de destino especificada. Los archivos de metadatos proporcionan información adicional sobre la tarea/datos, como el tipo de conector de origen, el nombre de la tabla de origen, el número de registros del archivo de datos, etc.

Para una descripción completa del archivo de metadatos, así como sus posibles usos, vea Descripción del archivo de metadatos

Metadatos

Columnas LOB

  • Incluir columnas LOB y limitar el tamaño de las columnas a (KB):

    Puede optar por incluir columnas LOB en la tarea y establecer el tamaño máximo del objeto LOB. Los LOB que superen el tamaño máximo se truncarán.

Tablas de control

Seleccione cuáles de las tablas de control siguientes desea que se creen en la plataforma de destino:

  • Estado de Aterrizaje: Proporciona detalles sobre la tarea de ubicación de destino actual, incluido el estado de la tarea, la cantidad de memoria consumida por la tarea, la cantidad de cambios que aún no se han aplicado a la plataforma de datos y la posición en el punto final de origen desde el que Pasarela de datos de movimiento de datos está leyendo actualmente.
  • Tablas suspendidas: Proporciona una lista de tablas suspendidas y el motivo por el que fueron suspendidas.
  • Historial de Aterrizaje: Proporciona información sobre el historial de tareas, incluida la cantidad y el volumen de registros procesados durante una tarea de ubicación de destino, la latencia al final de una tarea de CDC y más.
  • Cambiar particiones de datos: Proporciona registros de particiones creadas en la base de datos de destino debido a Cambiar la partición de datos. Puede utilizar esta información para identificar datos particionados que deban procesarse más.

Para una descripción detallada de cada una de las Tablas de control, vea Tablas de control

Carga completa

Optimización del rendimiento

  • Número máximo de tablas para cargar en paralelo: indique el número máximo de tablas que se cargarán en el destino de una sola vez. El valor predeterminado es 5.
  • Tiempo de espera de coherencia de la transacción (segundos): indique el número de segundos que deberá esperar a que se cierren las transacciones abiertas, antes de iniciar la operación de Carga completa. El valor predeterminado es 600 (10 minutos). La carga completa comenzará después de que se alcance el valor del tiempo de espera, incluso si hubiera transacciones abiertas.

    Nota informativaPara replicar transacciones que estaban abiertas cuando se inició la Carga completa pero que solo se consignaron después de que se alcanzara el valor de tiempo de espera, deberá volver a cargar las tablas de destino.
  • Confirmar cifra durante la carga completa: el número máximo de eventos que pueden transferirse juntos. El valor predeterminado es 10000.

Tras finalizar la carga completa

Crear clave principal o única: seleccione esta opción si desea retrasar la creación de la clave primaria o el índice único en la plataforma de datos hasta que finalice la carga completa.

Para carga inicial

Nota informativaEsta pestaña solo es relevante para tareas de replicación con fuentes de aplicaciones SaaS.

Al mover datos desde una fuente de aplicación SaaS, puede configurar cómo realizar la carga completa inicial:

Nota informativaEsta configuración requiere la versión 2022.11.74 o posterior de Pasarela de datos de movimiento de datos.
Usar datos almacenados en caché

Esta opción le permite usar datos almacenados en caché que se leyeron al generar metadatos con el Examen completo de datos seleccionado.

Esto genera menos consumo en general con respecto al uso de la API y las cuotas, ya que los datos se leen desde la fuente. Cualquier cambio desde el examen de datos inicial puede ser recogido por Change data capture (CDC).

Cargar datos de fuente

Esta opción realiza una nueva carga desde la fuente de datos. Esta opción es útil si:

  • La exploración de metadatos no se realizó recientemente.

  • El conjunto de datos de origen es pequeño y cambia con frecuencia, y no desea mantener un historial completo de cambios.

Manejo de errores

Errores de datos

Nota informativa

El manejo de errores de datos solo se admite con el método de actualización Captura de datos de cambios (CDC).

Errores de truncamiento de datos

Para errores de truncamiento de datos: Seleccione lo que desea que suceda cuando se produzca un truncamiento en uno o más registros específicos. Puede seleccionar uno de los siguientes de la lista:

  • Ignorar: La tarea continúa y el error se ignora.
  • Suspender tabla: La tarea continúa, pero los datos de la tabla con el registro de error pasan a un estado de error y sus datos no se replican.
  • Detener tarea: La tarea se detiene y se requiere intervención manual.

Otros errores de datos

Para otros errores de datos: Seleccione lo que desea que suceda cuando ocurra un error en uno o más registros específicos. Puede seleccionar uno de los siguientes de la lista:

  • Ignorar: La tarea continúa y el error se ignora.
  • Suspender tabla: La tarea continúa, pero los datos de la tabla con el registro de error pasan a un estado de error y sus datos no se replican.
  • Detener tarea: La tarea se detiene y se requiere intervención manual.

Escalar el manejo de errores de datos

Escalar el manejo de errores cuando los errores de datos lleguen a (por tabla): Seleccione esta casilla de verificación para escalar el manejo de errores cuando el número de errores de datos no truncados (por tabla) alcance la cantidad especificada. Los valores válidos son 1-10.000.

Acción de escalada: Elija qué debe suceder cuando se intensifica el manejo de errores. Tenga en cuenta que las acciones disponibles dependen de la acción seleccionada en la lista desplegable Para otros errores de datos descrita anteriormente.

  • Suspender tabla (opción predeterminada): La tarea continúa, pero los datos de la tabla con el registro de error pasan a un estado de error y sus datos no se landed.

  • Detener tarea: La tarea se detiene y se requiere intervención manual.

Errores de tabla

Al encontrar un error en la tabla: Seleccione una de las siguientes opciones en la lista desplegable:

  • Suspender tabla (opción predeterminada): La tarea continúa pero los datos de la tabla con el registro de error se mueven a un estado de error y sus datos no se replican.
  • Detener tarea: La tarea se detiene y se requiere intervención manual.

Escalar cuando los errores de tabla lleguen a (por tabla): Seleccione esta casilla de verificación para escalar el manejo de errores cuando el número de errores de tabla (por tabla) alcance la cantidad especificada. Los valores válidos son 1-10.000.

Acción de escalada: La política de escalamiento para errores de tabla está configurada en Detener tarea y no se puede cambiar.

Error de entorno

  • Recuento máximo de reintentos: Seleccione esta opción y luego especifique el número máximo de intentos de ejecutar una tarea cuando se produzca un error de entorno recuperable. Después de que la tarea se haya reintentado la cantidad de veces especificada, la tarea se detiene y se requiere intervención manual.

    Para no volver a intentar nunca una tarea, desactive la casilla de verificación o especifique "0".

    Para volver a intentar ejecutar una tarea un número infinito de veces, especifique "-1"

    • Intervalo entre reintentos (segundos): Utilice el contador para seleccionar o escribir la cantidad de segundos que el sistema debe esperar entre intentos para volver a ejecutar una tarea.

      Los valores válidos son 0-2.000.

  • Aumentar el intervalo de reintentos en caso de interrupciones prolongadas: Seleccione esta casilla de verificación para aumentar el intervalo de reintentos en caso de interrupciones prolongadas. Cuando esta opción está habilitada, se duplica el intervalo entre cada reintento y el siguiente, hasta alcanzar el Intervalo máximo de reintentos (y continúa intentándolo conforme al intervalo máximo especificado).
    • Intervalo máximo de reintentos (segundos): Utilice el contador para seleccionar o escribir el número de segundos que se debe esperar entre los intentos de activar una tarea cuando la opción Aumentar el intervalo de reintentos en caso de interrupciones prolongadas está habilitada. Los valores válidos son 0-2.000.

Ajustes en el procesamiento de cambios

Nota informativaEsta pestaña solo está disponible para las tareas de datos con el método de actualización Captura de datos de cambios (CDC).

Ajustes de descargas de transacciones

  • Descargar transacciones en curso en el disco si:

    Los datos de una transacción generalmente se mantienen en la memoria hasta que se confirman por completo en el origen o el destino. Sin embargo, las transacciones que superen la memoria asignada o que no se consignen en el plazo especificado se descargarán al disco.

    • El tamaño total de la memoria de transacciones excede (MB): el tamaño máximo que pueden ocupar todas las transacciones en memoria antes de ser descargadas a disco. El valor predeterminado es 1024.
    • La duración de las transacciones supera (segundos): el tiempo máximo que cada transacción puede permanecer en memoria antes de ser descargada a disco. La duración se calcula a partir de la hora en que Data Movement gateway comenzó a capturar la transacción. El valor predeterminado es 60.

Ajuste por lotes

  • Número mínimo de cambios por transacción: el número mínimo de cambios que se ha de incluir en cada transacción. El valor predeterminado es 1000.

    Nota informativa

    Los cambios se aplicarán al objetivo cuando el número de cambios sea igual o mayor que el Número mínimo de cambios por transacción o cuando se alcance el Tiempo máximo para procesar transacciones por lotes antes de aplicarlas (segundos), el valor que ocurra primero. Dado que la frecuencia de los cambios aplicados al destino está controlada por estos dos parámetros, es posible que los cambios en los registros de origen no se reflejen inmediatamente en los registros de destino.

  • Tiempo máximo para procesar transacciones por lotes antes de aplicarlas (segundos): el tiempo máximo para recopilar transacciones por lotes antes de declarar un tiempo de espera. El valor predeterminado es 1.

Intervalo

Nota informativaEsta pestaña solo es relevante para las tareas de replicación con fuentes de aplicaciones SaaS, y únicamente cuando el Método de actualización está configurado como Captura de datos de cambios (CDC).

Leer los cambios cada (Minutos)

Establezca el intervalo entre los cambios de lectura de la fuente en minutos. El rango válido es de 1 a 1440.

Optimización variada

  • Tamaño de la caché de sentencias (número de sentencias): El número máximo de sentencias preparadas a almacenar en el servidor para su posterior ejecución (al aplicar cambios al destino). El valor predeterminado es 50. El máximo es 200.
  • ELIMINAR e INSERTAR al actualizar una columna de clave principal Esta opción requiere que el registro complementario completo esté activado en la base de datos de origen.

Sustitución de caracteres

Puede sustituir o eliminar caracteres de origen en la base de datos de destino y/o puede sustituir o eliminar caracteres de origen que no sean compatibles con un conjunto de caracteres seleccionado.

Nota informativa
  • Todos los caracteres deben especificarse como puntos de código Unicode.

  • La sustitución de caracteres también se realizará en las tablas de control.
  • Los valores no válidos se indicarán mediante un triángulo rojo en la parte superior derecha de la celda de la tabla. Al pasar el cursor del ratón sobre el triángulo se mostrará el mensaje de error.

  • Cualquier transformación global o a nivel de tabla definida para la tarea se realizará después de que se haya completado la sustitución del carácter.

  • Las acciones de sustitución definidas en la tabla Sustituir o eliminar caracteres de origen se realizan antes de la acción de sustitución definida en la tabla Sustituir o eliminar caracteres de origen no admitidos por el conjunto de caracteres seleccionado.

  • La sustitución de caracteres no admite tipos de datos LOB.

Sustituir o eliminar caracteres de origen

Utilice la tabla Sustituir o eliminar caracteres de origen para definir reemplazos para caracteres de origen específicos. Esto puede ser útil, por ejemplo, cuando la representación Unicode de un carácter es diferente en las plataformas de origen y destino. Por ejemplo, en Linux, el carácter menos en el juego de caracteres Shift_JIS se representa como U+2212, pero en Windows se representa como U+FF0D.

Acciones de sustitución
Para Haga esto

Definir acciones de sustitución.

  1. Haga clic en el botón Añadir carácter encima de la tabla.

  2. Especifique un carácter de origen y un carácter de destino en los campos Carácter de origen y Carácter sustituto respectivamente.

    Por ejemplo, para sustituir la letra "a" por la letra "e", especifique 0061 y 0065 respectivamente.

    Nota informativa

    Para eliminar el carácter fuente especificado, escriba 0 en el Carácter sustituto respectivamente.

  3. Repita los pasos 1 y 2 para reemplazar o eliminar caracteres adicionales.

Editar el carácter de origen o del destino especificado

Haga clic en al final de la fila y seleccione Editar.

Eliminar entradas de la tabla

Haga clic en al final de la fila y seleccione Eliminar.

Sustituir o eliminar caracteres de origen no admitidos por el juego de caracteres seleccionado

Utilice la tabla Caracteres de origen no admitidos por juego de caracteres para definir un único carácter de sustitución para todos los caracteres no admitidos por el juego de caracteres seleccionado.

Acciones de sustitución de caracteres no admitidas
Para Haga esto

Defina o edite una acción de sustitución.

  1. Seleccione un juego de caracteres de la lista desplegable Juego de caracteres de la tabla.

    Los caracteres no admitidos por el juego de caracteres seleccionado se sustituirán en el destino por el carácter especificado en el paso 2.

  2. En la columna Carácter de sustitución, haga clic en cualquier lugar de la columna y especifique el carácter de sustitución. Por ejemplo, para sustituir todos los caracteres no admitidos por la letra "a", escriba 0061.

    Nota informativa

    Para eliminar todos los caracteres no admitidos, escriba 0.

Desactivar la acción de sustitución.

Seleccione la entrada en blanco de la lista desplegable Juego de caracteres.

Más opciones

Estas opciones no están expuestas en la interfaz de usuario ya que solo son relevantes para versiones o entornos específicos. En consecuencia, no configure estas opciones a menos que se lo indique explícitamente el Soporte de Qlik o la documentación del producto.

Para configurar una opción, simplemente copie la opción en el campo Añadir nombre de característica y haga clic en Añadir. Luego configure el valor o habilite la opción de acuerdo con las instrucciones que recibió.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.