Saltar al contenido principal

Crear un activo de datos de almacenamiento con manejo de cambios en un almacén de datos en la nube

Puede crear un activo de datos de almacenamiento en el inicio de Data services, al que puede acceder desde la barra de navegación. El activo de datos de almacenamiento selecciona los datos del área de aterrizaje en la nube, por ejemplo Snowflake, y los convierte en tablas para el análisis. Los datos se aplican periódicamente a las tablas a partir de los cambios efectuados en el activo de datos de entrada usando CDC (Change Data Capture), captura de datos modificados. También se crean vistas para proporcionar un acceso más versátil a los datos en las tablas almacenadas.

Introducción

Cuando generamos datos en el almacén de datos en la nube, se generan tablas de almacenamiento, tablas de cambios y vistas. Al consumir datos, la mejor práctica es utilizar vistas. Las vistas ofrecen varias ventajas sobre las tablas, como una mejor concurrencia de datos. Si no está seguro de qué vista consumir, pruebe primero la vista estándar para tablas.

Tablas y vistas generadas por un activo de datos de almacenamiento que lee de un activo de datos de destino usando gestión de cambios

Siempre se crearán las siguientes tablas y vistas:

  • Tablas

    Las tablas contienen los datos físicos que se almacenan.

  • Vistas estándar para tablas

    Las vistas estándar de las tablas solo le permiten ver los datos que se aplican a las tablas. Esto significa que no incluye los datos de la tabla de cambios más recientes que aún no se han aplicado. Las vistas estándar se pueden utilizar cuando se prioriza la coherencia sobre la latencia.

  • Vistas de las tablas de cambios

    Esta es una vista de la tabla de cambios en el esquema de destino.

También puede seleccionar crear las siguientes vistas avanzadas:

  • Vistas estándar con encabezados

    Esta es una vista estándar para una tabla con campos de cabecera adicionales que son generados por el activo de datos de almacenamiento.

  • Vistas en vivo

    Las vistas en vivo incluyen los datos de la tabla de cambios que aún no se han aplicado. Esto le permite ver datos con menor latencia sin tener que aplicar datos modificados con frecuencia. Las vistas en vivo son menos eficientes que las vistas estándar y requieren más recursos.

Para obtener información más detallada sobre las tablas y vistas que se generan, vea Estructura de tablas y vistas que se generan.

Crear un activo de datos de almacenamiento

  1. Haga clic en Añadir nuevo en la páina de inicio de Data Integration y a continuación seleccione Crear activo de datos.
  2. En el diálogo Crear activo de datos, rellene los siguientes campos:

    • Nombre: Nombre del activo de datos.

    • Espacio: Especifique el espacio de destino del activo de datos.

    • Tipo de activo: Seleccione Almacenamiento (almacén de datos en la nube).

    • Seleccione Abrir para abrir el activo de datos cuando se cree.

    Haga clic en Crear cuando esté listo.

  3. Haga clic en Seleccionar datos de origen.

  4. Seleccione el activo de datos de destino que desea utilizar como fuente para el activo de datos de almacenamiento y después haga clic en Seleccionar. Seleccione un activo de datos de destino con el tipo de tarea Carga completa + CDC. El tipo de tarea se muestra en la vista de lista.

    Se muestra el cuadro de diálogo Configuración.

  5. Configurar los ajustes de Almacenamiento

    • Conexión

      Seleccione la conexión de datos con permiso de escritura para el almacén de datos en la nube de almacenamiento y permiso de lectura para el almacén de datos en la nube que utiliza el activo de datos de destino. Si no tiene una conexión de datos, debe crearla.

      Nota informativaLa autenticación OAuth no es compatible con la entrega de datos híbridos.
    • Esquema interno

      El nombre del esquema donde se crearán las tablas.

    • Esquema de activos de datos

      El nombre del esquema donde se crearán las vistas.

    Nota informativaPuede usar el mismo esquema que el Esquema interno y el Esquema de activo de datos, pero mantenerlos separados le permite establecer diferentes accesos a los esquemas. Por ejemplo, puede restringir el acceso al Esquema interno y permitir el acceso al Esquema del activo de datos para todos los consumidores.
  6. Configurar ajustes para Tablas y vistas

    Siempre se creará lo siguiente:

    • Tablas

    • Vistas estándar para tablas

    • Vistas estándar para tablas de cambios

    También puede seleccionar crear las siguientes vistas:

    • Vistas estándar con encabezados

    • Vistas en vivo

      Si desea que las vistas en vivo sean reflejo exacto de las transacciones, seleccione Las vistas en vivo son coherentes con las transacciones. Cuando se selecciona esto, las tablas de estado se actualizan tras cada actualización por lotes; de manera predeterminada cada minuto si hay cambios. Esto requiere un acceso más frecuente a la base de datos en la nube. Dependiendo del proveedor de su base de datos en la nube, esto puede significar que la base de datos en la nube nunca se suspende debido a la inactividad.

  7. Configurar ajustes para Prefijos y sufijos

    Puede establecer un prefijo para identificar los recursos generados por este activo de datos. Esto también le permite reutilizar el mismo esquema en múltiples activos de datos, ya que puede distinguir las tablas y vistas por prefijo.

    También puede establecer los sufijos para las vistas que se generan.

  8. Configurar los ajustes para el Tiempo de ejecución

    • Puede establecer Intervalo de aplicación en minutos.

      Esto establece la frecuencia con la que se aplicarán los datos modificados a la tabla de almacenamiento. El rango de intervalo es de 1 minuto a 1440 minutos (7 días).

      Le recomendamos que no establezca este intervalo por debajo de la frecuencia de actualización en la tarea de Qlik Replicate asociada. La aplicación de datos con mayor frecuencia también generará mayor coste de recursos en el destino en la nube.

      Como alternativa, si necesita datos de baja latencia ocasionalmente, puede mantener alto el Intervalo de aplicación y usar vistas en vivo.

    • Puede establecer el número máximo de conexiones de bases de datos en Ejecución en paralelo.

    Los parámetros de Tiempo de ejecución se pueden cambiar después de que el activo de datos se cataloga y se ejecuta. El cambio afectará al próximo procesamiento real.

  9. Haga clic en Aceptar para confirmar su configuración. Ahora puede obtener una vista previa de la estructura de tabla antes de comenzar a generar los conjuntos de datos.

  10. Haga clic en Guardar para guardar su activo de datos.

  11. Haga clic en Ejecutar para comenzar a generar los conjuntos de datos.

Las tablas ahora se generarán y poblarán con datos si ya ha realizado una carga completa de los datos de destino.

Supervisar la generación de tablas

Puede controlar el estado y el progreso de la generación de tablas si hace clic en Supervisar. Cuando se ejecuta la primera carga, puede ver el progreso en Estado de carga completa. Cuando se han procesado los cambios, también puede ver el estado y el progreso del Último lote de cambios.

Puede ver los detalles siguientes para cada tabla o cambio:

  • Estado

    Muestra el estado actual de la tabla o cambio.

    • Finalizado: la carga o el cambio se ha completado con éxito.

    • Cargando: la tabla o el cambio se está procesando.

    • En cola: la tabla o el cambio está esperando a ser procesado.

    • Error: hubo un error al procesar la tabla o cambio.

  • Iniciado

    La hora a la que se inició el proceso de carga o cambio.

  • Finalizado

    La hora en que finalizó la carga o el procesamiento de cambios.

  • Duración

    Duración de la carga o el procesamiento de cambios en el formato hh:mm:ss.

  • Registros procesados

    El número de registros procesados en la carga o cambio.

  • Rendimiento (registros/segundo)

    El rendimiento no se actualiza hasta que finaliza la carga.

  • Mensaje

    Muestra un mensaje de error si la carga o el cambio no se procesaron correctamente.

Las tablas se actualizarán continuamente con nuevos datos a medida que la tarea de replicación actualice los datos de destino. Cada lote se relaciona con registros de un período de tiempo determinado. Puede ver el intervalo de tiempo del lote más reciente en Último lote de cambios.

También puede consultar el panel de activos de datos en la página de inicio de Data services. Cuando Los datos se actualizan a muestra la fecha y la hora de la última actualización, las tablas deben estar disponibles en Datos en el centro de control Analytics Hub.

Los datos de todas las transacciones de origen hasta el momento en que se muestran en El activo de datos se actualiza a está disponible para el consumo desde este activo de datos. Esta información está disponible para un activo de datos una vez que se cargaron todas las tablas y se aplicó el primer conjunto de cambios. Si seleccionó generar vistas en vivo, también puede ver cuándo se actualizan las vistas en vivo.

Si hay un lote de cambios antes de que se complete la carga inicial, pulsar Los datos se actualizan a en el panel de activos no actualizará los datos hasta que se complete la carga inicial y se aplique el primer lote de cambios. Por ejemplo, supongamos que está cargando un activo de datos que contiene una tabla de pedidos con 1 millón de pedidos y una tabla de detalles de pedidos que contiene 10 millones de detalles de pedidos. Las tablas tardan 10 y 20 minutos en realizar una carga completa, respectivamente. La tabla de pedidos se carga primero, seguida de la tabla de los detalles de pedido. Mientras se cargaba la tabla de pedidos, se insertó un nuevo pedido. Por lo tanto, cuando se cargan los detalles del pedido, es posible que contenga detalles del nuevo pedido, que aún no existe en la tabla de pedidos. Las tablas de pedidos y detalles de pedidos solo se sincronizarán y actualizarán completamente al mismo tiempo después de aplicarse el primer lote de cambios.

Nota informativaNo es posible cambiar la configuración, ni los conjuntos de datos incluidos una vez que se ha comenzado a generar tablas.

Operaciones en el activo de datos de almacenamiento

Puede realizar las siguientes operaciones en un activo de datos de almacenamiento desde el menú de activos en la página de Inicio de Data services.

  • Abrir

    Esto abre el activo de datos de almacenamiento. Puede ver la estructura de la tabla y los detalles sobre el activo de datos y supervisar el estado de la carga completa y los lotes de cambios.

  • Editar

    Puede editar el nombre y la descripción del activo y agregar etiquetas.

  • Detener

    Puede detener el funcionamiento del activo de datos. El activo de datos no continuará actualizando las tablas.

  • Reiniciar

    Puede reanudar el funcionamiento de un activo de datos desde el punto en que se detuvo.

  • Eliminar

    Puede eliminar el activo de datos.

Recarga de tablas

Puede volver a cargar tablas en un activo de datos de almacenamiento que está abierto y la app se está ejecutando. La recarga comienza cuando se procesa el siguiente lote de cambios.

Si los datos de destino tienen más de 96 horas, deberá volver a cargar las tablas en el activo de datos de destino que alimenta este activo de datos antes de ejecutar este activo de datos.

  • Para cargar todas las tablas:

    Haga clic en y después en Cargar.

  • Para cargar tablas específicas:

    1. Abra la pestaña Supervisar.

    2. Seleccione las tablas que desea cargar.

    3. Haga clic en Cargar tablas.

Si hubiera un error en la tarea Replicate, debe volver a cargar el activo de datos de destino desde la tarea Replicate antes de poder realizar una carga en el activo de datos de almacenamiento.

Estructura de tablas y vistas que se generan

Esta sección describe la estructura de las tablas y vistas que se generan en el esquema de activos de datos y en el esquema interno.

Todas las tablas y vistas son administradas por Qlik Data services. No modifique los datos con otras herramientas.

Tablas

Las tablas se generan en el esquema interno.

El nombre debe ser: <ESQUEMA_INTERNO>.[<PREFIJO>]<NOMBRE_TABLA><sufijo de tablas>

Los siguientes campos de cabecera se añaden a la estructura de la tabla.

Campos de cabecera de la tabla
Campo Tipo Descripción
hdr__key_hash binary(20)

Hash de todas las claves primarias del registro.

El formato de hash es SHA1. Los campos van separados por un carácter de retroceso.

hdr__timestamp fecha-hora

Una fecha y una hora en UTC

  • Para los datos tomados de la carga completa, será la hora de inicio de la carga completa.

  • Para un cambio proveniente de tablas de cambios, será el campo fecha-hora del registro.

hdr__operation string(1)

Última operación de este registro.

  • U: actualizado desde la tabla de cambios.

  • I: insertado desde la tabla de cambios.

  • L: insertado por la tarea de la carga completa.

Las eliminaciones en los datos de destino son eliminaciones definitivas.

Tabla de estado del activo

La tabla de estado del activo se genera en el esquema interno. Se utiliza para mantener la última secuencia aplicada y la última secuencia comunicada por Qlik Replicate para la coherencia de la transacción. Todos los objetos de un activo de datos utilizan la misma tabla de estado de activo.

El nombre debe ser: <ESQUEMA_INTERNO>.[<PREFIJO>]ESTADO_ACTIVO__<ID_ACTIVO_DATOS>

Campos de la tabla de estado del activo
Campo Tipo Descripción
hdr__dataset_id binary(20)

ID del conjunto de datos.

hdr__change_seq string(35)

Se aplicó la última secuencia de cambios.

hdr__timestamp fecha-hora

Hora de la última transacción cumplida aplicada en UTC.

Vistas estándar para tablas

Se genera una vista estándar con encabezados en el esquema de activos de datos para cada tabla seleccionada en el esquema interno. Esta vista incluye todos los campos originales de la estructura de la tabla, pero no incluye los campos de encabezado que se agregan a la tabla en el esquema interno.

El nombre debe ser: <ESQUEMA_ACTIVO_DATOS>.[<PREFIJO>]<NOMBRE_TABLA>< Sufijo para vistas estándar para tablas>

Vistas estándar con encabezados

Se genera opcionalmente una vista estándar con encabezados en el esquema de activos de datos para cada tabla seleccionada en el esquema interno. Esta vista incluye los campos de encabezado que se agregan a la tabla.

El nombre debe ser: <ESQUEMA_ACTIVO_DATOS>.[<PREFIJO>]<NOMBRE_TABLA>< Sufijo para vistas estándar con encabezados>

Vistas en vivo

Las vistas en vivo muestran una vista para cada tabla de origen seleccionada. Dicha vista fusiona la tabla con los cambios de la tabla de cambios. Esto proporciona a las consultas una vista en vivo de los datos sin tener que esperar al siguiente ciclo de solicitud. Los cambios fusionados de la vista de la tabla de cambios son coherentes con las transacciones entre tablas que utilizan eventos de Replicate. Las vistas en vivo se generan en el esquema de activos de datos.

Los activos de datos de las vistas en vivo realizan una operación en el destino de la nube cada minuto de forma predeterminada si hay cambios. Esto se puede cambiar en Qlik Replicate.

El nombre debe ser: <ESQUEMA_ACTIVO_DATOS>.[<PREFIJO>]<NOMBRE_TABLA>< Sufijo para vistas en vivo>

Vistas de las tablas de cambios

Esta es una vista de la tabla de cambios en el esquema de destino para cada tabla de origen seleccionada.

El nombre debe ser: <ESQUEMA_ACTIVO_DATOS>.[<PREFIJO>]<NOMBRE_TABLA>< Sufijo para vistas de tabla de cambios>

Los siguientes campos de cabecera se añaden a la estructura de la tabla.

Campos de cabecera de la tabla de cambios
Campo Tipo Descripción
hdr__change_seq string(35) Secuencia de cambios desde Qlik Replicate.
hdr__operation string(1)

Última operación de este registro.

  • U: actualizado

  • I: insertado.

  • D: eliminado.

hdr__timestamp fecha-hora

Fecha-hora en UTC desde Qlik Replicate.

hdr__key_hash binary(20)

Hash de todas las claves primarias de registro de la tabla de cambios de Qlik Replicate.