Saltar al contenido principal Saltar al contenido complementario

Almacenar conjuntos de datos de streaming

Las siguientes configuraciones de la tarea de transformación de streaming se aplican a los proyectos de Qlik Open Lakehouse que utilizan una fuente de streaming.

Puede almacenar y transformar datos de streaming mediante la tarea de Transformar datos de streaming. Los datos de streaming a menudo contienen estructuras anidadas y matrices que requieren aplanamiento, y se necesitan capacidades de transformación durante la fase de almacenamiento. Estas capacidades están disponibles para la tarea de transformación de streaming, lo que le permite aplicar transformaciones inmediatamente después de que sus datos de streaming lleguen a destino.

Gestión de la granularidad del conjunto de datos

Puede aplanar estructuras anidadas y matrices para aumentar la granularidad. La granularidad se muestra en la vista del conjunto de datos. Haga clic en editar para editar la granularidad:

  • Al seleccionar un campo de una matriz, la tabla de destino incluirá una fila por elemento. Esto aumentará el número de filas en el destino.

  • Debe seleccionar campos de la misma ruta de matriz. La selección de campos de rutas diferentes generará un error de validación.

  • Los tipos de datos mostrados reflejan la granularidad seleccionada. Por ejemplo, un ARRAY<INT> se convierte en INT cuando se aplana. Para más información, vea Correspondencias entre tipos de datos.

Borrar una tarea

Puede eliminar la tarea de datos si no se está ejecutando y no hay dependencias de tareas posteriores en el mismo proyecto.

  • En la vista Proyecto de canalización del proyecto, haga clic en Más en una tarea y seleccione Eliminar.

Los artefactos (tablas y vistas) creados por la tarea también se eliminarán, a menos que elija conservarlos.

Nota informativaTenga en cuenta que los artefactos que conserve ya no serán actualizados por la tarea.

Ver la información de la tarea

Haga clic en Información en la barra de menú para ver la información de la tarea, como:

  • Propietario

  • Espacio

  • Plataforma de datos

  • ID de proyecto

  • ID del tiempo de ejecución de la tarea de datos

Configuración de la transformación de streaming

Configuración de almacenamiento

Puede establecer propiedades para la tarea de datos de Streaming Transform cuando la plataforma de datos es Qlik Open Lakehouse.

  • Haga clic en Configuración.

Ajustes generales

  • Esquema de tarea

    Puede cambiar el nombre del esquema de la tarea de Streaming Transform. El nombre predeterminado es el nombre de la tarea de almacenamiento.

  • Esquema interno

    Puede cambiar el nombre del esquema de activos de datos de almacenamiento interno. El nombre predeterminado es el nombre de la tarea de almacenamiento con el sufijo _internal adjunto.

  • Prefijo para todas las tablas y vistas

    Puede establecer un prefijo para todas las tablas y vistas creadas con esta tarea.

    Nota informativaDebe usar un prefijo único cuando desee usar un esquema de base de datos en varias tareas de datos.
  • Carpeta que usar

    Puede cambiar la carpeta de almacenamiento de la tarea de Streaming Transform.

  • Configuración de carga para nuevos conjuntos de datos

    • Solo anexar

      Agrega nuevos registros sin modificar los datos existentes.Las restricciones de clave no se aplican si llegan registros duplicados.

    • Aplicar los cambios

      Actualiza los registros existentes e inserta nuevos registros basándose en campos clave.

      Si selecciona combinar cambios, también puede seleccionar lo siguiente:

      • Eliminar registros de forma lógica proporcionando una expresión de eliminación

        Defina una expresión de eliminación para marcar los registros para su eliminación.

      • Mantener registros históricos (Tipo 2)

        Mantener versiones anteriores de los registros modificados.

  • Desanidamiento de columnas

    • Conservar las columnas anidadas

      Seleccione para conservar los datos anidados.

    • Desanidar en columnas separadas

      El comportamiento predeterminado es desanidar los datos en columnas separadas.

  • Partición de las tablas de destino

    Nota informativaEsta opción solo está disponible cuando se selecciona Solo anexar en Configuración de carga.
    • Sin partición

      Las tablas nuevas se crean sin particiones.

    • Partición por fecha de evento

      Las tablas nuevas se particionan por la fecha en que se ingieren los eventos.

  • Manejo de cambios de datos

    Nota informativaEsta opción solo está disponible cuando Aplicar cambios está seleccionado en Configuración de carga.
    • Incluir eliminaciones lógicas: agregue una expresión para definir qué registros se deberán marcar para su eliminación.

    • Crear un almacén de datos históricos (Tipo 2): esto mantendrá las versiones anteriores de los registros modificados.

  • Administrar la retención
    • Sin poda de particiones

    • Poda actual de particiones de capturas

Configuración de tiempo de ejecución

  • Clúster de lakehouse

    Puede cambiar el clúster de lakehouse, pero este debe admitir cargas de trabajo de streaming o cargas de trabajo mixtas.

Configuración de la evolución del esquema

  • Añadir columnas en el nivel raíz

    Esta configuración se aplica cuando se añaden nuevas columnas a la tarea de destino de streaming en el nivel raíz.

    • Aplicar al objetivo

      Añade automáticamente nuevas columnas de nivel raíz de la tarea de destino de Streaming a la tarea de transformación de Streaming. Esta es la configuración predeterminada.

    • Ignorar

      No añade nuevas columnas de nivel raíz.

    • Detener tarea

      Detiene la tarea de transformación si se detecta una nueva columna de nivel raíz en la tarea de destino/aterrizaje de stream.

  • Añadir columnas a las estructuras

    Esta configuración se aplica cuando se añaden nuevos campos dentro de una estructura anidada existente en la tarea de destino/aterrizaje de stream.

    • Aplicar al objetivo

      Añade automáticamente nuevos campos a las estructuras existentes en la tarea de transformación de streaming si se añaden a la estructura de destino/aterrizaje.

    • Ignorar

      No añade nuevos campos a las estructuras existentes.

    • Detener tarea

      Detiene la tarea de transformación si se añade un nuevo campo a una estructura en la tarea de destino de streaming.

  • Cambiar el tipo de datos del campo

    • Ignorar

      No cambia el tipo de datos.

    • Detener tarea

      Detiene la tarea de transformación si se detecta un cambio en el tipo de datos en la tarea de destino de streaming.

Configuración del conjunto de datos

Las siguientes configuraciones están disponibles para todos los conjuntos de datos en la vista Diseño > Conjuntos de datos.

Haga clic en más junto al conjunto de datos y seleccione Configuración.

  • Manejo de carga de datos

    Selecciona cómo se cargan los datos en la tabla de destino.

    • Solo anexar

      Agrega nuevos registros sin modificar los datos existentes.Las restricciones de clave no se aplican si llegan registros duplicados.

    • Aplicar los cambios

      Actualiza los registros existentes e inserta nuevos registros basándose en campos clave.

  • Manejo de cambios de datos

    Nota informativaEsta opción solo está disponible cuando Aplicar cambios está seleccionado en Configuración de carga.
    • Incluir eliminaciones temporales: inserte una expresión para definir qué registros se deben marcar para su eliminación. Debe ser una expresión que se evalúe como True si el cambio es una eliminación temporal.

      Ejemplo: operation = 'D'

    • Crear un almacén de datos históricos (Tipo 2): esto mantendrá las versiones anteriores de los registros modificados.

  • Columnas de partición

    Opcionalmente, puede seleccionar columnas de partición para optimizar el rendimiento.

    Haga clic en Añadir columna para añadir una columna de partición, luego seleccione una Transformación y establezca un Parámetro si es necesario.

  • Administrar la retención

    La eliminación de particiones elimina las particiones que son más antiguas que el período de retención. Esto no elimina físicamente los datos y no afecta inmediatamente a las capturas más antiguas. Los datos más antiguos pueden estar disponibles en capturas más antiguas hasta que caduquen.

    Nota informativaAparece solo si la partición tiene al menos una columna de fecha o de fecha y hora.
    • Sin poda de particiones

    • Poda actual de particiones de capturas

  • Orden de las columnas

    Nota informativaEsta opción solo está disponible cuando se selecciona Solo anexar en Configuración de carga.

    Opcionalmente, puede especificar las columnas por las cuales se ordenarán los datos dentro de cada archivo de su tabla Iceberg. Durante la ingesta de datos, Iceberg utiliza estas columnas para ordenar los registros. La definición de claves de ordenación en columnas utilizadas con frecuencia en las consultas mejora la localidad de los datos, lo que da como resultado un rendimiento de lectura más rápido y una compresión más eficiente. Las claves de ordenación configuradas correctamente garantizan que sus datos estén organizados de forma óptima para el rendimiento de las consultas.

    Haga clic en Agregar columna para agregar una columna de ordenación y, a continuación, establezca el orden de ordenación.

  • Duración de la expiración de una captura de imagen

    Esta configuración controla durante cuánto tiempo se conservan las capturas, lo que afecta significativamente al tamaño de la tabla y los costes de almacenamiento. Para las tablas que se actualizan con frecuencia, se recomienda una duración más corta para ayudar a reducir los costes de almacenamiento.

    Nota informativaEscriba 0 para deshabilitar la caducidad de la captura.

 

 

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.