Almacenar conjuntos de datos de streaming

Las siguientes configuraciones de la tarea de transformación de streaming se aplican a los proyectos de Qlik Open Lakehouse que utilizan una fuente de streaming.

Puede almacenar y transformar datos de streaming mediante la tarea de Transformar datos de streaming. Los datos de streaming a menudo contienen estructuras anidadas y matrices que requieren aplanamiento, y se necesitan capacidades de transformación durante la fase de almacenamiento. Estas capacidades están disponibles para la tarea de transformación de streaming, lo que le permite aplicar transformaciones inmediatamente después de que sus datos de streaming lleguen a destino.

Gestión de la granularidad del conjunto de datos

Puede aplanar estructuras anidadas y matrices para aumentar la granularidad. La granularidad se muestra en la vista del conjunto de datos. Haga clic en editar para editar la granularidad:

Al seleccionar un campo de una matriz, la tabla de destino incluirá una fila por elemento. Esto aumentará el número de filas en el destino.
Debe seleccionar campos de la misma ruta de matriz. La selección de campos de rutas diferentes generará un error de validación.
Los tipos de datos mostrados reflejan la granularidad seleccionada. Por ejemplo, un ARRAY<INT> se convierte en INT cuando se aplana. Para más información, vea Correspondencias entre tipos de datos.

Borrar una tarea

Puede eliminar la tarea de datos si no se está ejecutando y no hay dependencias de tareas posteriores en el mismo proyecto.

En la vista Proyecto de canalización del proyecto, haga clic en en una tarea y seleccione Eliminar.

Los artefactos (tablas y vistas) creados por la tarea también se eliminarán, a menos que elija conservarlos.

Tenga en cuenta que los artefactos que conserve ya no serán actualizados por la tarea.

Ver la información de la tarea

Haga clic en en la barra de menú para ver la información de la tarea, como:

Propietario
Espacio
Plataforma de datos
ID de proyecto
ID del tiempo de ejecución de la tarea de datos

Configuración de la transformación de streaming

Puede establecer propiedades para la tarea de datos de Streaming Transform cuando la plataforma de datos es Qlik Open Lakehouse.

Haga clic en Configuración.

Ajustes generales

Esquema de tarea

Puede cambiar el nombre del esquema de la tarea de Streaming Transform. El nombre predeterminado es el nombre de la tarea de almacenamiento.
Esquema interno

Puede cambiar el nombre del esquema de activos de datos de almacenamiento interno. El nombre predeterminado es el nombre de la tarea de almacenamiento con el sufijo _internal adjunto.
Prefijo para todas las tablas y vistas
Puede establecer un prefijo para todas las tablas y vistas creadas con esta tarea.

Nota informativaDebe usar un prefijo único cuando desee usar un esquema de base de datos en varias tareas de datos.
Carpeta que usar

Puede cambiar la carpeta de almacenamiento de la tarea de Streaming Transform.
Configuración de carga para nuevos conjuntos de datos
- Solo anexar
  
  Agrega nuevos registros sin modificar los datos existentes.Las restricciones de clave no se aplican si llegan registros duplicados.
- Aplicar los cambios
  
  Actualiza los registros existentes e inserta nuevos registros basándose en campos clave.
  
  Si selecciona combinar cambios, también puede seleccionar lo siguiente:
  - Eliminar registros de forma lógica proporcionando una expresión de eliminación
    
    Defina una expresión de eliminación para marcar los registros para su eliminación.
  - Mantener registros históricos (Tipo 2)
    
    Mantener versiones anteriores de los registros modificados.
Desanidamiento de columnas
- Conservar las columnas anidadas
  
  Seleccione para conservar los datos anidados.
- Desanidar en columnas separadas
  
  El comportamiento predeterminado es desanidar los datos en columnas separadas.
Partición de las tablas de destino

Nota informativaEsta opción solo está disponible cuando se selecciona Solo anexar en Configuración de carga.
- Sin partición
  
  Las tablas nuevas se crean sin particiones.
- Partición por fecha de evento
  
  Las tablas nuevas se particionan por la fecha en que se ingieren los eventos.
Manejo de cambios de datos

Nota informativaEsta opción solo está disponible cuando Aplicar cambios está seleccionado en Configuración de carga.
- Incluir eliminaciones lógicas: agregue una expresión para definir qué registros se deberán marcar para su eliminación.
- Crear un almacén de datos históricos (Tipo 2): esto mantendrá las versiones anteriores de los registros modificados.
Administrar la retención
- Sin poda de particiones
- Poda actual de particiones de capturas

Definiciones de tabla

hdr__from_timestamp

Cuando esta opción está habilitada, la columna de encabezado hdr__from_timestamp aparecerá en las vistas estándar. Además, cuando se selecciona Particionar por fecha de ingesta de eventos en el asistente de incorporación, hdr__from_timestamp se utilizará como columna de partición predeterminada.

Nota informativaLas vistas de historial siempre incluyen todas las columnas de encabezado de vista estándar, independientemente de esta configuración.

Configuración de tiempo de ejecución

Clúster de lakehouse

Puede cambiar el clúster de lakehouse, pero este debe admitir cargas de trabajo de streaming o cargas de trabajo mixtas.

Configuración de la evolución del esquema

Agregar nuevos conjuntos de datos

Esta configuración se aplica cuando se añaden nuevos conjuntos de datos a la tarea de destino de streaming.

Nota informativaSolo se admite cuando el destino de streaming lee de Kafka.
- Aplicar al objetivo
  
  Añade automáticamente nuevos conjuntos de datos de la tarea de aterrizaje de streaming a la tarea de transformación de streaming. Esta es la configuración predeterminada.
- Ignorar
  
  No añade nuevos conjuntos de datos.
Añadir columnas en el nivel raíz

Esta configuración se aplica cuando se añaden nuevas columnas a la tarea de destino de streaming en el nivel raíz.
- Aplicar al objetivo
  
  Añade automáticamente nuevas columnas de nivel raíz de la tarea de destino de Streaming a la tarea de transformación de Streaming. Esta es la configuración predeterminada.
- Ignorar
  
  No añade nuevas columnas de nivel raíz.
- Detener tarea
  
  Detiene la tarea de transformación si se detecta una nueva columna de nivel raíz en la tarea de destino/aterrizaje de stream.
Añadir columnas a las estructuras

Esta configuración se aplica cuando se añaden nuevos campos dentro de una estructura anidada existente en la tarea de destino/aterrizaje de stream.
- Aplicar al objetivo
  Añade automáticamente nuevos campos a las estructuras existentes en la tarea de transformación de streaming si se añaden a la estructura de destino/aterrizaje.
- Ignorar
  
  No añade nuevos campos a las estructuras existentes.
- Detener tarea
  
  Detiene la tarea de transformación si se añade un nuevo campo a una estructura en la tarea de destino de streaming.
Cambiar el tipo de datos del campo
- Ignorar
  No cambia el tipo de datos.
- Detener tarea
  
  Detiene la tarea de transformación si se detecta un cambio en el tipo de datos en la tarea de destino de streaming.

Configuración del conjunto de datos

Las siguientes configuraciones están disponibles para todos los conjuntos de datos en la vista Diseño > Conjuntos de datos.

Haga clic en más junto al conjunto de datos y seleccione Configuración.

Manejo de carga de datos

Selecciona cómo se cargan los datos en la tabla de destino.
- Solo anexar
  
  Agrega nuevos registros sin modificar los datos existentes.Las restricciones de clave no se aplican si llegan registros duplicados.
- Aplicar los cambios
  
  Actualiza los registros existentes e inserta nuevos registros basándose en campos clave.
Manejo de cambios de datos

Nota informativaEsta opción solo está disponible cuando Aplicar cambios está seleccionado en Configuración de carga.
- Incluir eliminaciones temporales: inserte una expresión para definir qué registros se deben marcar para su eliminación. Debe ser una expresión que se evalúe como True si el cambio es una eliminación temporal.
  
  Ejemplo: operation = 'D'
- Crear un almacén de datos históricos (Tipo 2): esto mantendrá las versiones anteriores de los registros modificados.
Columnas de partición

Opcionalmente, puede seleccionar columnas de partición para optimizar el rendimiento.

Haga clic en Añadir columna para añadir una columna de partición, luego seleccione una Transformación y establezca un Parámetro si es necesario.
Administrar la retención

La eliminación de particiones elimina las particiones que son más antiguas que el período de retención. Esto no elimina físicamente los datos y no afecta inmediatamente a las capturas más antiguas. Los datos más antiguos pueden estar disponibles en capturas más antiguas hasta que caduquen.

Nota informativaAparece solo si la partición tiene al menos una columna de fecha o de fecha y hora.
- Sin poda de particiones
- Poda actual de particiones de capturas
Orden de las columnas

Nota informativaEsta opción solo está disponible cuando se selecciona Solo anexar en Configuración de carga.

Opcionalmente, puede especificar las columnas por las cuales se ordenarán los datos dentro de cada archivo de su tabla Iceberg. Durante la ingesta de datos, Iceberg utiliza estas columnas para ordenar los registros. La definición de claves de ordenación en columnas utilizadas con frecuencia en las consultas mejora la localidad de los datos, lo que da como resultado un rendimiento de lectura más rápido y una compresión más eficiente. Las claves de ordenación configuradas correctamente garantizan que sus datos estén organizados de forma óptima para el rendimiento de las consultas.

Haga clic en Agregar columna para agregar una columna de ordenación y, a continuación, establezca el orden de ordenación.
Duración de la expiración de una captura de imagen

Esta configuración controla durante cuánto tiempo se conservan las capturas, lo que afecta significativamente al tamaño de la tabla y los costes de almacenamiento. Para las tablas que se actualizan con frecuencia, se recomienda una duración más corta para ayudar a reducir los costes de almacenamiento.

Nota informativaEscriba 0 para deshabilitar la caducidad de la captura.
Encabezados de vista estándar
- Heredar de la configuración de la tarea de datos
  
  Esta es la opción predeterminada. Desactivar si desea establecer columnas de encabezado específicas solo para este conjunto de datos.
- hdr__from_timestamp
  
  Cuando esta opción está habilitada, la columna de encabezado hdr__from_timestamp aparecerá en las vistas estándar. Además, cuando se selecciona Particionar por fecha de ingesta de eventos en el asistente de incorporación, hdr__from_timestamp se utilizará como columna de partición predeterminada.
  
  Nota informativaLas vistas de historial siempre incluyen todas las columnas de encabezado de vista estándar, independientemente de esta configuración.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios