Almacenar conjuntos de datos de streaming
Las siguientes configuraciones de la tarea de transformación de streaming se aplican a los proyectos de Qlik Open Lakehouse que utilizan una fuente de streaming.
Puede almacenar y transformar datos de streaming mediante la tarea de Transformar datos de streaming. Los datos de streaming a menudo contienen estructuras anidadas y matrices que requieren aplanamiento, y se necesitan capacidades de transformación durante la fase de almacenamiento. Estas capacidades están disponibles para la tarea de transformación de streaming, lo que le permite aplicar transformaciones inmediatamente después de que sus datos de streaming lleguen a destino.
Gestión de la granularidad del conjunto de datos
Puede aplanar estructuras anidadas y matrices para aumentar la granularidad. La granularidad se muestra en la vista del conjunto de datos. Haga clic en para editar la granularidad:
-
Al seleccionar un campo de una matriz, la tabla de destino incluirá una fila por elemento. Esto aumentará el número de filas en el destino.
-
Debe seleccionar campos de la misma ruta de matriz. La selección de campos de rutas diferentes generará un error de validación.
-
Los tipos de datos mostrados reflejan la granularidad seleccionada. Por ejemplo, un ARRAY<INT> se convierte en INT cuando se aplana. Para más información, vea Correspondencias entre tipos de datos.
Borrar una tarea
Puede eliminar la tarea de datos si no se está ejecutando y no hay dependencias de tareas posteriores en el mismo proyecto.
-
En la vista Proyecto de canalización del proyecto, haga clic en
en una tarea y seleccione Eliminar.
Los artefactos (tablas y vistas) creados por la tarea también se eliminarán, a menos que elija conservarlos.
Ver la información de la tarea
Haga clic en en la barra de menú para ver la información de la tarea, como:
-
Propietario
-
Espacio
-
Plataforma de datos
-
ID de proyecto
-
ID del tiempo de ejecución de la tarea de datos
Configuración de la transformación de streaming
Configuración de almacenamiento
Puede establecer propiedades para la tarea de datos de Streaming Transform cuando la plataforma de datos es Qlik Open Lakehouse.
-
Haga clic en Configuración.
Ajustes generales
-
Esquema de tarea
Puede cambiar el nombre del esquema de la tarea de Streaming Transform. El nombre predeterminado es el nombre de la tarea de almacenamiento.
-
Esquema interno
Puede cambiar el nombre del esquema de activos de datos de almacenamiento interno. El nombre predeterminado es el nombre de la tarea de almacenamiento con el sufijo _internal adjunto.
- Prefijo para todas las tablas y vistas
Puede establecer un prefijo para todas las tablas y vistas creadas con esta tarea.
Nota informativaDebe usar un prefijo único cuando desee usar un esquema de base de datos en varias tareas de datos. -
Carpeta que usar
Puede cambiar la carpeta de almacenamiento de la tarea de Streaming Transform.
-
Configuración de carga para nuevos conjuntos de datos
-
Solo anexar
Agrega nuevos registros sin modificar los datos existentes.Las restricciones de clave no se aplican si llegan registros duplicados.
-
Aplicar los cambios
Actualiza los registros existentes e inserta nuevos registros basándose en campos clave.
Si selecciona combinar cambios, también puede seleccionar lo siguiente:
-
Eliminar registros de forma lógica proporcionando una expresión de eliminación
Defina una expresión de eliminación para marcar los registros para su eliminación.
-
Mantener registros históricos (Tipo 2)
Mantener versiones anteriores de los registros modificados.
-
-
-
Desanidamiento de columnas
-
Conservar las columnas anidadas
Seleccione para conservar los datos anidados.
-
Desanidar en columnas separadas
El comportamiento predeterminado es desanidar los datos en columnas separadas.
-
-
Partición de las tablas de destino
Nota informativaEsta opción solo está disponible cuando se selecciona Solo anexar en Configuración de carga.-
Sin partición
Las tablas nuevas se crean sin particiones.
-
Partición por fecha de evento
Las tablas nuevas se particionan por la fecha en que se ingieren los eventos.
-
-
Manejo de cambios de datos
Nota informativaEsta opción solo está disponible cuando Aplicar cambios está seleccionado en Configuración de carga.-
Incluir eliminaciones lógicas: agregue una expresión para definir qué registros se deberán marcar para su eliminación.
-
Crear un almacén de datos históricos (Tipo 2): esto mantendrá las versiones anteriores de los registros modificados.
-
- Administrar la retención
-
Sin poda de particiones
-
Poda actual de particiones de capturas
-
Configuración de tiempo de ejecución
-
Clúster de lakehouse
Puede cambiar el clúster de lakehouse, pero este debe admitir cargas de trabajo de streaming o cargas de trabajo mixtas.
Configuración de la evolución del esquema
-
Añadir columnas en el nivel raíz
Esta configuración se aplica cuando se añaden nuevas columnas a la tarea de destino de streaming en el nivel raíz.
-
Aplicar al objetivo
Añade automáticamente nuevas columnas de nivel raíz de la tarea de destino de Streaming a la tarea de transformación de Streaming. Esta es la configuración predeterminada.
-
Ignorar
No añade nuevas columnas de nivel raíz.
-
Detener tarea
Detiene la tarea de transformación si se detecta una nueva columna de nivel raíz en la tarea de destino/aterrizaje de stream.
-
-
Añadir columnas a las estructuras
Esta configuración se aplica cuando se añaden nuevos campos dentro de una estructura anidada existente en la tarea de destino/aterrizaje de stream.
- Aplicar al objetivo
Añade automáticamente nuevos campos a las estructuras existentes en la tarea de transformación de streaming si se añaden a la estructura de destino/aterrizaje.
-
Ignorar
No añade nuevos campos a las estructuras existentes.
-
Detener tarea
Detiene la tarea de transformación si se añade un nuevo campo a una estructura en la tarea de destino de streaming.
- Aplicar al objetivo
-
Cambiar el tipo de datos del campo
- Ignorar
No cambia el tipo de datos.
-
Detener tarea
Detiene la tarea de transformación si se detecta un cambio en el tipo de datos en la tarea de destino de streaming.
- Ignorar
Configuración del conjunto de datos
Las siguientes configuraciones están disponibles para todos los conjuntos de datos en la vista Diseño > Conjuntos de datos.
Haga clic en junto al conjunto de datos y seleccione Configuración.
-
Manejo de carga de datos
Selecciona cómo se cargan los datos en la tabla de destino.
-
Solo anexar
Agrega nuevos registros sin modificar los datos existentes.Las restricciones de clave no se aplican si llegan registros duplicados.
-
Aplicar los cambios
Actualiza los registros existentes e inserta nuevos registros basándose en campos clave.
-
-
Manejo de cambios de datos
Nota informativaEsta opción solo está disponible cuando Aplicar cambios está seleccionado en Configuración de carga.-
Incluir eliminaciones temporales: inserte una expresión para definir qué registros se deben marcar para su eliminación. Debe ser una expresión que se evalúe como True si el cambio es una eliminación temporal.
Ejemplo: operation = 'D'
-
Crear un almacén de datos históricos (Tipo 2): esto mantendrá las versiones anteriores de los registros modificados.
-
-
Columnas de partición
Opcionalmente, puede seleccionar columnas de partición para optimizar el rendimiento.
Haga clic en Añadir columna para añadir una columna de partición, luego seleccione una Transformación y establezca un Parámetro si es necesario.
-
Administrar la retención
La eliminación de particiones elimina las particiones que son más antiguas que el período de retención. Esto no elimina físicamente los datos y no afecta inmediatamente a las capturas más antiguas. Los datos más antiguos pueden estar disponibles en capturas más antiguas hasta que caduquen.
Nota informativaAparece solo si la partición tiene al menos una columna de fecha o de fecha y hora.-
Sin poda de particiones
-
Poda actual de particiones de capturas
-
-
Orden de las columnas
Nota informativaEsta opción solo está disponible cuando se selecciona Solo anexar en Configuración de carga.Opcionalmente, puede especificar las columnas por las cuales se ordenarán los datos dentro de cada archivo de su tabla Iceberg. Durante la ingesta de datos, Iceberg utiliza estas columnas para ordenar los registros. La definición de claves de ordenación en columnas utilizadas con frecuencia en las consultas mejora la localidad de los datos, lo que da como resultado un rendimiento de lectura más rápido y una compresión más eficiente. Las claves de ordenación configuradas correctamente garantizan que sus datos estén organizados de forma óptima para el rendimiento de las consultas.
Haga clic en Agregar columna para agregar una columna de ordenación y, a continuación, establezca el orden de ordenación.
-
Duración de la expiración de una captura de imagen
Esta configuración controla durante cuánto tiempo se conservan las capturas, lo que afecta significativamente al tamaño de la tabla y los costes de almacenamiento. Para las tablas que se actualizan con frecuencia, se recomienda una duración más corta para ayudar a reducir los costes de almacenamiento.
Nota informativaEscriba 0 para deshabilitar la caducidad de la captura.