Ajustes de aterrizaje en lago de datos mediante streaming
Los siguientes ajustes de la tarea de aterrizaje en lago de datos mediante streaming son aplicables a los proyectos de Qlik Open Lakehouse que utilizan una fuente de streaming.
General
Carpeta que usar
Seleccione la carpeta que se utilizará para el aterrizaje de datos en el área de preparación.
-
Carpeta predeterminada
Esto crea una carpeta con el nombre predeterminado: <nombre de proyecto>/<nombre de la tarea de datos>.
-
Carpeta raíz
Almacene los datos en la carpeta raíz del almacenamiento.
-
Carpeta
Especifique un nombre de carpeta que usar.
Retención de carpetas
Seleccione cuánto tiempo retener los datos:
-
Los datos y los metadatos no se eliminan: ni los datos ni los metadatos se eliminan.
-
Eliminar datos y metadatos después del período de retención: los datos y metadatos se eliminan una vez transcurrido el período de retención,
-
Eliminar metadatos después del periodo de retención. Los datos son eliminados por un sistema externo.Los datos se eliminan permanentemente una vez transcurrido este período. Los metadatos se purgan, pero los datos subyacentes, por ejemplo, el objeto S3, no son eliminados por Qlik.
Leer datos desde
Seleccione cuándo ingerir los datos desde:
-
Empezar desde ahora
Ingerir solo los eventos que llegan cuando comienza el proceso.
-
Empezar desde el evento más antiguo (predeterminado)
Ingerir todos los datos históricos.
Tipo de contenido
Seleccione el formato de archivo de la lista, por ejemplo, JSON o CSV. Esto se puede cambiar después de que la tarea se haya ejecutado volviendo a crear la tarea. Consulte Tipos de contenido para obtener detalles sobre cada formato de archivo.
Evolución del esquema
Nuevo tema/stream seleccione cómo desea adminsstrar gestionar los nuevos streams/temas.
-
Añadir al destino: si carga todas las tablas en una única tabla de destino, los nuevos datos se añaden a esta tabla. Si carga cada tema en un conjunto de datos diferente, se añade un nuevo tema a un nuevo conjunto de datos.
-
Ignorar: los nuevos datos no se añaden al destino.
Tiempo de ejecución
Número de lectores
-
Apache Kafka: seleccione el número de lectores que va a utilizar. El valor debe estar entre 1 y 1.000.
-
Amazon Kinesis: seleccione el número de ntercambios de stream.
-
Amazon S3: esta configuración no es aplicable a las fuentes de streaming de S3.
Clúster de lakehouse
Seleccione el clúster de streaming. La tarea de aterrizaje de streaming y las tareas de transformación de streaming no necesitan estar en el mismo clúster, pero sí en la misma integración de red.
Tipos de contenido
Las siguientes configuraciones se aplican a cada formato de archivo.
-
JSON
-
Este es el formato de archivo predeterminado si no se define de otra manera.
-
-
CSV y TSV
-
La primera fila contiene encabezados: está seleccionado por defecto para especificar que la primera fila contiene el registro de encabezado.
-
Fila de encabezado (Opcional): si la primera fila no es el encabezado, defina los nombres de los encabezados.
-
Delimitador: seleccione el delimitador predeterminado si no es el predeterminado (coma para CSV, tabulador para TSV).
-
Carácter de escape de comillas: seleccione el carácter de escape de comillas predeterminado si no es una comilla doble como se define por defecto.
-
Valor nulo (Opcional): indique el valor nulo de reemplazo.
-
Permitir encabezados duplicados: si dos columnas tienen el mismo nombre, la segunda se añade con un nombre diferente.
-
-
Parquet, Avro y ORC
-
No se requiere configurar ajustes adicionales.
-
-
Regex
-
Patrón: introduzca aquí el patrón de expresión regular.
-
Multilínea: seleccionado por defecto.
-
-
Dividir líneas:
-
Regex: Introduzca la expresión regular para la división.
-