Transmisión constante o streaming de datos
El proceso de incorporación transfiere datos de forma constante desde el origen y los almacena en tablas Iceberg. Los cambios desde las fuentes de datos de streaming se aplican continuamente a las tablas de almacenamiento en tiempo cuasi real.
Incorporar datos
Los datos se incorporan dentro de un proyecto de canalización y los conjuntos de datos se almacenan en la ubicación de S3 definida en la configuración del proyecto.
-
En su proyecto, haga clic en Crear y después en Aterrizar datos.
-
Agregue un Nombre de tarea y una Descripción opcional para la incorporación.
Haga clic en Siguiente.
-
Seleccione la conexión de origen.
Puede seleccionar una conexión de streaming de origen o crear una nueva conexión a la fuente.
Para más información, vea Conexión con flujos de datos o data streams.
Haga clic en Siguiente y siga las instrucciones a continuación para su fuente de datos.
Seleccionar datos
Apache Kafka y Amazon Kinesis
La lista muestra los temas de Kafka o flujos de datos (streams) de Kinesis disponibles desde el host definido en la conexión de origen.
Al seleccionar sus temas o flujos (streams), puede seleccionar conjuntos de datos específicos o utilizar reglas de selección para incluir o excluir grupos de conjuntos de datos:
-
Utilice % como comodín para definir criterios de selección para los conjuntos de datos.
-
%.% define todos los conjuntos de datos en todos los flujos de datos.
Si los temas se seleccionan mediante reglas de selección, puede elegir si cargar todos los conjuntos de datos en la misma tabla de destino o crear una tabla de destino independiente para cada tema de origen:
-
De manera predeterminada, el nombre de la tabla de destino en Iceberg se deriva del nombre del tema y recibe un formato para cumplir con las convenciones de nomenclatura; por ejemplo, se escribe en minúsculas, se eliminan los espacios y se sustituyen los guiones por guiones bajos. En Definir nombre del conjunto de datos de destino, puede editar el nombre de la tabla de destino
-
Cuando se utilizan reglas de selección para cargar varios temas en una sola tabla, debe proporcionar el nombre de destino.
-
Cuando se utilizan reglas de selección y los datos se cargan en tablas aparte (un conjunto de datos por tema), los nombres de destino predeterminados son los nombres de los temas. En esta etapa, no puede editar los nombres en el asistente, pero esto se puede hacer más adelante en la tarea de destino.
-
Si se configura una regla para seleccionar temas para la ingesta, cualquier tema nuevo que cumpla los criterios de la regla también se destinará si la opción Nuevo tema > Agregar a destino en la evolución del esquema en la configuración de la tarea de destino está seleccionada.
Seleccione uno o más conjuntos de datos y haga clic en Agregar flujos de datos seleccionados. Puede ver los conjuntos de datos agregados en Flujos seleccionados explícitamente. Haga clic en Siguiente.
Amazon S3
El explorador de directorios muestra una lista de todos los directorios ubicados en el depósito S3 de su conexión de origen.
-
Seleccione los directorios que desea incluir al insertar datos:
-
Para cada directorio, en Agregar ruta, introduzca la ruta y el patrón de nombre de archivo:
-
Use * como comodín para que coincida con cualquier carácter.
-
Para introducir un patrón de fecha, use <aaaa> como marcador de posición para el año de cuatro dígitos, <MM> como marcador de posición para el mes, de dos dígitos, <dd> como marcador de posición para el día, de dos dígitos y <HH> como marcador de posición para la hora de dos dígitos. Por ejemplo:
-
MyDir3/<aaaa>_<MM>_<dd>_<HH>_orders.csv
-
MyDir3/<aaaa>/<MM>/<dd>/<HH>_orders.csv
-
-
-
-
Haga clic en Vista previa para abrir el cuadro de diálogo Vista previa de datos. Se muestra una lista de archivos incluidos y excluidos.
-
Haga clic en Validar para comprobar los datos.
-
En Definir nombre del conjunto de datos de destino, proporcione un nombre para asociar el tema a la tabla de destino de Iceberg. Haga clic en Siguiente.
Seleccionar el tipo de contenido
Elija el tipo de contenido de los eventos de origen.
-
Seleccione el tipo de eventos que está ingiriendo en Elija el tipo de eventos de datos.
-
Para más información, vea Conexión a flujos de datos.
El tipo de contenido seleccionado se aplica a todos los temas. Debe crear una nueva tarea para cada tipo de contenido que desee ingerir.
-
Expanda Verifique que los eventos se cargaron correctamente para confirmar que los datos se pueden analizar. Debe asegurarse de que los datos sean correctos en esta etapa; de lo contrario, deberá recrear el proceso y cargar los datos de nuevo. Utilice Seleccionar conjunto de datos para examinar conjuntos de datos específicos y comprobar si hay advertencias que puedan afectar a la carga de los datos. Haga clic en el icono del ojo junto a cualquier columna de estructura para ver los datos.
-
Haga clic en Siguiente.
Configuración de las propiedades de ingesta
Configure los ajustes de su proceso:
-
Leer datos desde
-
Empezar desde el evento más antiguo: ingiere todos los datos históricos.
-
Empezar desde ahora: ingiere los nuevos datos que lleguen desde el momento en que se inicia el proceso.
-
-
Desanidamiento de columnas
-
Conservar columnas anidadas: no se aplican transformaciones.
-
Desanidar en columnas separadas: los datos se dividen en columnas separadas.
-
-
Cargar configuración
-
Solo añadir: generalmente la mejor opción para los datos de eventos, ya que suelen tener una vida útil corta y no se actualizan, por ejemplo, Pedidos.
-
Combinar: esto es más adecuado para datos que se actualizan con el tiempo, por ejemplo, Clientes.
-
-
Partición de las tablas de destino
La opción de partición de tabla de destino se aplica a todas las tablas en el proceso. Puede anular esto más tarde a nivel de tabla para una partición personalizada.
-
Sin partición: las tablas se crean sin ninguna partición.
-
Partición por fecha de ingesta de eventos: las tablas se particionan según la fecha en que se ingieren los eventos.
-
-
Haga clic en Siguiente.
Resumen
La pantalla de resumen muestra visualmente su canalización de datos:
-
Opcionalmente, para la tarea de destino de streaming y transformación de streaming, puede hacer clic en Editar nombre y descripción para proporcionar nuevos valores.
-
Seleccione la opción de lo que desea que suceda Después de crear la canalización.
-
Cuando haya configurado todos los ajustes, haga clic en Crear para crear el proyecto de canalización.
-
Cuando se muestre el proyecto, puede preparar y ejecutar cada tarea para comenzar a ingerir los datos.
-
Prepare y ejecute la tarea de aterrizaje de streaming.
Para más información, vea Enviar datos de streaming a Qlik Open Lakehouse.
-
Prepare y ejecute la tarea de transformación de streaming.
Para más información, vea Almacenar conjuntos de datos de streaming.
-