Flujo de datos de AWS S3
Conéctese a su flujo de datos de AWS S3 para usarlo como fuente de datos en sus proyectos de Qlik Open Lakehouse. Las conexiones de flujo de datos de AWS S3 solo se pueden usar con la tarea de destino de streaming y la tarea de transformación de streaming.
A diferencia del ETL por lotes tradicional de S3, esta implementación trata a S3 como una fuente de streaming con monitoreo continuo e ingesta de datos casi en tiempo real. Puede configurar streams para ingerir datos automáticamente de depósitos de S3 a medida que llegan nuevos archivos. El AWS S3 Data Stream le permite configurar procesos de datos en streaming desde S3, incluyendo la coincidencia de patrones de archivo, la configuración de esquemas y las opciones de rellenado inicial. El stream supervisa scontinuamente S3 e ingiere nuevos datos cuasi en tiempo real (en cuestión de minutos) y es ideal para datos organizativos como registros, eventos, exportaciones de sistemas externos o fuentes de datos de socios.
Requisitos previos
Para crear una conexión a su AWS S3 Data Stream, necesita lo siguiente:
-
Si utiliza la autenticación basada en roles para acceder al depósito, necesitará:
-
Permiso de acceso a la integración de red que desea utilizar para la conexión.
-
El rol de ARN, o puede crear uno durante el proceso de configuración. El clúster de integración de red debe tener acceso a la cuenta S3 de ARN.
-
-
Si utiliza la autenticación por clave de acceso para conectarse al depósito, necesitará:
-
Su ID de clave de acceso a AWS.
-
Su clave de acceso secreta de AWS.
-
Configuración de las propiedades de conexión del flujo de datos de S3
Para configurar su conexión S3, haga lo siguiente:
-
En Conexiones, haga clic en Crear conexión.
-
Seleccione el Espacio donde desea crear la conexión o elija Crear nuevo espacio de datos.
-
Seleccione S3 de la lista de nombres de Conector o utilice el cuadro Buscar. Asegúrese de que el Tipo sea Origen y la Categoría sea Streaming.
-
En URI de S3, indique la URI de su depósito de S3 con el formato s3://<bucket-name>/<directory-name>.
Para más información, consulte Ejemplos de sintaxis.
-
En Tipo de autenticación, seleccione cómo desea conectarse y configure los ajustes.
Basada en roles
Siga los pasos siguientes para usar la autenticación basada en roles.
Crear rol de ARN
-
Integración de red: seleccione la integración de red de la lista.
-
ARN del rol: indique el rol de ARN creado en AWS. Debe tener el formato arn:aws:iam::{account number}:role/{role name}.
Crear un rol de AWS
Siga los pasos para crear un rol de AWS:
-
Crear el rol
-
En la consola de AWS, vaya a IAM.
-
En Roles, haga clic en Crear rol y configúrelo:
-
Tipo de entidad de confianza: seleccione Política de confianza personalizada.
-
Declaración: copie la política de entidad de confianza creada en Crear un rol de AWS en Qlik Cloud en el panel de código en AWS.
-
Cree el rol.
-
-
Crear la política inline
-
En la Consola de AWS, en Roles, haga clic en el rol que creó en el Paso 1.
-
En Políticas de permisos, haga clic en Añadir permisos > Crear la política inline.
-
Copie el código en Qlik Cloud y péguelo en la política en AWS.
-
-
Copiar rol de ARN
-
Desde la página de Roles en la consola de AWS, localice el valor de ARN en la sección Resumen.
-
Copie el ARN y péguelo en Rol de ARN en Qlik Cloud.
-
Clave de acceso
Siga los pasos siguientes para usar una clave de acceso para autenticar su conexión:
-
Clave de acceso: agregue su identificador único de clave de acceso de AWS que utilizará para la autenticación.
-
Clave secreta: indique su clave de acceso secreta de AWS para utilizarla junto con su clave de acceso.
- Crear la política
-
En la consola de AWS, vaya a IAM.
-
Vaya a Políticas> Crear política.
-
En Qlik Cloud, en el diálogo Crear un rol de AWS, copie la política.
-
En AWS, en el editor de políticas, pegue la política.
-
-
Vincular la nueva política a un usuario
-
Vincule la nueva política al usuario al que desea conceder acceso.
-
Crear la conexión
Cuando haya configurado su método de seguridad, siga los pasos siguientes para crear su conexión:
-
En Nombre, indique el nombre que desee mostrar de la conexión, por ejemplo, My AWS S3 Streaming Source connection.
-
Haga clic en Probar conexión para validar las credenciales.
-
Haga clic en Crear.
Ejemplos de sintaxis
| Sintaxis | Descripción | Ejemplo |
|---|---|---|
| Text | Entrada de texto/cadena de caracteres general basada en las directrices de AWS para nombrar objetos de Amazon S3. | s3://MiDepósitoS3/MiDir/MiArchivo.csv |
| Comodín | Un carácter * que actúa como un "comodín" en la ruta/nombre de archivo. El uso de un comodín en una ruta incluye todas las carpetas y subcarpetas de esa ruta. | miDepósitoS3/miDir/* miDepósitoS3/miDir/*.csv miDepósitoS3/miDir/*_customers.csv miDepósitoS3/regions/*/*_customers.csv |
| Patrón | La sintaxis del patrón de fecha indica la ubicación del patrón de fecha dentro del nombre de archivo. | miDepósitoS3/miDir/<aaaa>_<MM>_<dd>_<HH>_<mm>_orders.csv miDepósitoS3/miDir/<aaaa>/<MM>/<dd>/<HH>_<mm>_orders.csv |
Reglas de denominación del conjunto de datos de destino
El nombre del conjunto de datos de destino debe:
-
Ser único y no estar siendo utilizado ya por otros conjuntos de datos en el catálogo de destino.
-
Cumplir con las reglas de denominación del catálogo de destino:
-
Empezar con una letra (A–Z, a–z) o un guión bajo (_).
-
Contener solo letras, guiones bajos, dígitos (0–9) o el signo de dólar ($).
-
No exceder los 255 caracteres, incluidos los espacios.
-