Saltar al contenido principal Saltar al contenido complementario

Amazon S3  

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece una escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector.

Preparación para la autenticación

Para acceder a sus datos, debe autenticar la conexión con las credenciales de su cuenta.

Nota informativaAsegúrese de que la cuenta que utiliza tenga acceso de lectura a las tablas que desea recuperar.

Para conectarse a Amazon S3, necesita permisos en AWS Identity Access Management (IAM) que le permitan crear políticas, roles y adjuntar políticas a los roles. Esto es necesario para conceder autorización a su depósito S3:

Creación de una política de IAM

Una política de IAM es un lenguaje de políticas de acceso basado en JSON para administrar los permisos a los recursos del depósito.

Permisos de Amazon S3
Nombre del permiso Operación Descripción
s3:GetObject GET Object

Permite recuperar objetos de Amazon S3.

s3:GetObjectHEAD Object

Permite recuperar los metadatos de un objeto sin devolver el objeto en sí.

s3:ListBucket GET Bucket (List Objects)

Permite devolver algunos o todos (hasta 1.000) los objetos de un depósito.

s3:ListBucket HEAD Bucket

Se utiliza para determinar si un depósito existe y si el acceso está permitido.

Para crear la política de IAM:

  1. En AWS, navegue hasta el servicio IAM haciendo clic en el icono Servicios y escribiendo IAM.
  2. Haga clic en IAM una vez que aparezca en los resultados.
  3. Haga clic en Políticas en el menú de la parte izquierda de la página.
  4. Haga clic en Crear política.
  5. En la página Crear política, haga clic en la pestaña JSON.
  6. Seleccione todo lo que hay actualmente en el campo de texto y bórrelo.
  7. En el campo de texto, pegue el siguiente JSON y sustituya MyBucketName por el nombre de su depósito:
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Sid": "",
                "Effect": "Allow",
                "Action": [
                "s3:GetObject",
                "s3:ListBucket"
                ],
                "Resource": [
                "arn:aws:s3:::MyBucketName",
                "arn:aws:s3:::MyBucketName/*"
                ]
            }
        ]
    }
  8. Haga clic en Revisar política.
  9. En la página Revisar política, asigne un nombre a la política. Por ejemplo: qlik_amazon_s3.
  10. Haga clic en Crear política.

Creación de un rol de IAM

Nota informativa

Para completar este paso, necesita los siguientes permisos IAM de AWS: CreateRole y AttachRolePolicy. Consulte la documentación de Amazon si desea más información.

Si va a crear varias integraciones de Amazon S3, deberá realizar este paso para cada integración que vaya a conectar.

  1. En AWS, navegue hasta la página Roles de IAM.
  2. Haga clic en Crear rol.
  3. En la página Crear rol:
    1. En la sección Seleccionar tipo de entidad de confianza, haga clic en la opción Otra cuenta de AWS.
    2. En el campo ID de cuenta, pegue 338144066592.
    3. En la sección Opciones, seleccione la casilla Requerir ID externo.
    4. En el campo ID externo que aparece, pegue qlik_connection_<tenant-id> y sustituya <tenant-id> por su ID de espacio empresarial inquilino.

      Para encontrar la identificación de su espacio empresarial inquilino, consulte Encontrar información sobre el espacio empresarial inquilino.

    5. Haga clic en Siguiente: Permisos.
  4. En la página Adjuntar permisos:
    1. Busque la política que creó en Creación de una política de IAM.
    2. Una vez localizada, marque la casilla que aparece junto a ella en la tabla.
    3. Pulse Siguiente: Etiquetas.
  5. Si desea introducir alguna etiqueta, hágalo en la página Añadir etiquetas. De lo contrario, pulse Siguiente: Revisar.
  6. En la página Revisar:
    1. En el campo Nombre de rol, pegue qlik_s3_<tenant-id> y sustituya <tenant-id> por el ID de su espacio empresarial inquilino.

      Para encontrar la identificación de su espacio empresarial inquilino, consulte Encontrar información sobre el espacio empresarial inquilino.

    2. Introduzca una descripción en el campo Descripción del rol. Por ejemplo: Qlik role for Amazon S3 integration.
    3. Haga clic en Crear rol.

Definir el patrón de búsqueda

El campo Patrón de búsqueda define los criterios de búsqueda que Qlik debe utilizar para seleccionar y replicar los archivos. Este campo acepta expresiones regulares, que pueden utilizarse para incluir un único archivo o varios.

Cuando cree un patrón de búsqueda, tenga en cuenta lo siguiente:

  • Cuando se incluyen varios archivos para una misma tabla, cada archivo debe tener los mismos valores de fila de cabecera.
  • Los caracteres especiales como los puntos (.) tienen un significado especial en las expresiones regulares. Para que coincidan exactamente, será necesario anteponerle un carácter de escape. Por ejemplo una barra invertida: .\
  • Qlik utiliza Python para las expresiones regulares, cuya sintaxis puede variar con respecto a otras variedades. Pruebe a utilizar PyRegex para comprobar sus expresiones antes de guardar la integración.
  • Los patrones de búsqueda deben tener en cuenta cómo se actualizan los datos en los archivos. Considere estos ejemplos:
Escenario Archivo único, actualizado periódicamente Múltiples archivos, generados diariamente
Cómo se realizan las actualizaciones Un único archivo JSONL se actualiza periódicamente con los datos nuevos y actualizados de los clientes. Cada día se crea un nuevo archivo CSV que contiene datos nuevos y actualizados de los clientes. Los archivos antiguos nunca se actualizan tras su creación.
Nombre de archivo customers.jsonl customers-[STRING].csv, donde [STRING] es una cadena única y aleatoria
Patrón de búsqueda

Como solo habrá un archivo, puede introducir el nombre exacto del archivo en su depósito S3:

customers\.jsonl

Para asegurarse de que se identifiquen los archivos nuevos y actualizados, le conviene introducir un patrón de búsqueda que coincida con todos los archivos que empiecen por customers, independientemente de la cadena del nombre del archivo:

(customers-).*\.csv
Resultados customer.jsonl, exactamente
  • customers-reQDSwNG6U.csv
  • customers-xaPTXfN4tD.csv
  • customers-MBJMhCbNCp.csv
  • etc.

Requisitos de los archivos

Cabecera de la primera fila (solo archivos CSV)
  • Cada archivo debe tener una cabecera en la primera fila que contenga los nombres de las columnas. La primera fila de cualquier archivo se considera la fila de cabecera y presentará estos valores como columnas disponibles para su selección.
  • Archivos con los mismos valores de cabecera en la primera fila, si se incluyen varios ficheros en una tabla. La integración con Amazon S3 le permite asociar varios archivos a una única tabla de destino. Los valores de la fila de cabecera se utilizan para determinar el esquema de una tabla. Para obtener los mejores resultados, cada archivo debe tener los mismos valores de fila de cabecera.

    Esto difiere de configurar varias tablas. Consulte Definir el patrón de búsqueda para ver ejemplos.

Tipos de archivo
  • CSV (.csv)
  • Texto (.txt)
  • JSONL (.jsonl)
Tipos de compresión

Estos archivos deben estar correctamente comprimidos o aparecerán errores durante la extracción.

  • Archivos comprimidos con gzip (.gz)
Delimitadores (solo archivos CSV)
  • Coma (,)
  • Pestaña (/t)
  • Línea vertical (|)
  • Punto y coma (;)
Codificación de caracteres

UTF-8

Crear la conexión

Para más información, vea Conexión a aplicaciones SaaS.

  1. Rellene las propiedades de conexión necesarias.
  2. Proporcione un nombre para la conexión en Nombre de la conexión.

  3. Seleccione Abrir metadatos de conexión para definir metadatos para la conexión cuando se haya creado.

  4. Haga clic en Crear.

Configuración de la conexión
Configuración Descripción
Pasarela de datos

Seleccione una Data Movement gateway si su caso de uso así lo requiere.

Nota informativa

Este campo no está disponible con la suscripción Qlik Talend Cloud Starter porque Data Movement gateway no se admite. Si tiene otro nivel de suscripción y no desea utilizar Data Movement gateway, seleccione Ninguna.

Para obtener información sobre las ventajas de Data Movement gateway y los casos de uso que lo requieren, consulte Qlik Data Gateway - Data Movement.

Fecha de inicio

Indique la fecha, en el formato MM/DD/YYYY, a partir de la cual deben replicarse los datos de su fuente a su destino.

Depósito S3 Nombre del depósito S3.
ID de cuenta de AWS

El ID de la cuenta de AWS en la que existe el depósito.

Puede encontrar el ID de su cuenta de AWS en la Consola de gestión de AWS, en Detalles de la cuenta.

Patrón de búsqueda Indique los archivos que desea incluir en su tabla. Puede escribir un único nombre de archivo o una expresión regular.

Ejemplo: users\*.csvproducts\*.jsonl.

Directorio Limite la búsqueda en esta ruta de directorio. Si se define el directorio, únicamente se buscarán los archivos en esta ubicación y se seleccionarán los que coincidan con el patrón de búsqueda. No puede utilizar una expresión regular.

Ejemplo: csv-exports-folder o employee_jsonl_exports.

Configuración de la tabla

Configure una tabla especificando los archivos que desea incluir.

Puede configurar varias tablas.

Nombre de la tabla El nombre de la tabla.

Cada destino tiene sus propias normas relativas a la denominación de tablas. Por ejemplo, los nombres de las tablas de Amazon Redshift no pueden superar los 127 caracteres.

Clave principal Inserte la clave primaria para identificar filas o registros únicos. Cuando inserte más de una clave, utilice la coma para separar los valores.
  • Para los archivos CSV, inserte los campos de cabecera o los nombres de las columnas.
  • Para los archivos JSONL, indique los nombres de los atributos o las claves de los objetos.

Ejemplo: id, nombre.

Especificar los campos de fecha y hora Indique los valores que deberán aparecer como datetime en lugar de una cadena en su tabla.

Ejemplo: creado_el, modificado_el.

Delimitador Seleccione el delimitador en la lista desplegable.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.