Google Cloud Storage | Qlik Cloud Ayuda
Saltar al contenido principal Saltar al contenido complementario

Google Cloud Storage  

Google Cloud Storage es el servicio de almacenamiento de objetos unificado de Google para almacenar y acceder a datos en la infraestructura de Google Cloud. Ofrece alta disponibilidad, redundancia global y se integra con el ecosistema más amplio de Google Cloud.

Qlik Talend Cloud utiliza una cuenta de servicio de Google Cloud con acceso de lectura al depósito de destino para conectarse a Google Cloud Storage (GCS). El conector recupera archivos del depósito especificado, descubre automáticamente los esquemas mediante el muestreo del contenido de los archivos y realiza la replicación de datos incremental basándose en las marcas de tiempo de modificación de los archivos.

Preparación para la autenticación.

Para acceder a sus datos, debe autenticar la conexión con las credenciales de su cuenta.

Nota informativaAsegúrese de que la cuenta que utiliza tenga acceso de lectura a las tablas que desea recuperar.

Para configurar su cuenta de Google Cloud Storage, necesita:

  • Un proyecto de Google Cloud Platform (GCP) con la API de Cloud Storage habilitada.
  • Un depósito de Google Cloud Storage (GCS) que contiene los archivos que se van a replicar.
  • Una cuenta de servicio con acceso de lectura al depósito.

    El rol recomendado es Visualizador de objetos de almacenamiento (roles/storage.objectViewer), que otorga los permisos necesarios storage.objects.get y storage.objects.list. Para más información, consulte la documentación de roles de IAM de Google Cloud Storage .

  • Un archivo de clave JSON de cuenta de servicio descargado para la cuenta de servicio.

Para crear una cuenta de servicio y recuperar sus credenciales:

  1. Inicie sesión en su cuenta de Google Cloud.
  2. Vaya a IAM y administración > Cuentas de servicio.
  3. Haga clic en Crear cuenta de servicio.
  4. Indique un nombre y una descripción para la cuenta de servicio y, a continuación, haga clic en Crear y continuar.
  5. Conceda a la cuenta de servicio el rol de Visualizador de objetos de almacenamiento o un rol personalizado con los permisos storage.objects.get y storage.objects.list.
  6. Haga clic en Continuar y Listo.
  7. En su cuenta de servicio recién creada, haga clic en el menú Acciones.
  8. Vaya a Administrar claves > Añadir clave > Crear nueva clave.
  9. Seleccione JSON y haga clic en Crear.

    El archivo de clave JSON se descarga directamente en su máquina. Este archivo incluye los campos project_id, client_email y private_key necesarios para establecer la conexión.

    Puede descargar el archivo de clave solo una vez. Asegúrese de almacenarlo de forma segura y hacer una copia de seguridad, ya que proporciona acceso a sus recursos de Google Cloud.

Formatos de archivo admitidos

  • Texto delimitado: CSV, TSV, PSV, TXT (con delimitador configurable)
  • JSON Lines (.jsonl)
  • Parquet (.parquet)
  • Avro (.avro)
  • Archivos comprimidos con Gzip (.gz) que contienen cualquiera de los formatos anteriores
  • Archivos ZIP que contienen archivos CSV, JSON Lines, TXT, TSV, PSV o Gzip

Crear la conexión

Para más información, vea Conectar con aplicaciones SaaS.

  1. Rellene las propiedades de conexión necesarias.
  2. Proporcione un nombre para la conexión en Nombre de la conexión.

  3. Seleccione Abrir metadatos de conexión para definir metadatos para la conexión cuando se haya creado.

  4. Haga clic en Crear.

Configuración de la conexión
Configuración Descripción
Pasarela de datos

Seleccione una Data Movement gateway si su caso de uso así lo requiere.

Nota informativa

Este campo no está disponible con la suscripción Qlik Talend Cloud Starter porque Data Movement gateway no se admite. Si tiene otro nivel de suscripción y no desea utilizar Data Movement gateway, seleccione Ninguna.

Para obtener información sobre las ventajas de Data Movement gateway y los casos de uso que lo requieren, consulte Pasarela de movimiento de datos de Qlik.

Fecha de inicio

Indique la fecha, en el formato MM/DD/YYYY, a partir de la cual deben replicarse los datos de su fuente a su destino.

Correo electrónico del cliente Correo electrónico del cliente del archivo de claves JSON de la cuenta de servicio.
ID de proyecto ID del proyecto del archivo de claves JSON de la cuenta de servicio.
Depósito Nombre del depósito de Google Cloud Storage (GCS) donde se almacenan los archivos, por ejemplo, my-gcs-bucket.

No incluya el prefijo gs://.

Tablas Configure tablas para controlar qué archivos se leen y cómo se interpreta su contenido. Cada definición de tabla incluye un patrón de búsqueda de archivos, un nombre de tabla y configuraciones opcionales para un comportamiento avanzado.
Clave privada Clave privada del archivo de clave JSON de la cuenta de servicio.

Configuración de la tabla

Cada entrada en la configuración de la tabla especifica una tabla lógica creada a partir de archivos en el depósito de destino. Puede configurar las siguientes propiedades para cada tabla:

Propiedad Obligatorio u opcional Descripción
Nombre de tabla Obligatorio Especifique un nombre para la tabla lógica, por ejemplo my_orders_csv. Este nombre aparecerá como el nombre del stream en Qlik Talend Cloud.
Patrón de búsqueda Obligatorio Introduzca una expresión regular para que coincida con los nombres de archivo, por ejemplo .csv$ para seleccionar todos los archivos CSV.
Prefijo de búsqueda Opcional Proporcione un prefijo de ruta dentro del depósito para acotar la búsqueda de archivos, por ejemplo exports/orders/. El uso de un prefijo mejora el rendimiento al limitar el número de archivos analizados.
Propiedades clave Opcional Enumere uno o más nombres de columna, separados por comas, para definir la clave principal. Por ejemplo: id o id,date.
Anulaciones de fecha Opcional Enumere los nombres de columna, separados por comas, que se tratarán como campos de fecha y hora. Utilice esta opción si estos campos no se detectan automáticamente durante el descubrimiento del esquema.
Delimitador Opcional Especifique el carácter que separa los valores en sus archivos. El valor predeterminado es , (coma). Use \t para archivos delimitados por tabulaciones (TSV) o | para archivos separados por barras verticales (PSV). Si se deja en blanco, el sistema detecta automáticamente el delimitador basándose en la extensión del archivo.

Tablas replicadas

Las tablas se crean en función de la configuración de la tabla (véase más arriba). Cada tabla corresponde a un conjunto de archivos en el depósito de Google Cloud Storage (GCS) que coinciden con el patrón de búsqueda especificado y cualquier prefijo opcional. El conector descubre automáticamente los esquemas muestreando hasta 5 archivos por tabla, leyendo cada quinta fila, con un máximo de 1000 registros por archivo.

La replicación es incremental y utiliza las marcas de tiempo de modificación de archivos para rastrear los cambios. Durante cada extracción, el conector procesa solo aquellos archivos que se han modificado desde la última sincronización correcta, según lo registrado por el marcador de sincronización.

Las siguientes columnas del sistema se añaden a cada tabla de manera predeterminada:

Columna Descripción
_sdc_source_bucket El nombre del depósito de Google Cloud Storage (GCS) donde se leyó el registro.
_sdc_source_file La ruta completa del archivo que contiene el registro.
_sdc_source_lineno El número de línea del registro dentro del archivo.
_sdc_extra Cualquier columna adicional encontrada durante el análisis que no coincida con el esquema descubierto. Se aplica solo a archivos JSONL.

Limitaciones y consideraciones

  • Las credenciales de la cuenta de servicio (project_id, client_email, private_key) deben proporcionarse como valores individuales extraídos del archivo de claves JSON; no se admite la carga de archivos.
  • Se admiten los archivos comprimidos con Gzip (.gz). El conector lee el nombre de archivo original del encabezado gzip para determinar el formato del archivo interno. Los archivos Gzip creados con --no-name (sin nombre de archivo almacenado en el encabezado) se omiten.
  • La compresión anidada (por ejemplo, un .gz dentro de otro .gz o un .zip dentro de un .zip) no es compatible. Estos archivos se omiten.
  • Los archivos con las extensiones .csv, .txt, .tsv, .psv o .jsonl se comprueban en busca de bytes mágicos gzip y se descomprimen si están comprimidos con gzip, incluso cuando el archivo no tiene una .gz extensión.
  • El campo search_pattern utiliza la sintaxis de expresiones regulares, no patrones globales. Por ejemplo, use \.csv$ en lugar de *.csv.
  • El conector tiene una lógica de reintento integrada con retroceso exponencial para los límites de velocidad de la API de Google Cloud Storage (GCS) (429) y los errores transitorios del servidor (500, 502, 503, 504). Se realizan hasta cinco intentos antes de fallar.
  • Los archivos sin una extensión reconocida se omiten y se emite una advertencia.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.