Google Cloud Storage
Google Cloud Storage es el servicio de almacenamiento de objetos unificado de Google para almacenar y acceder a datos en la infraestructura de Google Cloud. Ofrece alta disponibilidad, redundancia global y se integra con el ecosistema más amplio de Google Cloud.
Qlik Talend Cloud utiliza una cuenta de servicio de Google Cloud con acceso de lectura al depósito de destino para conectarse a Google Cloud Storage (GCS). El conector recupera archivos del depósito especificado, descubre automáticamente los esquemas mediante el muestreo del contenido de los archivos y realiza la replicación de datos incremental basándose en las marcas de tiempo de modificación de los archivos.
Preparación para la autenticación.
Para acceder a sus datos, debe autenticar la conexión con las credenciales de su cuenta.
Para configurar su cuenta de Google Cloud Storage, necesita:
- Un proyecto de Google Cloud Platform (GCP) con la API de Cloud Storage habilitada.
- Un depósito de Google Cloud Storage (GCS) que contiene los archivos que se van a replicar.
- Una cuenta de servicio con acceso de lectura al depósito.
El rol recomendado es Visualizador de objetos de almacenamiento (
roles/storage.objectViewer), que otorga los permisos necesariosstorage.objects.getystorage.objects.list. Para más información, consulte la documentación de roles de IAM de Google Cloud Storage . - Un archivo de clave JSON de cuenta de servicio descargado para la cuenta de servicio.
Para crear una cuenta de servicio y recuperar sus credenciales:
- Inicie sesión en su cuenta de Google Cloud.
- Vaya a IAM y administración > Cuentas de servicio.
- Haga clic en Crear cuenta de servicio.
- Indique un nombre y una descripción para la cuenta de servicio y, a continuación, haga clic en Crear y continuar.
- Conceda a la cuenta de servicio el rol de Visualizador de objetos de almacenamiento o un rol personalizado con los permisos
storage.objects.getystorage.objects.list. - Haga clic en Continuar y Listo.
- En su cuenta de servicio recién creada, haga clic en el menú Acciones.
- Vaya a Administrar claves > Añadir clave > Crear nueva clave.
- Seleccione JSON y haga clic en Crear.
El archivo de clave JSON se descarga directamente en su máquina. Este archivo incluye los campos
project_id,client_emailyprivate_keynecesarios para establecer la conexión.Puede descargar el archivo de clave solo una vez. Asegúrese de almacenarlo de forma segura y hacer una copia de seguridad, ya que proporciona acceso a sus recursos de Google Cloud.
Formatos de archivo admitidos
- Texto delimitado: CSV, TSV, PSV, TXT (con delimitador configurable)
- JSON Lines (
.jsonl) - Parquet (
.parquet) - Avro (
.avro) - Archivos comprimidos con Gzip (
.gz) que contienen cualquiera de los formatos anteriores - Archivos ZIP que contienen archivos CSV, JSON Lines, TXT, TSV, PSV o Gzip
Crear la conexión
Para más información, vea Conectar con aplicaciones SaaS.
- Rellene las propiedades de conexión necesarias.
-
Proporcione un nombre para la conexión en Nombre de la conexión.
-
Seleccione Abrir metadatos de conexión para definir metadatos para la conexión cuando se haya creado.
-
Haga clic en Crear.
| Configuración | Descripción |
|---|---|
| Pasarela de datos |
Seleccione una Data Movement gateway si su caso de uso así lo requiere. Nota informativa
Este campo no está disponible con la suscripción Qlik Talend Cloud Starter porque Data Movement gateway no se admite. Si tiene otro nivel de suscripción y no desea utilizar Data Movement gateway, seleccione Ninguna. Para obtener información sobre las ventajas de Data Movement gateway y los casos de uso que lo requieren, consulte Pasarela de movimiento de datos de Qlik. |
| Fecha de inicio |
Indique la fecha, en el formato |
| Correo electrónico del cliente | Correo electrónico del cliente del archivo de claves JSON de la cuenta de servicio. |
| ID de proyecto | ID del proyecto del archivo de claves JSON de la cuenta de servicio. |
| Depósito | Nombre del depósito de Google Cloud Storage (GCS) donde se almacenan los archivos, por ejemplo, my-gcs-bucket. No incluya el prefijo |
| Tablas | Configure tablas para controlar qué archivos se leen y cómo se interpreta su contenido. Cada definición de tabla incluye un patrón de búsqueda de archivos, un nombre de tabla y configuraciones opcionales para un comportamiento avanzado. |
| Clave privada | Clave privada del archivo de clave JSON de la cuenta de servicio. |
Configuración de la tabla
Cada entrada en la configuración de la tabla especifica una tabla lógica creada a partir de archivos en el depósito de destino. Puede configurar las siguientes propiedades para cada tabla:
| Propiedad | Obligatorio u opcional | Descripción |
|---|---|---|
| Nombre de tabla | Obligatorio | Especifique un nombre para la tabla lógica, por ejemplo my_orders_csv. Este nombre aparecerá como el nombre del stream en Qlik Talend Cloud. |
| Patrón de búsqueda | Obligatorio | Introduzca una expresión regular para que coincida con los nombres de archivo, por ejemplo .csv$ para seleccionar todos los archivos CSV. |
| Prefijo de búsqueda | Opcional | Proporcione un prefijo de ruta dentro del depósito para acotar la búsqueda de archivos, por ejemplo exports/orders/. El uso de un prefijo mejora el rendimiento al limitar el número de archivos analizados. |
| Propiedades clave | Opcional | Enumere uno o más nombres de columna, separados por comas, para definir la clave principal. Por ejemplo: id o id,date. |
| Anulaciones de fecha | Opcional | Enumere los nombres de columna, separados por comas, que se tratarán como campos de fecha y hora. Utilice esta opción si estos campos no se detectan automáticamente durante el descubrimiento del esquema. |
| Delimitador | Opcional | Especifique el carácter que separa los valores en sus archivos. El valor predeterminado es , (coma). Use \t para archivos delimitados por tabulaciones (TSV) o | para archivos separados por barras verticales (PSV). Si se deja en blanco, el sistema detecta automáticamente el delimitador basándose en la extensión del archivo. |
Tablas replicadas
Las tablas se crean en función de la configuración de la tabla (véase más arriba). Cada tabla corresponde a un conjunto de archivos en el depósito de Google Cloud Storage (GCS) que coinciden con el patrón de búsqueda especificado y cualquier prefijo opcional. El conector descubre automáticamente los esquemas muestreando hasta 5 archivos por tabla, leyendo cada quinta fila, con un máximo de 1000 registros por archivo.
La replicación es incremental y utiliza las marcas de tiempo de modificación de archivos para rastrear los cambios. Durante cada extracción, el conector procesa solo aquellos archivos que se han modificado desde la última sincronización correcta, según lo registrado por el marcador de sincronización.
Las siguientes columnas del sistema se añaden a cada tabla de manera predeterminada:
| Columna | Descripción |
|---|---|
_sdc_source_bucket
|
El nombre del depósito de Google Cloud Storage (GCS) donde se leyó el registro. |
_sdc_source_file
|
La ruta completa del archivo que contiene el registro. |
_sdc_source_lineno
|
El número de línea del registro dentro del archivo. |
_sdc_extra
|
Cualquier columna adicional encontrada durante el análisis que no coincida con el esquema descubierto. Se aplica solo a archivos JSONL. |
Limitaciones y consideraciones
- Las credenciales de la cuenta de servicio (
project_id,client_email,private_key) deben proporcionarse como valores individuales extraídos del archivo de claves JSON; no se admite la carga de archivos. - Se admiten los archivos comprimidos con Gzip (
.gz). El conector lee el nombre de archivo original del encabezado gzip para determinar el formato del archivo interno. Los archivos Gzip creados con--no-name(sin nombre de archivo almacenado en el encabezado) se omiten. - La compresión anidada (por ejemplo, un
.gzdentro de otro.gzo un.zipdentro de un.zip) no es compatible. Estos archivos se omiten. - Los archivos con las extensiones
.csv,.txt,.tsv,.psvo.jsonlse comprueban en busca de bytes mágicos gzip y se descomprimen si están comprimidos con gzip, incluso cuando el archivo no tiene una.gzextensión. - El campo
search_patternutiliza la sintaxis de expresiones regulares, no patrones globales. Por ejemplo, use\.csv$en lugar de*.csv. - El conector tiene una lógica de reintento integrada con retroceso exponencial para los límites de velocidad de la API de Google Cloud Storage (GCS) (
429) y los errores transitorios del servidor (500,502,503,504). Se realizan hasta cinco intentos antes de fallar. - Los archivos sin una extensión reconocida se omiten y se emite una advertencia.