Google Cloud Storage

Google Cloud Storage es el servicio de almacenamiento de objetos unificado de Google para almacenar y acceder a datos en la infraestructura de Google Cloud. Ofrece alta disponibilidad, redundancia global y se integra con el ecosistema más amplio de Google Cloud.

Qlik Talend Cloud utiliza una cuenta de servicio de Google Cloud con acceso de lectura al depósito de destino para conectarse a Google Cloud Storage (GCS). El conector recupera archivos del depósito especificado, descubre automáticamente los esquemas mediante el muestreo del contenido de los archivos y realiza la replicación de datos incremental basándose en las marcas de tiempo de modificación de los archivos.

Una visión detallada de este conector, incluye enlaces útiles y funcionalidad compatible.

Función/Capacidad	Detalles de compatibilidad
Compatibilidad con proyectos de Qlik Talend Data Integration	Solo proyectos de replicación. No se admiten proyectos de canalización de datos.
Métodos de actualización de destinos	Tareas de replicación: Aplicar los cambios Guardar cambios Tareas de aterrizaje de datos en un lago de datos: Captura de datos de cambios (CDC)
Administrar los metadatos	No es necesario generar metadatos manualmente.
Evolución del esquema	Solo se admite la operación Cambiar tipo de datos de columna.
Replicación de columnas LOB (NCLOB, CLOB y BLOB)	No admitido.
CDC programado	Obligatorio. Así es como el destino se mantiene actualizado con los cambios en la fuente. Para tareas de replicación, vea Programar tareas Para tareas de aterrizaje en un lago de datos, vea Programación de CDC para tareas de destino/aterrizaje en un lago de datos
Notificaciones	Parcialmente compatible Configuración de notificaciones sobre cambios
Supervisión	Solo CDC, ya que la carga completa no es relevante para este conector. Supervisar una tarea individual de datos
Descarte automático de cargas útiles de columnas JSON	No admitido. Las cargas útiles de columnas JSON en los conjuntos de datos de origen no se deniegan automáticamente en el destino.

Preparación para la autenticación.

Para acceder a sus datos, debe autenticar la conexión con las credenciales de su cuenta.

Asegúrese de que la cuenta que utiliza tenga acceso de lectura a las tablas que desea recuperar.

Para configurar su cuenta de Google Cloud Storage, necesita:

Un proyecto de Google Cloud Platform (GCP) con la API de Cloud Storage habilitada.
Un depósito de Google Cloud Storage (GCS) que contiene los archivos que se van a replicar.
Una cuenta de servicio con acceso de lectura al depósito.
El rol recomendado es Visualizador de objetos de almacenamiento (roles/storage.objectViewer), que otorga los permisos necesarios storage.objects.get y storage.objects.list. Para más información, consulte la documentación de roles de IAM de Google Cloud Storage .
Un archivo de clave JSON de cuenta de servicio descargado para la cuenta de servicio.

Para crear una cuenta de servicio y recuperar sus credenciales:

Inicie sesión en su cuenta de Google Cloud.
Vaya a IAM y administración > Cuentas de servicio.
Haga clic en Crear cuenta de servicio.
Indique un nombre y una descripción para la cuenta de servicio y, a continuación, haga clic en Crear y continuar.
Conceda a la cuenta de servicio el rol de Visualizador de objetos de almacenamiento o un rol personalizado con los permisos storage.objects.get y storage.objects.list.
Haga clic en Continuar y Listo.
En su cuenta de servicio recién creada, haga clic en el menú Acciones.
Vaya a Administrar claves > Añadir clave > Crear nueva clave.
Seleccione JSON y haga clic en Crear.
El archivo de clave JSON se descarga directamente en su máquina. Este archivo incluye los campos project_id, client_email y private_key necesarios para establecer la conexión.
Puede descargar el archivo de clave solo una vez. Asegúrese de almacenarlo de forma segura y hacer una copia de seguridad, ya que proporciona acceso a sus recursos de Google Cloud.

Formatos de archivo admitidos

Texto delimitado: CSV, TSV, PSV, TXT (con delimitador configurable)
JSON Lines (.jsonl)
Parquet (.parquet)
Avro (.avro)
Archivos comprimidos con Gzip (.gz) que contienen cualquiera de los formatos anteriores
Archivos ZIP que contienen archivos CSV, JSON Lines, TXT, TSV, PSV o Gzip

Crear la conexión

Para más información, vea Conectar con aplicaciones SaaS.

Rellene las propiedades de conexión necesarias.
Proporcione un nombre para la conexión en Nombre de la conexión.
Seleccione Abrir metadatos de conexión para definir metadatos para la conexión cuando se haya creado.
Haga clic en Crear.

Configuración de la conexión
Configuración	Descripción
Pasarela de datos	Seleccione una Data Movement gateway si su caso de uso así lo requiere. Nota informativa Este campo no está disponible con la suscripción Qlik Talend Cloud Starter porque Data Movement gateway no se admite. Si tiene otro nivel de suscripción y no desea utilizar Data Movement gateway, seleccione Ninguna. Para obtener información sobre las ventajas de Data Movement gateway y los casos de uso que lo requieren, consulte Qlik Data Gateway - Data Movement.
Fecha de inicio	Indique la fecha, en el formato `MM/DD/YYYY`, a partir de la cual deben replicarse los datos de su fuente a su destino.
Correo electrónico del cliente	Correo electrónico del cliente del archivo de claves JSON de la cuenta de servicio.
ID de proyecto	ID del proyecto del archivo de claves JSON de la cuenta de servicio.
Depósito	Nombre del depósito de Google Cloud Storage (GCS) donde se almacenan los archivos, por ejemplo, `my-gcs-bucket`. No incluya el prefijo `gs://`.
Tablas	Configure tablas para controlar qué archivos se leen y cómo se interpreta su contenido. Cada definición de tabla incluye un patrón de búsqueda de archivos, un nombre de tabla y configuraciones opcionales para un comportamiento avanzado.
Clave privada	Clave privada del archivo de clave JSON de la cuenta de servicio.

Configuración de la tabla

Cada entrada en la configuración de la tabla especifica una tabla lógica creada a partir de archivos en el depósito de destino. Puede configurar las siguientes propiedades para cada tabla:

Propiedad	Obligatorio u opcional	Descripción
Nombre de tabla	Obligatorio	Especifique un nombre para la tabla lógica, por ejemplo `my_orders_csv`. Este nombre aparecerá como el nombre del stream en Qlik Talend Cloud.
Patrón de búsqueda	Obligatorio	Introduzca una expresión regular para que coincida con los nombres de archivo, por ejemplo `.csv$` para seleccionar todos los archivos CSV.
Prefijo de búsqueda	Opcional	Proporcione un prefijo de ruta dentro del depósito para acotar la búsqueda de archivos, por ejemplo `exports/orders/`. El uso de un prefijo mejora el rendimiento al limitar el número de archivos analizados.
Propiedades clave	Opcional	Enumere uno o más nombres de columna, separados por comas, para definir la clave principal. Por ejemplo: `id` o `id,date`.
Anulaciones de fecha	Opcional	Enumere los nombres de columna, separados por comas, que se tratarán como campos de fecha y hora. Utilice esta opción si estos campos no se detectan automáticamente durante el descubrimiento del esquema.
Delimitador	Opcional	Especifique el carácter que separa los valores en sus archivos. El valor predeterminado es `,` (coma). Use `\t` para archivos delimitados por tabulaciones (TSV) o `\|` para archivos separados por barras verticales (PSV). Si se deja en blanco, el sistema detecta automáticamente el delimitador basándose en la extensión del archivo.

Tablas replicadas

Las tablas se crean en función de la configuración de la tabla (véase más arriba). Cada tabla corresponde a un conjunto de archivos en el depósito de Google Cloud Storage (GCS) que coinciden con el patrón de búsqueda especificado y cualquier prefijo opcional. El conector descubre automáticamente los esquemas muestreando hasta 5 archivos por tabla, leyendo cada quinta fila, con un máximo de 1000 registros por archivo.

La replicación es incremental y utiliza las marcas de tiempo de modificación de archivos para rastrear los cambios. Durante cada extracción, el conector procesa solo aquellos archivos que se han modificado desde la última sincronización correcta, según lo registrado por el marcador de sincronización.

Las siguientes columnas del sistema se añaden a cada tabla de manera predeterminada:

Columna	Descripción
`_sdc_source_bucket`	El nombre del depósito de Google Cloud Storage (GCS) donde se leyó el registro.
`_sdc_source_file`	La ruta completa del archivo que contiene el registro.
`_sdc_source_lineno`	El número de línea del registro dentro del archivo.
`_sdc_extra`	Cualquier columna adicional encontrada durante el análisis que no coincida con el esquema descubierto. Se aplica solo a archivos JSONL.

Limitaciones y consideraciones

Las credenciales de la cuenta de servicio (project_id, client_email, private_key) deben proporcionarse como valores individuales extraídos del archivo de claves JSON; no se admite la carga de archivos.
Se admiten los archivos comprimidos con Gzip (.gz). El conector lee el nombre de archivo original del encabezado gzip para determinar el formato del archivo interno. Los archivos Gzip creados con --no-name (sin nombre de archivo almacenado en el encabezado) se omiten.
La compresión anidada (por ejemplo, un .gz dentro de otro .gz o un .zip dentro de un .zip) no es compatible. Estos archivos se omiten.
Los archivos con las extensiones .csv, .txt, .tsv, .psv o .jsonl se comprueban en busca de bytes mágicos gzip y se descomprimen si están comprimidos con gzip, incluso cuando el archivo no tiene una .gz extensión.
El campo search_pattern utiliza la sintaxis de expresiones regulares, no patrones globales. Por ejemplo, use \.csv$ en lugar de *.csv.
El conector tiene una lógica de reintento integrada con retroceso exponencial para los límites de velocidad de la API de Google Cloud Storage (GCS) (429) y los errores transitorios del servidor (500, 502, 503, 504). Se realizan hasta cinco intentos antes de fallar.
Los archivos sin una extensión reconocida se omiten y se emite una advertencia.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios