Google Cloud Storage

Google Cloud Storage è il servizio di archiviazione di oggetti unificato di Google per l'archiviazione e l'accesso ai dati sull'infrastruttura Google Cloud. Offre elevata disponibilità, ridondanza globale e si integra con il più ampio ecosistema Google Cloud.

Qlik Talend Cloud utilizza un account di servizio Google Cloud con accesso in lettura al bucket di destinazione per connettersi a Google Cloud Storage (GCS). Il connettore recupera i file dal bucket specificato, rileva automaticamente gli schemi campionando i contenuti dei file ed esegue la replica incrementale dei dati in base ai timestamp di modifica dei file.

Immagine di alto livello di questo connettore, inclusi collegamenti utili e funzionalità supportate.

Funzionalità/Capacità	Dettagli del supporto
Progetti Qlik Talend Data Integration supportati	Solo i progetti di replica. I progetti delle pipeline di dati non sono supportati.
Metodi di aggiornamento della destinazione	Attività di replica: Applica modifiche Archivia modifiche Trasferimento dei dati nelle attività di un data lake: Change Data Capture (CDC)
Gestione dei metadati	La generazione manuale dei metadati non è richiesta.
Evoluzione dello schema	È supportata solo l'operazione Cambia tipo di dati colonne.
Replica delle colonne LOB (NCLOB, CLOB e BLOB)	Operazione non supportata.
CDC pianificato	Operazione richiesta. In questo modo la destinazione viene aggiornata con le modifiche apportate alla sorgente. Per le attività di replica, vedere Pianificazione delle attività Per le attività di trasferimento su data lake, vedere Pianificazione CDC per le attività di trasferimento nel data lake
Notifiche	Operazione parzialmente supportata Impostare notifiche quando vengono apportate modifiche al funzionamento
Monitoraggio	Solo attività CDC, in quanto il caricamento completo non è rilevante per questo connettore. Monitoraggio di un singolo task di dati
Annullamento automatico della nidificazione dei payload nelle colonne JSON	Operazione non supportata. La nidificazione per i payload della colonna JSON nei set di dati di origine non viene annullata automaticamente nella destinazione.

Preparazione per l'autenticazione

Per accedere ai dati, è necessario autenticare la connessione con le credenziali del proprio account.

Assicurarsi che l'account utilizzata disponga di accesso di lettura per le tabelle che si desidera recuperare.

Per configurare l'account Google Cloud Storage, è necessario disporre di:

Un progetto Google Cloud Platform (GCP) con l'API Cloud Storage abilitata.
Un bucket Google Cloud Storage (GCS) che contiene i file da replicare.
Un account di servizio con accesso in lettura al bucket.
Il ruolo consigliato è Storage Object Viewer (roles/storage.objectViewer), che concede le autorizzazioni storage.objects.get e storage.objects.list richieste. Per ulteriori informazioni, consultare la documentazione sui ruoli IAM di Google Cloud Storage .
Un file di chiave JSON dell'account di servizio scaricato per l'account di servizio.

Per creare un account di servizio e recuperare le credenziali:

Accedere al proprio account Google Cloud.
Passare a IAM e amministrazione > Account di servizio.
Fare clic su Crea account di servizio.
Inserire un nome e una descrizione per l'account di servizio, quindi fare clic su Crea e continua.
Concedere all'account di servizio il ruolo Storage Object Viewer o un ruolo personalizzato con le autorizzazioni storage.objects.get e storage.objects.list.
Fare clic su Continua e Fine.
Nel nuovo account di servizio creato, fare clic sul menu Azioni.
Passare a Gestisci chiavi > Aggiungi chiave > Crea nuova chiave.
Selezionare JSON e fare clic su Crea.
Il file di chiave JSON viene scaricato direttamente sul computer. Questo file include i campi project_id, client_email e private_key necessari per stabilire la connessione.
È possibile scaricare il file di chiave una sola volta. Assicurarsi di archiviarlo in modo sicuro e di eseguirne il backup, poiché fornisce l'accesso alle risorse Google Cloud.

Formati di file supportati

Testo delimitato: CSV, TSV, PSV, TXT (con delimitatore configurabile)
JSON Lines (.jsonl)
Parquet (.parquet)
Avro (.avro)
File compressi con Gzip (.gz) contenenti uno qualsiasi dei formati precedenti
Archivi ZIP contenenti file CSV, JSON Lines, TXT, TSV, PSV o Gzip

Creazione della connessione

Per ulteriori informazioni, vedere Connessione alle applicazioni SaaS.

Inserire le proprietà di connessione richieste.
Fornire un nome per la connessione in Nome connessione.
Selezionare Apri metadati di connessione per definire i metadati della connessione al momento della creazione.
Fare clic su Crea.

Impostazioni di connessione
Impostazione	Descrizione
Gateway dati	Selezionare un Data Movement gateway se richiesto dal proprio caso di utilizzo. Nota informatica Questo campo non è disponibile con la sottoscrizione a Qlik Talend Cloud Starter, poiché non supporta il Data Movement gateway. Se si dispone di un altro livello di sottoscrizione e non si desidera utilizzare il Data Movement gateway, selezionare Nessuno. Per informazioni sui vantaggi del Data Movement gateway e quando è richiesto, vedere Qlik Data Gateway - Data Movement.
Data di inizio	Inserire la data, nel formato `MM/DD/YYYY`, a partire dalla quale i dati devono essere replicati dalla sorgente alla destinazione.
E-mail client	E-mail del client dal file di chiave JSON dell'account di servizio.
ID progetto	ID progetto dal file di chiave JSON dell'account di servizio.
Bucket	Nome del bucket Google Cloud Storage (GCS) in cui sono archiviati i file, ad esempio `my-gcs-bucket`. Non includere il prefisso `gs://`.
Tabelle	Configurare le tabelle per controllare quali file vengono letti e come ne vengono interpretati i contenuti. Ogni definizione di tabella include un modello di ricerca dei file, un nome di tabella e impostazioni opzionali per comportamenti avanzati.
Chiave privata	Chiave privata dal file di chiave JSON dell'account di servizio.

Configurazione della tabella

Ogni voce nella configurazione della tabella specifica una tabella logica creata dai file nel bucket di destinazione. È possibile configurare le seguenti proprietà per ogni tabella:

Proprietà	Obbligatorio o opzionale	Descrizione
Nome tabella	Obbligatorio	Specificare un nome per la tabella logica, ad esempio `my_orders_csv`. Questo nome apparirà come nome del flusso in Qlik Talend Cloud.
Modello di ricerca	Obbligatorio	Inserire un'espressione regolare per far corrispondere i nomi dei file, ad esempio `.csv$` per selezionare tutti i file CSV.
Prefisso di ricerca	Opzionale	Fornire un prefisso di percorso all'interno del bucket per restringere la ricerca dei file, ad esempio `exports/orders/`. L'utilizzo di un prefisso migliora le prestazioni limitando il numero di file scansionati.
Proprietà chiave	Opzionale	Elencare uno o più nomi di colonna, separati da virgole, per definire la chiave primaria. Ad esempio: `id` o `id,date`.
Sostituzioni data	Opzionale	Elencare i nomi delle colonne, separati da virgole, da trattare come campi data-ora. Utilizzare questa opzione se questi campi non vengono rilevati automaticamente durante il rilevamento dello schema.
Delimitatore	Opzionale	Specificare il carattere che separa i valori nei file. L'impostazione predefinita è `,` (virgola). Utilizzare `\t` per i file delimitati da tabulazioni (TSV) o `\|` per i file separati da pipe (PSV). Se lasciato vuoto, il sistema rileva automaticamente il delimitatore in base all'estensione del file.

Tabelle replicate

Le tabelle vengono create in base alla configurazione della tabella (vedere sopra). Ogni tabella corrisponde a un set di file nel bucket Google Cloud Storage (GCS) che corrispondono sia al modello di ricerca specificato sia a qualsiasi prefisso opzionale. Il connettore rileva automaticamente gli schemi campionando fino a 5 file per tabella, leggendo una riga su cinque, con un massimo di 1.000 record per file.

La replica è incrementale e utilizza i timestamp di modifica dei file per tenere traccia delle modifiche. Durante ogni estrazione, il connettore elabora solo i file che sono stati modificati dall'ultima sincronizzazione riuscita, come registrato dal segnalibro di sincronizzazione.

Le seguenti colonne di sistema vengono aggiunte a ogni tabella per impostazione predefinita:

Colonna	Descrizione
`_sdc_source_bucket`	Il nome del bucket Google Cloud Storage (GCS) in cui è stato letto il record.
`_sdc_source_file`	Il percorso completo del file contenente il record.
`_sdc_source_lineno`	Il numero di riga del record all'interno del file.
`_sdc_extra`	Eventuali colonne aggiuntive trovate durante l'analisi che non corrispondono allo schema rilevato. Si applica solo ai file JSONL.

Limitazioni e considerazioni

Le credenziali dell'account di servizio (project_id, client_email, private_key) devono essere fornite come valori individuali estratti dal file di chiave JSON; il caricamento dei file non è supportato.
I file compressi con Gzip (.gz) sono supportati. Il connettore legge il nome del file originale dall'intestazione gzip per determinare il formato del file interno. I file Gzip creati con --no-name (nessun nome file archiviato nell'intestazione) vengono ignorati.
La compressione nidificata (ad esempio, un .gz all'interno di un altro .gz o un .zip all'interno di un .zip) non è supportata. Questi file vengono ignorati.
I file con estensione .csv, .txt, .tsv, .psv o .jsonl vengono controllati per verificare la presenza di magic byte gzip e decompressi se compressi con gzip, anche quando il file non ha un'estensione .gz.
Il campo search_pattern utilizza la sintassi delle espressioni regolari, non i modelli glob. Ad esempio, utilizzare \.csv$ invece di *.csv.
Il connettore dispone di una logica di ripetizione integrata con backoff esponenziale per i limiti di frequenza dell'API Google Cloud Storage (GCS) (429) e gli errori temporanei del server (500, 502, 503, 504). Vengono effettuati fino a cinque tentativi prima di fallire.
I file senza un'estensione riconosciuta vengono ignorati e viene emesso un avviso.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback