Google Cloud Storage
Google Cloud Storage è il servizio di archiviazione di oggetti unificato di Google per l'archiviazione e l'accesso ai dati sull'infrastruttura Google Cloud. Offre elevata disponibilità, ridondanza globale e si integra con il più ampio ecosistema Google Cloud.
Qlik Talend Cloud utilizza un account di servizio Google Cloud con accesso in lettura al bucket di destinazione per connettersi a Google Cloud Storage (GCS). Il connettore recupera i file dal bucket specificato, rileva automaticamente gli schemi campionando i contenuti dei file ed esegue la replica incrementale dei dati in base ai timestamp di modifica dei file.
Preparazione per l'autenticazione
Per accedere ai dati, è necessario autenticare la connessione con le credenziali del proprio account.
Per configurare l'account Google Cloud Storage, è necessario disporre di:
- Un progetto Google Cloud Platform (GCP) con l'API Cloud Storage abilitata.
- Un bucket Google Cloud Storage (GCS) che contiene i file da replicare.
- Un account di servizio con accesso in lettura al bucket.
Il ruolo consigliato è Storage Object Viewer (
roles/storage.objectViewer), che concede le autorizzazionistorage.objects.getestorage.objects.listrichieste. Per ulteriori informazioni, consultare la documentazione sui ruoli IAM di Google Cloud Storage . - Un file di chiave JSON dell'account di servizio scaricato per l'account di servizio.
Per creare un account di servizio e recuperare le credenziali:
- Accedere al proprio account Google Cloud.
- Passare a IAM e amministrazione > Account di servizio.
- Fare clic su Crea account di servizio.
- Inserire un nome e una descrizione per l'account di servizio, quindi fare clic su Crea e continua.
- Concedere all'account di servizio il ruolo Storage Object Viewer o un ruolo personalizzato con le autorizzazioni
storage.objects.getestorage.objects.list. - Fare clic su Continua e Fine.
- Nel nuovo account di servizio creato, fare clic sul menu Azioni.
- Passare a Gestisci chiavi > Aggiungi chiave > Crea nuova chiave.
- Selezionare JSON e fare clic su Crea.
Il file di chiave JSON viene scaricato direttamente sul computer. Questo file include i campi
project_id,client_emaileprivate_keynecessari per stabilire la connessione.È possibile scaricare il file di chiave una sola volta. Assicurarsi di archiviarlo in modo sicuro e di eseguirne il backup, poiché fornisce l'accesso alle risorse Google Cloud.
Formati di file supportati
- Testo delimitato: CSV, TSV, PSV, TXT (con delimitatore configurabile)
- JSON Lines (
.jsonl) - Parquet (
.parquet) - Avro (
.avro) - File compressi con Gzip (
.gz) contenenti uno qualsiasi dei formati precedenti - Archivi ZIP contenenti file CSV, JSON Lines, TXT, TSV, PSV o Gzip
Creazione della connessione
Per ulteriori informazioni, vedere Connessione alle applicazioni SaaS.
- Inserire le proprietà di connessione richieste.
-
Fornire un nome per la connessione in Nome connessione.
-
Selezionare Apri metadati di connessione per definire i metadati della connessione al momento della creazione.
-
Fare clic su Crea.
| Impostazione | Descrizione |
|---|---|
| Gateway dati |
Selezionare un Gateway Data Movement se richiesto dal proprio caso di utilizzo. Nota informatica
Questo campo non è disponibile con la sottoscrizione a Avvio Qlik Talend Cloud, poiché non supporta il Gateway Data Movement. Se si dispone di un altro livello di sottoscrizione e non si desidera utilizzare il Gateway Data Movement, selezionare Nessuno. Per informazioni sui vantaggi del Gateway Data Movement e quando è richiesto, vedere Qlik Data Gateway - Movimento dati. |
| Data di inizio |
Inserire la data, nel formato |
| E-mail client | E-mail del client dal file di chiave JSON dell'account di servizio. |
| ID progetto | ID progetto dal file di chiave JSON dell'account di servizio. |
| Bucket | Nome del bucket Google Cloud Storage (GCS) in cui sono archiviati i file, ad esempio my-gcs-bucket.
Non includere il prefisso |
| Tabelle | Configurare le tabelle per controllare quali file vengono letti e come ne vengono interpretati i contenuti. Ogni definizione di tabella include un modello di ricerca dei file, un nome di tabella e impostazioni opzionali per comportamenti avanzati. |
| Chiave privata | Chiave privata dal file di chiave JSON dell'account di servizio. |
Configurazione della tabella
Ogni voce nella configurazione della tabella specifica una tabella logica creata dai file nel bucket di destinazione. È possibile configurare le seguenti proprietà per ogni tabella:
| Proprietà | Obbligatorio o opzionale | Descrizione |
|---|---|---|
| Nome tabella | Obbligatorio |
Specificare un nome per la tabella logica, ad esempio my_orders_csv. Questo nome apparirà come nome del flusso in Qlik Talend Cloud.
|
| Modello di ricerca | Obbligatorio |
Inserire un'espressione regolare per far corrispondere i nomi dei file, ad esempio .csv$ per selezionare tutti i file CSV.
|
| Prefisso di ricerca | Opzionale | Fornire un prefisso di percorso all'interno del bucket per restringere la ricerca dei file, ad esempio exports/orders/. L'utilizzo di un prefisso migliora le prestazioni limitando il numero di file scansionati.
|
| Proprietà chiave | Opzionale |
Elencare uno o più nomi di colonna, separati da virgole, per definire la chiave primaria. Ad esempio: id o id,date.
|
| Sostituzioni data | Opzionale | Elencare i nomi delle colonne, separati da virgole, da trattare come campi data-ora. Utilizzare questa opzione se questi campi non vengono rilevati automaticamente durante il rilevamento dello schema. |
| Delimitatore | Opzionale |
Specificare il carattere che separa i valori nei file. L'impostazione predefinita è , (virgola). Utilizzare \t per i file delimitati da tabulazioni (TSV) o | per i file separati da pipe (PSV). Se lasciato vuoto, il sistema rileva automaticamente il delimitatore in base all'estensione del file.
|
Tabelle replicate
Le tabelle vengono create in base alla configurazione della tabella (vedere sopra). Ogni tabella corrisponde a un set di file nel bucket Google Cloud Storage (GCS) che corrispondono sia al modello di ricerca specificato sia a qualsiasi prefisso opzionale. Il connettore rileva automaticamente gli schemi campionando fino a 5 file per tabella, leggendo una riga su cinque, con un massimo di 1.000 record per file.
La replica è incrementale e utilizza i timestamp di modifica dei file per tenere traccia delle modifiche. Durante ogni estrazione, il connettore elabora solo i file che sono stati modificati dall'ultima sincronizzazione riuscita, come registrato dal segnalibro di sincronizzazione.
Le seguenti colonne di sistema vengono aggiunte a ogni tabella per impostazione predefinita:
| Colonna | Descrizione |
|---|---|
_sdc_source_bucket
|
Il nome del bucket Google Cloud Storage (GCS) in cui è stato letto il record. |
_sdc_source_file
|
Il percorso completo del file contenente il record. |
_sdc_source_lineno
|
Il numero di riga del record all'interno del file. |
_sdc_extra
|
Eventuali colonne aggiuntive trovate durante l'analisi che non corrispondono allo schema rilevato. Si applica solo ai file JSONL. |
Limitazioni e considerazioni
-
Le credenziali dell'account di servizio (
project_id,client_email,private_key) devono essere fornite come valori individuali estratti dal file di chiave JSON; il caricamento dei file non è supportato. -
I file compressi con Gzip (
.gz) sono supportati. Il connettore legge il nome del file originale dall'intestazione gzip per determinare il formato del file interno. I file Gzip creati con--no-name(nessun nome file archiviato nell'intestazione) vengono ignorati. -
La compressione nidificata (ad esempio, un
.gzall'interno di un altro.gzo un.zipall'interno di un.zip) non è supportata. Questi file vengono ignorati. -
I file con estensione
.csv,.txt,.tsv,.psvo.jsonlvengono controllati per verificare la presenza di magic byte gzip e decompressi se compressi con gzip, anche quando il file non ha un'estensione.gz. -
Il campo
search_patternutilizza la sintassi delle espressioni regolari, non i modelli glob. Ad esempio, utilizzare\.csv$invece di*.csv. -
Il connettore dispone di una logica di ripetizione integrata con backoff esponenziale per i limiti di frequenza dell'API Google Cloud Storage (GCS) (
429) e gli errori temporanei del server (500,502,503,504). Vengono effettuati fino a cinque tentativi prima di fallire. - I file senza un'estensione riconosciuta vengono ignorati e viene emesso un avviso.