Google Cloud Storage | Guida di Qlik Cloud
Vai al contenuto principale Passa a contenuto complementare

Google Cloud Storage 

Google Cloud Storage è il servizio di archiviazione di oggetti unificato di Google per l'archiviazione e l'accesso ai dati sull'infrastruttura Google Cloud. Offre elevata disponibilità, ridondanza globale e si integra con il più ampio ecosistema Google Cloud.

Qlik Talend Cloud utilizza un account di servizio Google Cloud con accesso in lettura al bucket di destinazione per connettersi a Google Cloud Storage (GCS). Il connettore recupera i file dal bucket specificato, rileva automaticamente gli schemi campionando i contenuti dei file ed esegue la replica incrementale dei dati in base ai timestamp di modifica dei file.

Preparazione per l'autenticazione

Per accedere ai dati, è necessario autenticare la connessione con le credenziali del proprio account.

Nota informaticaAssicurarsi che l'account utilizzata disponga di accesso di lettura per le tabelle che si desidera recuperare.

Per configurare l'account Google Cloud Storage, è necessario disporre di:

  • Un progetto Google Cloud Platform (GCP) con l'API Cloud Storage abilitata.
  • Un bucket Google Cloud Storage (GCS) che contiene i file da replicare.
  • Un account di servizio con accesso in lettura al bucket.

    Il ruolo consigliato è Storage Object Viewer (roles/storage.objectViewer), che concede le autorizzazioni storage.objects.get e storage.objects.list richieste. Per ulteriori informazioni, consultare la documentazione sui ruoli IAM di Google Cloud Storage .

  • Un file di chiave JSON dell'account di servizio scaricato per l'account di servizio.

Per creare un account di servizio e recuperare le credenziali:

  1. Accedere al proprio account Google Cloud.
  2. Passare a IAM e amministrazione > Account di servizio.
  3. Fare clic su Crea account di servizio.
  4. Inserire un nome e una descrizione per l'account di servizio, quindi fare clic su Crea e continua.
  5. Concedere all'account di servizio il ruolo Storage Object Viewer o un ruolo personalizzato con le autorizzazioni storage.objects.get e storage.objects.list.
  6. Fare clic su Continua e Fine.
  7. Nel nuovo account di servizio creato, fare clic sul menu Azioni.
  8. Passare a Gestisci chiavi > Aggiungi chiave > Crea nuova chiave.
  9. Selezionare JSON e fare clic su Crea.

    Il file di chiave JSON viene scaricato direttamente sul computer. Questo file include i campi project_id, client_email e private_key necessari per stabilire la connessione.

    È possibile scaricare il file di chiave una sola volta. Assicurarsi di archiviarlo in modo sicuro e di eseguirne il backup, poiché fornisce l'accesso alle risorse Google Cloud.

Formati di file supportati

  • Testo delimitato: CSV, TSV, PSV, TXT (con delimitatore configurabile)
  • JSON Lines (.jsonl)
  • Parquet (.parquet)
  • Avro (.avro)
  • File compressi con Gzip (.gz) contenenti uno qualsiasi dei formati precedenti
  • Archivi ZIP contenenti file CSV, JSON Lines, TXT, TSV, PSV o Gzip

Creazione della connessione

Per ulteriori informazioni, vedere Connessione alle applicazioni SaaS.

  1. Inserire le proprietà di connessione richieste.
  2. Fornire un nome per la connessione in Nome connessione.

  3. Selezionare Apri metadati di connessione per definire i metadati della connessione al momento della creazione.

  4. Fare clic su Crea.

Impostazioni di connessione
Impostazione Descrizione
Gateway dati

Selezionare un Gateway Data Movement se richiesto dal proprio caso di utilizzo.

Nota informatica

Questo campo non è disponibile con la sottoscrizione a Avvio Qlik Talend Cloud, poiché non supporta il Gateway Data Movement. Se si dispone di un altro livello di sottoscrizione e non si desidera utilizzare il Gateway Data Movement, selezionare Nessuno.

Per informazioni sui vantaggi del Gateway Data Movement e quando è richiesto, vedere Qlik Data Gateway - Movimento dati.

Data di inizio

Inserire la data, nel formato MM/DD/YYYY, a partire dalla quale i dati devono essere replicati dalla sorgente alla destinazione.

E-mail client E-mail del client dal file di chiave JSON dell'account di servizio.
ID progetto ID progetto dal file di chiave JSON dell'account di servizio.
Bucket Nome del bucket Google Cloud Storage (GCS) in cui sono archiviati i file, ad esempio my-gcs-bucket.

Non includere il prefisso gs://.

Tabelle Configurare le tabelle per controllare quali file vengono letti e come ne vengono interpretati i contenuti. Ogni definizione di tabella include un modello di ricerca dei file, un nome di tabella e impostazioni opzionali per comportamenti avanzati.
Chiave privata Chiave privata dal file di chiave JSON dell'account di servizio.

Configurazione della tabella

Ogni voce nella configurazione della tabella specifica una tabella logica creata dai file nel bucket di destinazione. È possibile configurare le seguenti proprietà per ogni tabella:

Proprietà Obbligatorio o opzionale Descrizione
Nome tabella Obbligatorio Specificare un nome per la tabella logica, ad esempio my_orders_csv. Questo nome apparirà come nome del flusso in Qlik Talend Cloud.
Modello di ricerca Obbligatorio Inserire un'espressione regolare per far corrispondere i nomi dei file, ad esempio .csv$ per selezionare tutti i file CSV.
Prefisso di ricerca Opzionale Fornire un prefisso di percorso all'interno del bucket per restringere la ricerca dei file, ad esempio exports/orders/. L'utilizzo di un prefisso migliora le prestazioni limitando il numero di file scansionati.
Proprietà chiave Opzionale Elencare uno o più nomi di colonna, separati da virgole, per definire la chiave primaria. Ad esempio: id o id,date.
Sostituzioni data Opzionale Elencare i nomi delle colonne, separati da virgole, da trattare come campi data-ora. Utilizzare questa opzione se questi campi non vengono rilevati automaticamente durante il rilevamento dello schema.
Delimitatore Opzionale Specificare il carattere che separa i valori nei file. L'impostazione predefinita è , (virgola). Utilizzare \t per i file delimitati da tabulazioni (TSV) o | per i file separati da pipe (PSV). Se lasciato vuoto, il sistema rileva automaticamente il delimitatore in base all'estensione del file.

Tabelle replicate

Le tabelle vengono create in base alla configurazione della tabella (vedere sopra). Ogni tabella corrisponde a un set di file nel bucket Google Cloud Storage (GCS) che corrispondono sia al modello di ricerca specificato sia a qualsiasi prefisso opzionale. Il connettore rileva automaticamente gli schemi campionando fino a 5 file per tabella, leggendo una riga su cinque, con un massimo di 1.000 record per file.

La replica è incrementale e utilizza i timestamp di modifica dei file per tenere traccia delle modifiche. Durante ogni estrazione, il connettore elabora solo i file che sono stati modificati dall'ultima sincronizzazione riuscita, come registrato dal segnalibro di sincronizzazione.

Le seguenti colonne di sistema vengono aggiunte a ogni tabella per impostazione predefinita:

Colonna Descrizione
_sdc_source_bucket Il nome del bucket Google Cloud Storage (GCS) in cui è stato letto il record.
_sdc_source_file Il percorso completo del file contenente il record.
_sdc_source_lineno Il numero di riga del record all'interno del file.
_sdc_extra Eventuali colonne aggiuntive trovate durante l'analisi che non corrispondono allo schema rilevato. Si applica solo ai file JSONL.

Limitazioni e considerazioni

  • Le credenziali dell'account di servizio (project_id, client_email, private_key) devono essere fornite come valori individuali estratti dal file di chiave JSON; il caricamento dei file non è supportato.
  • I file compressi con Gzip (.gz) sono supportati. Il connettore legge il nome del file originale dall'intestazione gzip per determinare il formato del file interno. I file Gzip creati con --no-name (nessun nome file archiviato nell'intestazione) vengono ignorati.
  • La compressione nidificata (ad esempio, un .gz all'interno di un altro .gz o un .zip all'interno di un .zip) non è supportata. Questi file vengono ignorati.
  • I file con estensione .csv, .txt, .tsv, .psv o .jsonl vengono controllati per verificare la presenza di magic byte gzip e decompressi se compressi con gzip, anche quando il file non ha un'estensione .gz.
  • Il campo search_pattern utilizza la sintassi delle espressioni regolari, non i modelli glob. Ad esempio, utilizzare \.csv$ invece di *.csv.
  • Il connettore dispone di una logica di ripetizione integrata con backoff esponenziale per i limiti di frequenza dell'API Google Cloud Storage (GCS) (429) e gli errori temporanei del server (500, 502, 503, 504). Vengono effettuati fino a cinque tentativi prima di fallire.
  • I file senza un'estensione riconosciuta vengono ignorati e viene emesso un avviso.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!