Google Cloud Storage
Google Cloud Storage är Googles enhetliga objektlagringstjänst för att lagra och komma åt data i Google Cloud-infrastrukturen. Den erbjuder hög tillgänglighet, global redundans och integreras med det bredare Google Cloud-ekosystemet.
Qlik Talend Cloud använder ett Google Cloud-tjänstkonto med läsbehörighet till mål-bucket för att ansluta till Google Cloud Storage (GCS). Denna koppling hämtar filer från den angivna bucket, upptäcker automatiskt scheman genom att sampla filinnehåll och utför inkrementell datareplikering baserat på filändringars tidsmarkör.
Förbereda för autentisering
För att komma åt dina data måste du autentisera denna koppling med dina kontouppgifter.
För att konfigurera ditt Google Cloud Storage-konto behöver du:
- Ett Google Cloud Platform (GCP)-projekt med Cloud Storage API aktiverat.
- En Google Cloud Storage (GCS)-bucket som innehåller filerna som ska replikeras.
- Ett tjänstkonto med läsbehörighet till denna bucket.
Den rekommenderade rollen är Storage Object Viewer (
roles/storage.objectViewer), vilket ger de nödvändiga behörigheternastorage.objects.getochstorage.objects.list. För mer information, se dokumentationen för Google Cloud Storage IAM-roller . - En JSON-nyckelfil som hämtats för tjänstkontot.
För att skapa ett tjänstkonto och hämta dina inloggningsuppgifter:
- Logga in på ditt Google Cloud-konto.
- Navigera till IAM & Admin > Service Accounts.
- Klicka på Skapa tjänstkonto.
- Ange ett namn och en beskrivning för tjänstkontot och klicka sedan på Skapa och fortsätt.
- Ge tjänstkontot rollen Storage Object Viewer eller en anpassad roll med behörigheterna
storage.objects.getochstorage.objects.list. - Klicka på Fortsätt och Klar.
- I ditt nyskapade tjänstkonto klickar du på menyn Åtgärder.
- Navigera till Hantera nycklar > Lägg till nyckel > Skapa ny nyckel.
- Välj JSON och klicka på Skapa.
JSON-nyckelfilen hämtas direkt till din maskin. Den här filen innehåller fälten
project_id,client_emailochprivate_keysom krävs för att upprätta denna koppling.Du kan bara hämta nyckelfilen en gång. Se till att lagra den säkert och säkerhetskopiera den, eftersom den ger åtkomst till dina Google Cloud-resurser.
Filformat som stöds
- Avgränsad text: CSV, TSV, PSV, TXT (med konfigurerbar avgränsare)
- JSON Lines (
.jsonl) - Parquet (
.parquet) - Avro (
.avro) - Gzip-komprimerade filer (
.gz) som innehåller något av ovanstående format - ZIP-arkiv som innehåller CSV-, JSON Lines-, TXT-, TSV-, PSV- eller Gzip-filer
Skapa denna koppling
Mer information finns i Koppla till SaaS-program.
- Ange de kopplingsegenskaper som krävs.
-
Ange ett namn på kopplingen i Kopplingsnamn.
-
Välj Öppna kopplingsmetadata för att definiera metadata för kopplingen när den har skapats.
-
Klicka på Skapa.
| Inställning | Beskrivning |
|---|---|
| Datagateway |
Välj en Gateway för dataflytt om det krävs för ditt användningsfall. Anteckning om information
Detta fält är inte tillgängligt med Qlik Talend Cloud Starter-prenumerationen eftersom den inte stöder Gateway för dataflytt. Om du har en annan prenumerationsnivå och inte vill använda Gateway för dataflytt väljer du Inget. Information om fördelarna med Gateway för dataflytt och användningsfall som kräver det finns i Qlik Data Gateway – dataflytt. |
| Startdatum |
Ange det datum, i formatet |
| Klient-e-post | Klient-e-post från tjänstkontots JSON-nyckelfil. |
| Projekt-ID | Projekt-ID från tjänstkontots JSON-nyckelfil. |
| Bucket | Namnet på den Google Cloud Storage (GCS)-bucket där filerna lagras, till exempel my-gcs-bucket.
Inkludera inte prefixet |
| Tabeller | Konfigurera tabeller för att styra vilka filer som läses och hur deras innehåll tolkas. Varje tabelldefinition inkluderar ett filsökmönster, ett tabellnamn och valfria inställningar för avancerat beteende. |
| Privat nyckel | Privat nyckel från tjänstkontots JSON-nyckelfil. |
Tabellkonfiguration
Varje post i tabellkonfigurationen anger en logisk tabell som skapats från filer i mål-bucket. Du kan konfigurera följande egenskaper för varje tabell:
| Egenskap | Obligatorisk eller valfri | Beskrivning |
|---|---|---|
| Tabellnamn | Obligatorisk |
Ange ett namn för den logiska tabellen, till exempel my_orders_csv. Detta namn kommer att visas som namnet på strömmen i Qlik Talend Cloud.
|
| Sökmönster | Obligatorisk |
Ange ett reguljärt uttryck för att matcha filnamn, till exempel .csv$ för att välja alla CSV-filer.
|
| Sökprefix | Valfri | Ange ett sökvägsprefix i denna bucket för att begränsa filsökningen, till exempel exports/orders/. Att använda ett prefix förbättrar prestandan genom att begränsa antalet skannade filer.
|
| Nyckelegenskaper | Valfri |
Lista ett eller flera kolumnnamn, separerade med kommatecken, för att definiera primärnyckeln. Till exempel: id eller id,date.
|
| Datumåsidosättningar | Valfri | Lista kolumnnamn, separerade med kommatecken, som ska behandlas som datum-tidsfält. Använd det här alternativet om dessa fält inte upptäcks automatiskt under schemaupptäckten. |
| Avgränsare | Valfri |
Ange det tecken som separerar värden i dina filer. Standard är , (komma). Använd \t för tabbavgränsade (TSV) filer eller | för rörseparerade (PSV) filer. Om det lämnas tomt upptäcker systemet automatiskt avgränsaren baserat på filändelsen.
|
Tabeller som replikeras
Tabeller skapas baserat på tabellkonfigurationen (se ovan). Varje tabell motsvarar en uppsättning filer i Google Cloud Storage (GCS)-bucket som matchar både det angivna sökmönstret och eventuellt valfritt prefix. Denna koppling upptäcker automatiskt scheman genom att sampla upp till 5 filer per tabell, läsa var femte rad, med maximalt 1 000 poster per fil.
Denna replikering är inkrementell och använder filändringars tidsmarkör för att spåra ändringar. Under varje extrahering bearbetar denna koppling endast de filer som har ändrats sedan den senaste framgångsrika synkroniseringen, som registrerats av synkroniseringsbokmärket.
Följande systemkolumner läggs till i varje tabell som standard:
| Kolumn | Beskrivning |
|---|---|
_sdc_source_bucket
|
Namnet på den Google Cloud Storage (GCS)-bucket där posten lästes. |
_sdc_source_file
|
Den fullständiga sökvägen till filen som innehåller posten. |
_sdc_source_lineno
|
Radnumret för posten i filen. |
_sdc_extra
|
Eventuella extra kolumner som hittades under tolkningen och som inte matchar det upptäckta schemat. Gäller endast JSONL-filer. |
Begränsningar och överväganden
-
Tjänstkontots inloggningsuppgifter (
project_id,client_email,private_key) måste anges som individuella värden extraherade från JSON-nyckelfilen; filuppladdning stöds inte. -
Gzip-komprimerade filer (
.gz) stöds. Denna koppling läser det ursprungliga filnamnet från gzip-huvudet för att fastställa det inre filformatet. Gzip-filer som skapats med--no-name(inget filnamn lagrat i huvudet) hoppas över. -
Nästlad komprimering (till exempel en
.gzinuti en annan.gzeller en.zipinuti en.zip) stöds inte. Dessa filer hoppas över. -
Filer med filändelserna
.csv,.txt,.tsv,.psveller.jsonlkontrolleras för gzip-magiska byte och dekomprimeras om de är gzip-komprimerade – även när filen inte har filändelsen.gz. -
Fältet
search_patternanvänder syntax för reguljära uttryck, inte glob-mönster. Använd till exempel\.csv$istället för*.csv. -
Denna koppling har inbyggd logik för nya försök med exponentiell backoff för Google Cloud Storage (GCS) API-hastighetsgränser (
429) och tillfälliga serverfel (500,502,503,504). Upp till fem försök görs innan det misslyckas. - Filer utan en igenkänd filändelse hoppas över och en varning utfärdas.