Google Cloud Storage

Google Cloud Storage är Googles enhetliga objektlagringstjänst för att lagra och komma åt data i Google Cloud-infrastrukturen. Den erbjuder hög tillgänglighet, global redundans och integreras med det bredare Google Cloud-ekosystemet.

Qlik Talend Cloud använder ett Google Cloud-tjänstkonto med läsbehörighet till mål-bucket för att ansluta till Google Cloud Storage (GCS). Denna koppling hämtar filer från den angivna bucket, upptäcker automatiskt scheman genom att sampla filinnehåll och utför inkrementell datareplikering baserat på filändringars tidsmarkör.

En översiktlig beskrivning av denna koppling, inklusive användbara länkar och funktioner som stöds.

Funktion/förmåga	Supportinformation
Stöd till Qlik Talend Data Integration-projekt	Endast replikeringsprojekt. Datapipelineprojekt stöds inte.
Metoder för uppdatering av mål	Replikeringsuppgifter: Tillämpa ändringar Lagra ändringar Mellanlagra data i datareservoar-uppgifter: Sammanställning av ändringsdata (CDC)
Hantera metadata	Manuell generering av metadata är inte nödvändig.
Schemautveckling	Endast åtgärden Ändra kolumndatatyp stöds.
Replikering av LOB-kolumner (NCLOB, CLOB och BLOB)	Stöds inte.
Schemalagd CDC	Krävs. Det är på detta sätt som målet hålls uppdaterat med ändringar i källan. För uppgifter om replikering, se Schemalägga uppgifter För mellanlagringsuppgifter i datasjöar, se Schemalägga CDC för uppgifter för mellanlagring i datalake
Meddelanden	Stöds delvis Konfigurera aviseringar vid ändringar under drift
Övervakning	Endast CDC, eftersom fullständig laddning inte är relevant för denna koppling. Övervakning av en enskild datauppgift
Automatisk denestning av JSON-kolumners nyttolast	Stöds inte. Nyttolaster för JSON-kolumner i källdatauppsättningen avnästlas inte automatiskt på målet.

Förbereda för autentisering

För att komma åt dina data måste du autentisera denna koppling med dina kontouppgifter.

Kontrollera att kontot du använder har läsåtkomst till de tabeller som du vill hämta.

För att konfigurera ditt Google Cloud Storage-konto behöver du:

Ett Google Cloud Platform (GCP)-projekt med Cloud Storage API aktiverat.
En Google Cloud Storage (GCS)-bucket som innehåller filerna som ska replikeras.
Ett tjänstkonto med läsbehörighet till denna bucket.
Den rekommenderade rollen är Storage Object Viewer (roles/storage.objectViewer), vilket ger de nödvändiga behörigheterna storage.objects.get och storage.objects.list. För mer information, se dokumentationen för Google Cloud Storage IAM-roller .
En JSON-nyckelfil som hämtats för tjänstkontot.

För att skapa ett tjänstkonto och hämta dina inloggningsuppgifter:

Logga in på ditt Google Cloud-konto.
Navigera till IAM & Admin > Service Accounts.
Klicka på Skapa tjänstkonto.
Ange ett namn och en beskrivning för tjänstkontot och klicka sedan på Skapa och fortsätt.
Ge tjänstkontot rollen Storage Object Viewer eller en anpassad roll med behörigheterna storage.objects.get och storage.objects.list.
Klicka på Fortsätt och Klar.
I ditt nyskapade tjänstkonto klickar du på menyn Åtgärder.
Navigera till Hantera nycklar > Lägg till nyckel > Skapa ny nyckel.
Välj JSON och klicka på Skapa.
JSON-nyckelfilen hämtas direkt till din maskin. Den här filen innehåller fälten project_id, client_email och private_key som krävs för att upprätta denna koppling.
Du kan bara hämta nyckelfilen en gång. Se till att lagra den säkert och säkerhetskopiera den, eftersom den ger åtkomst till dina Google Cloud-resurser.

Filformat som stöds

Avgränsad text: CSV, TSV, PSV, TXT (med konfigurerbar avgränsare)
JSON Lines (.jsonl)
Parquet (.parquet)
Avro (.avro)
Gzip-komprimerade filer (.gz) som innehåller något av ovanstående format
ZIP-arkiv som innehåller CSV-, JSON Lines-, TXT-, TSV-, PSV- eller Gzip-filer

Skapa denna koppling

Mer information finns i Koppla till SaaS-program.

Ange de kopplingsegenskaper som krävs.
Ange ett namn på kopplingen i Kopplingsnamn.
Välj Öppna kopplingsmetadata för att definiera metadata för kopplingen när den har skapats.
Klicka på Skapa.

Kopplingsinställningar
Inställning	Beskrivning
Datagateway	Välj en Gateway för dataflytt om det krävs för ditt användningsfall. Anteckning om information Detta fält är inte tillgängligt med Qlik Talend Cloud Starter-prenumerationen eftersom den inte stöder Gateway för dataflytt. Om du har en annan prenumerationsnivå och inte vill använda Gateway för dataflytt väljer du Inget. Information om fördelarna med Gateway för dataflytt och användningsfall som kräver det finns i Qlik Data Gateway – dataflytt.
Startdatum	Ange det datum, i formatet `MM/DD/YYYY`, från vilket data måste replikeras från din källa till ditt mål.
Klient-e-post	Klient-e-post från tjänstkontots JSON-nyckelfil.
Projekt-ID	Projekt-ID från tjänstkontots JSON-nyckelfil.
Bucket	Namnet på den Google Cloud Storage (GCS)-bucket där filerna lagras, till exempel `my-gcs-bucket`. Inkludera inte prefixet `gs://`.
Tabeller	Konfigurera tabeller för att styra vilka filer som läses och hur deras innehåll tolkas. Varje tabelldefinition inkluderar ett filsökmönster, ett tabellnamn och valfria inställningar för avancerat beteende.
Privat nyckel	Privat nyckel från tjänstkontots JSON-nyckelfil.

Tabellkonfiguration

Varje post i tabellkonfigurationen anger en logisk tabell som skapats från filer i mål-bucket. Du kan konfigurera följande egenskaper för varje tabell:

Egenskap	Obligatorisk eller valfri	Beskrivning
Tabellnamn	Obligatorisk	Ange ett namn för den logiska tabellen, till exempel `my_orders_csv`. Detta namn kommer att visas som namnet på strömmen i Qlik Talend Cloud.
Sökmönster	Obligatorisk	Ange ett reguljärt uttryck för att matcha filnamn, till exempel `.csv$` för att välja alla CSV-filer.
Sökprefix	Valfri	Ange ett sökvägsprefix i denna bucket för att begränsa filsökningen, till exempel `exports/orders/`. Att använda ett prefix förbättrar prestandan genom att begränsa antalet skannade filer.
Nyckelegenskaper	Valfri	Lista ett eller flera kolumnnamn, separerade med kommatecken, för att definiera primärnyckeln. Till exempel: `id` eller `id,date`.
Datumåsidosättningar	Valfri	Lista kolumnnamn, separerade med kommatecken, som ska behandlas som datum-tidsfält. Använd det här alternativet om dessa fält inte upptäcks automatiskt under schemaupptäckten.
Avgränsare	Valfri	Ange det tecken som separerar värden i dina filer. Standard är `,` (komma). Använd `\t` för tabbavgränsade (TSV) filer eller `\|` för rörseparerade (PSV) filer. Om det lämnas tomt upptäcker systemet automatiskt avgränsaren baserat på filändelsen.

Tabeller som replikeras

Tabeller skapas baserat på tabellkonfigurationen (se ovan). Varje tabell motsvarar en uppsättning filer i Google Cloud Storage (GCS)-bucket som matchar både det angivna sökmönstret och eventuellt valfritt prefix. Denna koppling upptäcker automatiskt scheman genom att sampla upp till 5 filer per tabell, läsa var femte rad, med maximalt 1 000 poster per fil.

Denna replikering är inkrementell och använder filändringars tidsmarkör för att spåra ändringar. Under varje extrahering bearbetar denna koppling endast de filer som har ändrats sedan den senaste framgångsrika synkroniseringen, som registrerats av synkroniseringsbokmärket.

Följande systemkolumner läggs till i varje tabell som standard:

Kolumn	Beskrivning
`_sdc_source_bucket`	Namnet på den Google Cloud Storage (GCS)-bucket där posten lästes.
`_sdc_source_file`	Den fullständiga sökvägen till filen som innehåller posten.
`_sdc_source_lineno`	Radnumret för posten i filen.
`_sdc_extra`	Eventuella extra kolumner som hittades under tolkningen och som inte matchar det upptäckta schemat. Gäller endast JSONL-filer.

Begränsningar och överväganden

Tjänstkontots inloggningsuppgifter (project_id, client_email, private_key) måste anges som individuella värden extraherade från JSON-nyckelfilen; filuppladdning stöds inte.
Gzip-komprimerade filer (.gz) stöds. Denna koppling läser det ursprungliga filnamnet från gzip-huvudet för att fastställa det inre filformatet. Gzip-filer som skapats med --no-name (inget filnamn lagrat i huvudet) hoppas över.
Nästlad komprimering (till exempel en .gz inuti en annan .gz eller en .zip inuti en .zip) stöds inte. Dessa filer hoppas över.
Filer med filändelserna .csv, .txt, .tsv, .psv eller .jsonl kontrolleras för gzip-magiska byte och dekomprimeras om de är gzip-komprimerade – även när filen inte har filändelsen .gz.
Fältet search_pattern använder syntax för reguljära uttryck, inte glob-mönster. Använd till exempel \.csv$ istället för *.csv.
Denna koppling har inbyggd logik för nya försök med exponentiell backoff för Google Cloud Storage (GCS) API-hastighetsgränser (429) och tillfälliga serverfel (500, 502, 503, 504). Upp till fem försök görs innan det misslyckas.
Filer utan en igenkänd filändelse hoppas över och en varning utfärdas.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här