Google Cloud Storage | Qlik CloudHjälp
Gå till huvudinnehåll Gå till ytterligare innehåll

Google Cloud Storage 

Google Cloud Storage är Googles enhetliga objektlagringstjänst för att lagra och komma åt data i Google Cloud-infrastrukturen. Den erbjuder hög tillgänglighet, global redundans och integreras med det bredare Google Cloud-ekosystemet.

Qlik Talend Cloud använder ett Google Cloud-tjänstkonto med läsbehörighet till mål-bucket för att ansluta till Google Cloud Storage (GCS). Denna koppling hämtar filer från den angivna bucket, upptäcker automatiskt scheman genom att sampla filinnehåll och utför inkrementell datareplikering baserat på filändringars tidsmarkör.

Förbereda för autentisering

För att komma åt dina data måste du autentisera denna koppling med dina kontouppgifter.

Anteckning om informationKontrollera att kontot du använder har läsåtkomst till de tabeller som du vill hämta.

För att konfigurera ditt Google Cloud Storage-konto behöver du:

  • Ett Google Cloud Platform (GCP)-projekt med Cloud Storage API aktiverat.
  • En Google Cloud Storage (GCS)-bucket som innehåller filerna som ska replikeras.
  • Ett tjänstkonto med läsbehörighet till denna bucket.

    Den rekommenderade rollen är Storage Object Viewer (roles/storage.objectViewer), vilket ger de nödvändiga behörigheterna storage.objects.get och storage.objects.list. För mer information, se dokumentationen för Google Cloud Storage IAM-roller .

  • En JSON-nyckelfil som hämtats för tjänstkontot.

För att skapa ett tjänstkonto och hämta dina inloggningsuppgifter:

  1. Logga in på ditt Google Cloud-konto.
  2. Navigera till IAM & Admin > Service Accounts.
  3. Klicka på Skapa tjänstkonto.
  4. Ange ett namn och en beskrivning för tjänstkontot och klicka sedan på Skapa och fortsätt.
  5. Ge tjänstkontot rollen Storage Object Viewer eller en anpassad roll med behörigheterna storage.objects.get och storage.objects.list.
  6. Klicka på Fortsätt och Klar.
  7. I ditt nyskapade tjänstkonto klickar du på menyn Åtgärder.
  8. Navigera till Hantera nycklar > Lägg till nyckel > Skapa ny nyckel.
  9. Välj JSON och klicka på Skapa.

    JSON-nyckelfilen hämtas direkt till din maskin. Den här filen innehåller fälten project_id, client_email och private_key som krävs för att upprätta denna koppling.

    Du kan bara hämta nyckelfilen en gång. Se till att lagra den säkert och säkerhetskopiera den, eftersom den ger åtkomst till dina Google Cloud-resurser.

Filformat som stöds

  • Avgränsad text: CSV, TSV, PSV, TXT (med konfigurerbar avgränsare)
  • JSON Lines (.jsonl)
  • Parquet (.parquet)
  • Avro (.avro)
  • Gzip-komprimerade filer (.gz) som innehåller något av ovanstående format
  • ZIP-arkiv som innehåller CSV-, JSON Lines-, TXT-, TSV-, PSV- eller Gzip-filer

Skapa denna koppling

Mer information finns i Koppla till SaaS-program.

  1. Ange de kopplingsegenskaper som krävs.
  2. Ange ett namn på kopplingen i Kopplingsnamn.

  3. Välj Öppna kopplingsmetadata för att definiera metadata för kopplingen när den har skapats.

  4. Klicka på Skapa.

Kopplingsinställningar
Inställning Beskrivning
Datagateway

Välj en Gateway för dataflytt om det krävs för ditt användningsfall.

Anteckning om information

Detta fält är inte tillgängligt med Qlik Talend Cloud Starter-prenumerationen eftersom den inte stöder Gateway för dataflytt. Om du har en annan prenumerationsnivå och inte vill använda Gateway för dataflytt väljer du Inget.

Information om fördelarna med Gateway för dataflytt och användningsfall som kräver det finns i Qlik Data Gateway – dataflytt.

Startdatum

Ange det datum, i formatet MM/DD/YYYY, från vilket data måste replikeras från din källa till ditt mål.

Klient-e-post Klient-e-post från tjänstkontots JSON-nyckelfil.
Projekt-ID Projekt-ID från tjänstkontots JSON-nyckelfil.
Bucket Namnet på den Google Cloud Storage (GCS)-bucket där filerna lagras, till exempel my-gcs-bucket.

Inkludera inte prefixet gs://.

Tabeller Konfigurera tabeller för att styra vilka filer som läses och hur deras innehåll tolkas. Varje tabelldefinition inkluderar ett filsökmönster, ett tabellnamn och valfria inställningar för avancerat beteende.
Privat nyckel Privat nyckel från tjänstkontots JSON-nyckelfil.

Tabellkonfiguration

Varje post i tabellkonfigurationen anger en logisk tabell som skapats från filer i mål-bucket. Du kan konfigurera följande egenskaper för varje tabell:

Egenskap Obligatorisk eller valfri Beskrivning
Tabellnamn Obligatorisk Ange ett namn för den logiska tabellen, till exempel my_orders_csv. Detta namn kommer att visas som namnet på strömmen i Qlik Talend Cloud.
Sökmönster Obligatorisk Ange ett reguljärt uttryck för att matcha filnamn, till exempel .csv$ för att välja alla CSV-filer.
Sökprefix Valfri Ange ett sökvägsprefix i denna bucket för att begränsa filsökningen, till exempel exports/orders/. Att använda ett prefix förbättrar prestandan genom att begränsa antalet skannade filer.
Nyckelegenskaper Valfri Lista ett eller flera kolumnnamn, separerade med kommatecken, för att definiera primärnyckeln. Till exempel: id eller id,date.
Datumåsidosättningar Valfri Lista kolumnnamn, separerade med kommatecken, som ska behandlas som datum-tidsfält. Använd det här alternativet om dessa fält inte upptäcks automatiskt under schemaupptäckten.
Avgränsare Valfri Ange det tecken som separerar värden i dina filer. Standard är , (komma). Använd \t för tabbavgränsade (TSV) filer eller | för rörseparerade (PSV) filer. Om det lämnas tomt upptäcker systemet automatiskt avgränsaren baserat på filändelsen.

Tabeller som replikeras

Tabeller skapas baserat på tabellkonfigurationen (se ovan). Varje tabell motsvarar en uppsättning filer i Google Cloud Storage (GCS)-bucket som matchar både det angivna sökmönstret och eventuellt valfritt prefix. Denna koppling upptäcker automatiskt scheman genom att sampla upp till 5 filer per tabell, läsa var femte rad, med maximalt 1 000 poster per fil.

Denna replikering är inkrementell och använder filändringars tidsmarkör för att spåra ändringar. Under varje extrahering bearbetar denna koppling endast de filer som har ändrats sedan den senaste framgångsrika synkroniseringen, som registrerats av synkroniseringsbokmärket.

Följande systemkolumner läggs till i varje tabell som standard:

Kolumn Beskrivning
_sdc_source_bucket Namnet på den Google Cloud Storage (GCS)-bucket där posten lästes.
_sdc_source_file Den fullständiga sökvägen till filen som innehåller posten.
_sdc_source_lineno Radnumret för posten i filen.
_sdc_extra Eventuella extra kolumner som hittades under tolkningen och som inte matchar det upptäckta schemat. Gäller endast JSONL-filer.

Begränsningar och överväganden

  • Tjänstkontots inloggningsuppgifter (project_id, client_email, private_key) måste anges som individuella värden extraherade från JSON-nyckelfilen; filuppladdning stöds inte.
  • Gzip-komprimerade filer (.gz) stöds. Denna koppling läser det ursprungliga filnamnet från gzip-huvudet för att fastställa det inre filformatet. Gzip-filer som skapats med --no-name (inget filnamn lagrat i huvudet) hoppas över.
  • Nästlad komprimering (till exempel en .gz inuti en annan .gz eller en .zip inuti en .zip) stöds inte. Dessa filer hoppas över.
  • Filer med filändelserna .csv, .txt, .tsv, .psv eller .jsonl kontrolleras för gzip-magiska byte och dekomprimeras om de är gzip-komprimerade – även när filen inte har filändelsen .gz.
  • Fältet search_pattern använder syntax för reguljära uttryck, inte glob-mönster. Använd till exempel \.csv$ istället för *.csv.
  • Denna koppling har inbyggd logik för nya försök med exponentiell backoff för Google Cloud Storage (GCS) API-hastighetsgränser (429) och tillfälliga serverfel (500, 502, 503, 504). Upp till fem försök görs innan det misslyckas.
  • Filer utan en igenkänd filändelse hoppas över och en varning utfärdas.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!