Google Cloud Storage | Qlik Cloud Hilfe
Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Google Cloud Storage  

Google Cloud Storage ist der vereinheitlichte Objektspeicherdienst von Google zum Speichern und Zugreifen auf Daten in der Google Cloud-Infrastruktur. Er bietet hohe Verfügbarkeit und globale Redundanz und ist in das breitere Google Cloud-Ökosystem integriert.

Qlik Talend Cloud verwendet ein Google Cloud-Dienstkonto mit Lesezugriff auf den Ziel-Bucket, um eine Verbindung zu Google Cloud Storage (GCS) herzustellen. Der Konnektor ruft Dateien aus dem angegebenen Bucket ab, erkennt Schemas automatisch durch Stichproben des Dateiinhalts und führt eine inkrementelle Datenreplikation basierend auf Dateimodifikations-Zeitstempeln durch.

Vorbereiten der Authentifizierung

Für den Zugriff auf Ihre Daten müssen Sie die Verbindung mit Ihren Anmeldeinformationen authentifizieren.

InformationshinweisVergewissern Sie sich, dass das verwendete Konto Lesezugriff auf die Tabellen hat, die Sie abrufen möchten.

Um Ihr Google Cloud Storage-Konto einzurichten, benötigen Sie:

  • Ein Google Cloud Platform (GCP)-Projekt mit aktivierter Cloud Storage-API.
  • Einen Google Cloud Storage (GCS)-Bucket, der die zu replizierenden Dateien enthält.
  • Ein Dienstkonto mit Lesezugriff auf den Bucket.

    Die empfohlene Rolle ist Storage Object Viewer (roles/storage.objectViewer), die die erforderlichen Berechtigungen storage.objects.get und storage.objects.list gewährt. Weitere Informationen finden Sie in der Dokumentation zu IAM-Rollen für Google Cloud Storage.

  • Eine für das Dienstkonto heruntergeladene JSON-Schlüsseldatei des Dienstkontos.

So erstellen Sie ein Dienstkonto und rufen Ihre Anmeldeinformationen ab:

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an.
  2. Navigieren Sie zu IAM & Admin > Service Accounts.
  3. Klicken Sie auf Create Service Account.
  4. Geben Sie einen Namen und eine Beschreibung für das Dienstkonto ein und klicken Sie dann auf Create and Continue.
  5. Weisen Sie dem Dienstkonto die Rolle Storage Object Viewer oder eine benutzerdefinierte Rolle mit den Berechtigungen storage.objects.get und storage.objects.list zu.
  6. Klicken Sie auf Continue und Done.
  7. Klicken Sie in Ihrem neu erstellten Dienstkonto auf das Menü Actions.
  8. Navigieren Sie zu Manage keys > Add key > Create new key.
  9. Wählen Sie JSON aus, und klicken Sie auf Create.

    Die JSON-Schlüsseldatei wird direkt auf Ihren Computer heruntergeladen. Diese Datei enthält die Felder project_id, client_email und private_key, die zum Herstellen der Verbindung erforderlich sind.

    Sie können die Schlüsseldatei nur einmal herunterladen. Stellen Sie sicher, dass Sie sie sicher speichern und sichern, da sie Zugriff auf Ihre Google Cloud-Ressourcen bietet.

Unterstützte Dateiformate

  • Textdateien mit Trennzeichen: CSV, TSV, PSV, TXT (mit konfigurierbarem Trennzeichen)
  • JSON Lines (.jsonl)
  • Parquet (.parquet)
  • Avro (.avro)
  • Gzip-komprimierte Dateien (.gz), die eines der oben genannten Formate enthalten
  • ZIP-Archive, die CSV-, JSON Lines-, TXT-, TSV-, PSV- oder Gzip-Dateien enthalten

Erstellen der Verbindung

Weitere Informationen finden Sie unter Herstellung einer Verbindung zu SaaS-Anwendungen.

  1. Füllen Sie die erforderlichen Verbindungseigenschaften aus.
  2. Geben Sie einen Namen für die Verbindung in Verbindungsname ein.

  3. Wählen Sie Verbindungsmetadaten öffnen aus, um nach der Erstellung Metadaten für die Verbindung zu definieren.

  4. Klicken Sie auf Erstellen.

Verbindungseinstellungen
Einstellung Beschreibung
Daten-Gateway

Wählen Sie ein Data Movement Gateway aus, wenn dies für Ihren Anwendungsfall erforderlich ist.

Informationshinweis

Dieses Feld ist für das Qlik Talend Cloud Starter-Abonnement nicht verfügbar, da dieses Abonnement Data Movement Gateway nicht unterstützt. Wenn Sie eine andere Abonnementstufe haben und Data Movement Gateway nicht verwenden möchten, wählen Sie Keine.

Weitere Informationen zu den Vorteilen von Data Movement Gateway und den Anwendungsfällen, in denen es erforderlich ist, finden Sie unter Qlik Data Gateway – Datenbewegung.

Startdatum

Geben Sie das Datum im Format MM/DD/YYYY ein, ab dem die Daten von der Quelle zum Ziel repliziert werden müssen.

Client-E-Mail Client-E-Mail aus der JSON-Schlüsseldatei des Dienstkontos.
Projekt-ID Projekt-ID aus der JSON-Schlüsseldatei des Dienstkontos.
Bucket Name des Google Cloud Storage (GCS)-Buckets, in dem die Dateien gespeichert sind, zum Beispiel my-gcs-bucket.

Schließen Sie nicht das Präfix gs:// ein.

Tabellen Konfigurieren Sie Tabellen, um zu bestimmen, welche Dateien gelesen und wie deren Inhalte interpretiert werden. Jede Tabellendefinition umfasst ein Dateisuchmuster, einen Tabellennamen und optionale Einstellungen für erweitertes Verhalten.
Privatschlüssel Privatschlüssel aus der JSON-Schlüsseldatei des Dienstkontos.

Tabellenkonfiguration

Jeder Eintrag in der Tabellenkonfiguration gibt eine logische Tabelle an, die aus Dateien im Ziel-Bucket erstellt wurde. Die folgenden Eigenschaften können für jede Tabelle konfiguriert werden:

Eigenschaft Erforderlich oder Optional Beschreibung
Tabellenname Erforderlich Geben Sie den Namen der logischen Tabelle an, zum Beispiel my_orders_csv. Dieser Name wird als Stream-Name in Qlik Talend Cloud angezeigt.
Suchmuster Erforderlich Geben Sie einen regulären Ausdruck ein, um Dateinamen abzugleichen, z. B. .csv$, um alle CSV-Dateien auszuwählen.
Suchpräfix Optional Geben Sie ein Pfadpräfix innerhalb des Buckets an, um die Dateisuche einzugrenzen, zum Beispiel exports/orders/. Durch die Verwendung eines Präfix wird die Leistung verbessert, da die Anzahl der gescannten Dateien begrenzt wird.
Schlüsseleigenschaften Optional Listen Sie einen oder mehrere durch Kommas getrennte Spaltennamen auf, um den Primärschlüssel zu definieren. Zum Beispiel: id oder id,date.
Datumsüberschreibungen Optional Listen Sie durch Kommas getrennte Spaltennamen auf, die als Datums-/Uhrzeitfelder behandelt werden sollen. Verwenden Sie diese Option, wenn diese Felder während der Schemaerkennung nicht automatisch erkannt werden.
Trennzeichen Optional Geben Sie das Zeichen an, das Werte in Ihren Dateien trennt. Das Standardzeichen ist , (Komma). Verwenden Sie \t für tabulatorgetrennte Dateien (TSV) oder | für durch einen senkrechten Strich getrennte Dateien (PSV). Wenn Sie das Feld leer lassen, erkennt das System das Trennzeichen automatisch basierend auf der Dateierweiterung.

Replizierte Tabellen

Tabellen werden basierend auf der Tabellenkonfiguration erstellt (siehe oben). Jede Tabelle entspricht einem Satz von Dateien im Google Cloud Storage (GCS)-Bucket, die sowohl dem angegebenen Suchmuster als auch einem optionalen Präfix entsprechen. Der Konnektor ermittelt Schemas automatisch, indem er bis zu fünf Dateien pro Tabelle stichprobenartig auswählt, jede fünfte Zeile liest und bis zu 1.000 Datensätze pro Datei analysiert.

Die Replikation ist inkrementell und verwendet Dateimodifikations-Zeitstempel, um Änderungen zu verfolgen. Bei jeder Extraktion verarbeitet der Konnektor nur die Dateien, die seit der letzten erfolgreichen Synchronisierung geändert wurden, wie im Synchronisierungs-Lesezeichen aufgezeichnet.

Die folgenden Systemspalten werden standardmäßig zu jeder Tabelle hinzugefügt:

Spalte Beschreibung
_sdc_source_bucket Der Name des Google Cloud Storage (GCS)-Buckets, in dem der Datensatz gelesen wurde.
_sdc_source_file Der vollständige Pfad der Datei, die den Datensatz enthält.
_sdc_source_lineno Die Zeilennummer des Datensatzes in der Datei.
_sdc_extra Alle zusätzlichen Spalten, die während der Analyse gefunden wurden und nicht dem erkannten Schema entsprechen. Gilt nur für JSONL-Dateien.

Einschränkungen und Überlegungen

  • Dienstkonto-Anmeldeinformationen (project_id, client_email, private_key) müssen als einzelne Werte bereitgestellt werden, die aus der JSON-Schlüsseldatei extrahiert wurden; der Dateiupload wird nicht unterstützt.
  • Gzip-komprimierte Dateien (.gz) werden unterstützt. Der Konnektor liest den ursprünglichen Dateinamen aus dem Gzip-Header, um das interne Dateiformat zu bestimmen. Gzip-Dateien, die mit --no-name erstellt wurden (kein Dateiname im Header gespeichert), werden übersprungen.
  • Verschachtelte Komprimierung (zum Beispiel eine .gz-Datei in einer anderen .gz-Datei oder eine .zip innerhalb einer .zip) wird nicht unterstützt und übersprungen. Diese Dateien werden übersprungen.
  • Dateien mit den Erweiterungen .csv, .txt, .tsv, .psv oder .jsonl werden auf Gzip-Magic-Bytes überprüft und dekomprimiert, wenn sie gzip-komprimiert sind, selbst wenn die Datei keine .gz-Erweiterung enthält.
  • Das Feld search_pattern verwendet Syntax für reguläre Ausdrücke, keine Glob-Muster. Verwenden Sie beispielsweise \.csv$ anstelle von *.csv.
  • Der Konnektor verfügt über eine integrierte Wiederholungslogik mit exponentiellem Backoff für Google Cloud Storage (GCS) API-Ratenbegrenzungen (429) und temporäre Serverfehler (500, 502, 503, 504). Es werden bis zu fünf Versuche unternommen, bevor ein Fehler auftritt.
  • Dateien ohne erkannte Erweiterung werden übersprungen und eine Warnung wird ausgegeben.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!