Google Cloud Storage

Google Cloud Storage ist der vereinheitlichte Objektspeicherdienst von Google zum Speichern und Zugreifen auf Daten in der Google Cloud-Infrastruktur. Er bietet hohe Verfügbarkeit und globale Redundanz und ist in das breitere Google Cloud-Ökosystem integriert.

Qlik Talend Cloud verwendet ein Google Cloud-Dienstkonto mit Lesezugriff auf den Ziel-Bucket, um eine Verbindung zu Google Cloud Storage (GCS) herzustellen. Der Konnektor ruft Dateien aus dem angegebenen Bucket ab, erkennt Schemas automatisch durch Stichproben des Dateiinhalts und führt eine inkrementelle Datenreplikation basierend auf Dateimodifikations-Zeitstempeln durch.

Ein Überblick über diesen Konnektor, einschließlich nützlicher Links und unterstützter Funktionen.

Funktion/Fähigkeit	Details zur Unterstützung
Unterstützte Qlik Talend Data Integration-Projekte	Nur Replikationsprojekte. Daten-Pipeline-Projekte werden nicht unterstützt.
Methoden zur Zielaktualisierung	Replikationsaufgaben: Änderungen anwenden Änderungen speichern Aufgaben zum Bereitstellen von Daten in einem Data Lake: Change Data Capture (CDC)
Verwalten von Metadaten	Die manuelle Erstellung von Metadaten ist nicht erforderlich.
Schemaentwicklung	Nur der Vorgang Spaltendatentyp ändern wird unterstützt.
Replikation von LOB-Spalten (NCLOB, CLOB und BLOB)	Nicht unterstützt.
Geplante CDC	Erforderlich. Auf diese Weise wird das Ziel mit den Änderungen an der Quelle aktualisiert gehalten. Für Replikationsaufgaben siehe Planen von Aufgaben Für Lake-Bereitstellungsaufgaben siehe Planen von CDC für Lake-Bereitstellungsaufgaben
Benachrichtigungen	Teilweise unterstützt Einrichten von Benachrichtigungen für Änderungen am Betrieb
Überwachung	Nur CDC, da vollständiges Laden für diesen Konnektor nicht relevant ist. Überwachen einer einzelnen Datenaufgabe
Automatisches Entschachteln von JSON-Spaltennutzlasten	Nicht unterstützt. JSON-Spaltennutzlasten in Quelldatensätzen werden im Ziel nicht automatisch entschachtelt.

Vorbereiten der Authentifizierung

Für den Zugriff auf Ihre Daten müssen Sie die Verbindung mit Ihren Anmeldeinformationen authentifizieren.

Vergewissern Sie sich, dass das verwendete Konto Lesezugriff auf die Tabellen hat, die Sie abrufen möchten.

Um Ihr Google Cloud Storage-Konto einzurichten, benötigen Sie:

Ein Google Cloud Platform (GCP)-Projekt mit aktivierter Cloud Storage-API.
Einen Google Cloud Storage (GCS)-Bucket, der die zu replizierenden Dateien enthält.
Ein Dienstkonto mit Lesezugriff auf den Bucket.
Die empfohlene Rolle ist Storage Object Viewer (roles/storage.objectViewer), die die erforderlichen Berechtigungen storage.objects.get und storage.objects.list gewährt. Weitere Informationen finden Sie in der Dokumentation zu IAM-Rollen für Google Cloud Storage.
Eine für das Dienstkonto heruntergeladene JSON-Schlüsseldatei des Dienstkontos.

So erstellen Sie ein Dienstkonto und rufen Ihre Anmeldeinformationen ab:

Melden Sie sich bei Ihrem Google Cloud-Konto an.
Navigieren Sie zu IAM & Admin > Service Accounts.
Klicken Sie auf Create Service Account.
Geben Sie einen Namen und eine Beschreibung für das Dienstkonto ein und klicken Sie dann auf Create and Continue.
Weisen Sie dem Dienstkonto die Rolle Storage Object Viewer oder eine benutzerdefinierte Rolle mit den Berechtigungen storage.objects.get und storage.objects.list zu.
Klicken Sie auf Continue und Done.
Klicken Sie in Ihrem neu erstellten Dienstkonto auf das Menü Actions.
Navigieren Sie zu Manage keys > Add key > Create new key.
Wählen Sie JSON aus, und klicken Sie auf Create.
Die JSON-Schlüsseldatei wird direkt auf Ihren Computer heruntergeladen. Diese Datei enthält die Felder project_id, client_email und private_key, die zum Herstellen der Verbindung erforderlich sind.
Sie können die Schlüsseldatei nur einmal herunterladen. Stellen Sie sicher, dass Sie sie sicher speichern und sichern, da sie Zugriff auf Ihre Google Cloud-Ressourcen bietet.

Unterstützte Dateiformate

Textdateien mit Trennzeichen: CSV, TSV, PSV, TXT (mit konfigurierbarem Trennzeichen)
JSON Lines (.jsonl)
Parquet (.parquet)
Avro (.avro)
Gzip-komprimierte Dateien (.gz), die eines der oben genannten Formate enthalten
ZIP-Archive, die CSV-, JSON Lines-, TXT-, TSV-, PSV- oder Gzip-Dateien enthalten

Erstellen der Verbindung

Weitere Informationen finden Sie unter Herstellung einer Verbindung zu SaaS-Anwendungen.

Füllen Sie die erforderlichen Verbindungseigenschaften aus.
Geben Sie einen Namen für die Verbindung in Verbindungsname ein.
Wählen Sie Verbindungsmetadaten öffnen aus, um nach der Erstellung Metadaten für die Verbindung zu definieren.
Klicken Sie auf Erstellen.

Verbindungseinstellungen
Einstellung	Beschreibung
Daten-Gateway	Wählen Sie ein Data Movement Gateway aus, wenn dies für Ihren Anwendungsfall erforderlich ist. Informationshinweis Dieses Feld ist für das Qlik Talend Cloud Starter-Abonnement nicht verfügbar, da dieses Abonnement Data Movement Gateway nicht unterstützt. Wenn Sie eine andere Abonnementstufe haben und Data Movement Gateway nicht verwenden möchten, wählen Sie Keine. Weitere Informationen zu den Vorteilen von Data Movement Gateway und den Anwendungsfällen, in denen es erforderlich ist, finden Sie unter Qlik Data Gateway – Datenbewegung.
Startdatum	Geben Sie das Datum im Format `MM/DD/YYYY` ein, ab dem die Daten von der Quelle zum Ziel repliziert werden müssen.
Client-E-Mail	Client-E-Mail aus der JSON-Schlüsseldatei des Dienstkontos.
Projekt-ID	Projekt-ID aus der JSON-Schlüsseldatei des Dienstkontos.
Bucket	Name des Google Cloud Storage (GCS)-Buckets, in dem die Dateien gespeichert sind, zum Beispiel `my-gcs-bucket`. Schließen Sie nicht das Präfix `gs://` ein.
Tabellen	Konfigurieren Sie Tabellen, um zu bestimmen, welche Dateien gelesen und wie deren Inhalte interpretiert werden. Jede Tabellendefinition umfasst ein Dateisuchmuster, einen Tabellennamen und optionale Einstellungen für erweitertes Verhalten.
Privatschlüssel	Privatschlüssel aus der JSON-Schlüsseldatei des Dienstkontos.

Tabellenkonfiguration

Jeder Eintrag in der Tabellenkonfiguration gibt eine logische Tabelle an, die aus Dateien im Ziel-Bucket erstellt wurde. Die folgenden Eigenschaften können für jede Tabelle konfiguriert werden:

Eigenschaft	Erforderlich oder Optional	Beschreibung
Tabellenname	Erforderlich	Geben Sie den Namen der logischen Tabelle an, zum Beispiel `my_orders_csv`. Dieser Name wird als Stream-Name in Qlik Talend Cloud angezeigt.
Suchmuster	Erforderlich	Geben Sie einen regulären Ausdruck ein, um Dateinamen abzugleichen, z. B. `.csv$`, um alle CSV-Dateien auszuwählen.
Suchpräfix	Optional	Geben Sie ein Pfadpräfix innerhalb des Buckets an, um die Dateisuche einzugrenzen, zum Beispiel `exports/orders/`. Durch die Verwendung eines Präfix wird die Leistung verbessert, da die Anzahl der gescannten Dateien begrenzt wird.
Schlüsseleigenschaften	Optional	Listen Sie einen oder mehrere durch Kommas getrennte Spaltennamen auf, um den Primärschlüssel zu definieren. Zum Beispiel: `id` oder `id,date`.
Datumsüberschreibungen	Optional	Listen Sie durch Kommas getrennte Spaltennamen auf, die als Datums-/Uhrzeitfelder behandelt werden sollen. Verwenden Sie diese Option, wenn diese Felder während der Schemaerkennung nicht automatisch erkannt werden.
Trennzeichen	Optional	Geben Sie das Zeichen an, das Werte in Ihren Dateien trennt. Das Standardzeichen ist `,` (Komma). Verwenden Sie `\t` für tabulatorgetrennte Dateien (TSV) oder `\|` für durch einen senkrechten Strich getrennte Dateien (PSV). Wenn Sie das Feld leer lassen, erkennt das System das Trennzeichen automatisch basierend auf der Dateierweiterung.

Replizierte Tabellen

Tabellen werden basierend auf der Tabellenkonfiguration erstellt (siehe oben). Jede Tabelle entspricht einem Satz von Dateien im Google Cloud Storage (GCS)-Bucket, die sowohl dem angegebenen Suchmuster als auch einem optionalen Präfix entsprechen. Der Konnektor ermittelt Schemas automatisch, indem er bis zu fünf Dateien pro Tabelle stichprobenartig auswählt, jede fünfte Zeile liest und bis zu 1.000 Datensätze pro Datei analysiert.

Die Replikation ist inkrementell und verwendet Dateimodifikations-Zeitstempel, um Änderungen zu verfolgen. Bei jeder Extraktion verarbeitet der Konnektor nur die Dateien, die seit der letzten erfolgreichen Synchronisierung geändert wurden, wie im Synchronisierungs-Lesezeichen aufgezeichnet.

Die folgenden Systemspalten werden standardmäßig zu jeder Tabelle hinzugefügt:

Spalte	Beschreibung
`_sdc_source_bucket`	Der Name des Google Cloud Storage (GCS)-Buckets, in dem der Datensatz gelesen wurde.
`_sdc_source_file`	Der vollständige Pfad der Datei, die den Datensatz enthält.
`_sdc_source_lineno`	Die Zeilennummer des Datensatzes in der Datei.
`_sdc_extra`	Alle zusätzlichen Spalten, die während der Analyse gefunden wurden und nicht dem erkannten Schema entsprechen. Gilt nur für JSONL-Dateien.

Einschränkungen und Überlegungen

Dienstkonto-Anmeldeinformationen (project_id, client_email, private_key) müssen als einzelne Werte bereitgestellt werden, die aus der JSON-Schlüsseldatei extrahiert wurden; der Dateiupload wird nicht unterstützt.
Gzip-komprimierte Dateien (.gz) werden unterstützt. Der Konnektor liest den ursprünglichen Dateinamen aus dem Gzip-Header, um das interne Dateiformat zu bestimmen. Gzip-Dateien, die mit --no-name erstellt wurden (kein Dateiname im Header gespeichert), werden übersprungen.
Verschachtelte Komprimierung (zum Beispiel eine .gz-Datei in einer anderen .gz-Datei oder eine .zip innerhalb einer .zip) wird nicht unterstützt und übersprungen. Diese Dateien werden übersprungen.
Dateien mit den Erweiterungen .csv, .txt, .tsv, .psv oder .jsonl werden auf Gzip-Magic-Bytes überprüft und dekomprimiert, wenn sie gzip-komprimiert sind, selbst wenn die Datei keine .gz-Erweiterung enthält.
Das Feld search_pattern verwendet Syntax für reguläre Ausdrücke, keine Glob-Muster. Verwenden Sie beispielsweise \.csv$ anstelle von *.csv.
Der Konnektor verfügt über eine integrierte Wiederholungslogik mit exponentiellem Backoff für Google Cloud Storage (GCS) API-Ratenbegrenzungen (429) und temporäre Serverfehler (500, 502, 503, 504). Es werden bis zu fünf Versuche unternommen, bevor ein Fehler auftritt.
Dateien ohne erkannte Erweiterung werden übersprungen und eine Warnung wird ausgegeben.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab