Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Schreiben von Daten in ein cloudbasiertes Data Warehouse (Snowflake)

Vorbereitungen

  • Sie haben die Datei financial_transactions.avro heruntergeladen und sie in Ihr Amazon S3-Bucket hochgeladen.

  • Sie haben die unter Schreiben von Daten in einen Cloud-Speicher (S3) beschriebene Pipeline reproduziert und dupliziert und arbeiten jetzt mit dieser duplizierten Pipeline.
  • Sie haben eine Remote Engine Gen2 sowie das zugehörige Ausführungsprofil über Talend Management Console erstellt.

    In Talend Management Console sind standardmäßig die Cloud Engine for Design und ein entsprechendes Ausführungsprofil integriert. Dadurch können die Benutzer in kürzester Zeit ihre Arbeit mit der Anwendung aufnehmen. Es wird jedoch empfohlen, die sichere Remote Engine Gen2 zu installieren, die eine erweiterte Datenverarbeitung ermöglicht.

Prozedur

  1. Klicken Sie auf der Homepage von Talend Cloud Pipeline Designer auf Connections (Verbindungen) > Add connection (Verbindung hinzufügen).
  2. Wählen Sie in dem Fenster, das geöffnet wird, die Option Snowflake aus und klicken Sie auf Next (Weiter).
  3. Wählen Sie in der Liste Engine Ihre Remote Engine Gen2 aus.
  4. Geben Sie die JDBC-URL Ihrer Datenbank und die entsprechenden Anmeldedaten ein.
  5. Prüfen Sie bei Bedarf die Verbindung und klicken Sie dann auf Next (Weiter).
  6. Geben Sie einen Namen für die Verbindung an, z. B. Snowflake connection (Snowflake-Verbindung), und klicken Sie auf Validate (Validieren).
  7. Klicken Sie auf Add dataset (Datensatz hinzufügen) und geben Sie die Verbindungsinformationen für Ihre Snowflake-Tabelle ein:
    1. Geben Sie einen Anzeigenamen für den Datensatz ein, z. B. financial data on Snowflake (Finanzdaten in Snowflake).
    2. Wählen Sie in der Liste Type (Typ) den Eintrag Table or view name (Tabellen- oder Ansichtsname) aus.
    3. Wählen Sie in der Liste Table name (Tabellenname) den Namen der Snowflake-Tabelle aus bzw. geben Sie ihn ein.
    4. Wählen Sie im Feld Column selection (Tabellenauswahl) die Tabellenspalten aus, die abgerufen werden sollen, oder klicken Sie auf Select all (Alle auswählen), um alle vorhandenen Spalten abzurufen. In diesem Beispiel wurden 2 Felder ausgewählt: transaction_amount (Transaktion_Betrag) und transaction_code (Transaktion_Code).
  8. Klicken Sie auf View sample (Sample anzeigen), um zu prüfen, ob die Daten gültig sind und in der Vorschau angezeigt werden können.
    Vorschau des Datenbeispiels „Snowflake“.
  9. Klicken Sie auf Validate (Validieren), um den Datensatz zu speichern. Der neue Datensatz wird der Liste auf der Seite Datasets (Datensätze) hinzugefügt und kann jetzt in Ihrer Pipeline als Zieldatensatz verwendet werden.
    Eine Pipeline mit einer S3-Quelle, einem Prozessor vom Typ „Python 3“, einem Prozessor vom Typ „Filter“, einem Prozessor vom Typ „Aggregate (Aggregieren)“ und einem Snowflake-Ziel.
  10. Wählen Sie vor der Ausführung der Pipeline Upsert auf der Konfigurationsregisterkarte des Snowflake-Datensatzes aus, um die Snowflake-Tabelle zu aktualisieren und die neuen Daten einzufügen. Legen Sie das Feld transaction_amount (Transaktion_Betrag) als Operationsschlüssel fest.
    Der Fensterbereich mit der Snowflake-Zielkonfiguration zeigt die ausgewählte Aktion „Upsert“.
  11. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  12. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Sobald die Pipeline ausgeführt wird, werden die aktualisierten Daten in der Snowflake-Datenbanktabelle angezeigt.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!