Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Verarbeiten von in Google Cloud Storage gespeicherten Statistikdaten und Hochladen der Daten in Amazon S3

Dieses Szenario soll Sie bei der Einrichtung und Verwendung von Konnektoren in einer Pipeline unterstützen. Es wird empfohlen, dass Sie das Szenario an Ihre Umgebung und Ihren Anwendungsfall anpassen.

Beispiel einer Pipeline, die anhand der nachfolgenden Anleitungen erstellt wurde.

Vorbereitungen

  • Wenn Sie dieses Szenario reproduzieren möchten, laden Sie folgende Datei herunter: gcstorage_s3_nyc_stats.xlsx . Diese Datei ist ein Auszug aus dem öffentlich zugänglichen Datensatz aus New York nyc-park-crime-stats-q4-2019.xlsx, der beliebigen Benutzern zur Verfügung steht.

Prozedur

  1. Klicken Sie auf Connections (Verbindungen) > Add connection (Verbindung hinzufügen).
  2. Wählen Sie den Typ der zu erstellenden Verbindung im daraufhin geöffneten Fenster aus.

    Example

    Google Cloud Storage
  3. Wählen Sie in der Liste Engine Ihre Engine aus.
    InformationshinweisAnmerkung:
    • Es wird empfohlen, die Remote Engine Gen2 und nicht die Cloud Engine for Design für eine erweiterte Datenverarbeitung einzusetzen.
    • Wenn keine Remote Engine Gen2 in Talend Management Console erstellt wurde bzw. diese vorhanden, aber als nicht verfügbar markiert ist, d. h. sie ist nicht aktiv und wird nicht ausgeführt, dann können Sie weder einen Connection type (Verbindungstyp) in der Liste auswählen noch die neue Verbindung speichern.
    • Die Liste der verfügbaren Verbindungstypen richtet sich nach der ausgewählten Engine.
  4. Wählen Sie den Typ der zu erstellenden Verbindung aus.
    Wählen Sie Google Cloud Storage aus.
  5. Geben Sie die JSON-Anmeldedaten für den Zugriff auf Ihr Google Cloud-Konto wie in Eigenschaften von Google Cloud Storage beschrieben ein, prüfen Sie die Verbindung und klicken Sie dann auf Add dataset (Datensatz hinzufügen).
  6. Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) einen Namen für Ihren Datensatz ein: NYC park crime stats crime (Statistiken zu Verbrechen in NYC-Parks).
  7. Geben Sie die erforderlichen Eigenschaften für den Zugriff auf die Datei in Ihrem Google Cloud Storage-Bucket ein und klicken Sie dann auf View sample (Sample anzeigen), um eine Vorschau Ihres Datensatz-Samples anzuzeigen.
    Konfiguration eines neuen Azure Data Lake Storage Gen2-Datensatzes.
  8. Klicken Sie auf Validate (Validieren), um den Datensatz zu speichern.
  9. Gehen Sie genauso vor, um die S3-Verbindung und den Datensatz hinzuzufügen, die als Ziel in Ihrer Pipeline fungieren sollen.
  10. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  11. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie Ihre Quelldaten auswählen können, in diesem Fall ein öffentlicher Datensatz mit Verbrechen in Parks von New York, der in einem Google Cloud Storage-Bucket gespeichert ist.
  12. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  13. Klicken Sie auf add processor (Prozessor hinzufügen) und fügen Sie einen Prozessor des Typs Math (Mathematik) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  14. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    calculate acre square root (Acre-Quadratwurzel berechnen)
  15. Konfigurieren Sie den Prozessor:
    1. Wählen Sie Square root (Quadratwurzel) in der Liste Function name (Funktionsname) aus, da die Quadratwurzel des Felds SIZE__ACRES_ (GRÖSSE ACRES) berechnet werden soll.
    2. Wählen Sie .SIZE__ACRES_ (GRÖSSE ACRES) in der Liste Fields to process (Zu verarbeitende Felder) aus.
    3. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
      (Optional) Sehen Sie sich die Vorschau des Prozessors an, um zu prüfen, wie die Daten nach der Berechnung aussehen.
      In der Ausgabedatenvorschau hat der Prozessor die Quadratwurzel des Felds „size acres (Größe acres)“ berechnet.
  16. Klicken Sie auf add processor (Prozessor hinzufügen) und fügen Sie einen Filter-Prozessor zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  17. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    filter on robberies (Diebstähle ausfiltern)
  18. Konfigurieren Sie den Prozessor:
    1. Fügen Sie ein neues Element hinzu und wählen Sie .ROBBERY (DIEBSTAHL) in der Liste Input (Ausgabe) aus, da von den im Datensatz aufgeführten Verbrechen nur die Kategorie Diebstahl beibehalten werden soll.
    2. Wählen Sie None (Keine) in der Liste Optionally select a function to apply (Optional anzuwendende Funktion auswählen) aus.
    3. Wählen Sie >= in der Liste Operator aus.
    4. Geben Sie 1 in das Feld Value (Wert) ein, da die Daten ausgefiltert werden sollen, die mindestens einen Fall von Diebstahl enthalten.
    5. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  19. (Option) Sehen Sie sich die Vorschau des Filter-Prozessors an, um zu prüfen, wie Ihr Daten-Sample nach dem Filtervorgang aussieht.

    Example

    In der Ausgabedatenvorschau stimmen 5 Datensätze mit den Kriterien überein.
  20. Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) und wählen Sie den S3-Datensatz aus, der Ihre neu organisierten Daten aufnehmen soll.
    Benennen Sie den Datensatz um, falls erforderlich.
  21. Aktivieren Sie auf der Registerkarte Configuration (Konfiguration) des Ziels die Option Overwrite (Überschreiben), um die bestehende Datei in S3 mit der Datei zu überschreiben, die Ihre verarbeiteten Daten aufnehmen wird. Klicken Sie anschließend auf Save (Speichern), um Ihre Konfiguration zu speichern.
  22. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  23. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt und der Ausgabe-Flow an das von Ihnen angegebene Amazon S3-Bucket gesendet.
Hervorhebung des Pipeline-Ausgabeflusses im Amazon S3-Bucket
Wenn Sie die Ausgabedatei herunterladen, können Sie feststellen, dass die Verbrechensdaten verarbeitet und die Diebstahlfälle isoliert wurden.
Excel-Arbeitsblatt der Verbrechensdaten mit der Spalte „robbery (Raub)“.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!