Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Filtern der Daten in einer lokalen Datei und Aufteilen der Daten auf zwei Amazon S3-Ausgaben

Dieses Szenario soll Sie bei der Einrichtung und Verwendung von Konnektoren in einer Pipeline unterstützen. Es wird empfohlen, dass Sie das Szenario an Ihre Umgebung und Ihren Anwendungsfall anpassen.

Beispiel einer Pipeline, die anhand der nachfolgenden Anleitungen erstellt wurde.

Vorbereitungen

Schritt
  • Wenn Sie dieses Szenario reproduzieren möchten, laden Sie folgende Datei herunter und extrahieren Sie sie: local_file-to_s3.zip . Die Datei enthält Daten zu Benutzerkäufen mit Angaben zu Registrierung, Kaufpreis, Geburtsdatum usw.

Prozedur

  1. Klicken Sie auf Connections (Verbindungen) > Add connection (Verbindung hinzufügen).
  2. Wählen Sie den Typ der zu erstellenden Verbindung im daraufhin geöffneten Fenster aus.

    Example

    Local connection (Lokale Verbindung)
  3. Wählen Sie in der Liste Engine Ihre Engine aus.
    InformationshinweisAnmerkung:
    • Es wird empfohlen, die Remote Engine Gen2 und nicht die Cloud Engine for Design für eine erweiterte Datenverarbeitung einzusetzen.
    • Wenn keine Remote Engine Gen2 in Talend Management Console erstellt wurde bzw. diese vorhanden, aber als nicht verfügbar markiert ist, d. h. sie ist nicht aktiv und wird nicht ausgeführt, dann können Sie weder einen Connection type (Verbindungstyp) in der Liste auswählen noch die neue Verbindung speichern.
    • Die Liste der verfügbaren Verbindungstypen richtet sich nach der ausgewählten Engine.
  4. Wählen Sie den Typ der zu erstellenden Verbindung aus.
    Wählen Sie für dieses Beispiel Local connection (Lokale Verbindung) aus.
  5. Geben Sie die Verbindungseigenschaften ein und klicken Sie dann auf ADD DATASET (DATENSATZ HINZUFÜGEN).
  6. Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) einen Namen für Ihren Datensatz ein: user purchases (Benutzerkäufe).
  7. Klicken Sie auf das Symbol upload (hochladen), um die Datei local_file-to_s3.csv auf Ihrem Gerät zu suchen und auszuwählen, klicken Sie auf Auto detect (Autom. erkennen), damit die Informationen zum Dateiformat automatisch angegeben werden, und anschließend auf View sample (Sample anzeigen), um eine Vorschau Ihres Datensatz-Samples anzuzeigen.
    Konfiguration eines neuen lokalen Datensatzes.
  8. Klicken Sie auf Validate (Validieren), um den Datensatz zu speichern.
  9. Gehen Sie genauso vor, um die Amazon S3-Verbindung und S3-Ausgaben hinzuzufügen, die als Ziele in Ihrer Pipeline fungieren sollen. Geben Sie die Verbindungseigenschaften gemäß der Beschreibung in Eigenschaften von Amazon S3 ein.
    Konfiguration einer neuen Amazon S3-Verbindung.
  10. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  11. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    From local file to S3 - Filter by age (Von lokaler Datei zu S3 - Nach Alter filtern)
  12. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN) und wählen Sie Ihren Quelldatensatz, user purchases (Benutzerkäufe), im daraufhin geöffneten Fenster aus.
  13. Klicken Sie auf add processor (Prozessor hinzufügen) und fügen Sie einen Prozessor vom Typ Filter zur Pipeline hinzu, um die Benutzerdaten zu filtern, und geben Sie einen aussagekräftigen Namen dafür ein. Daraufhin wird das Konfigurationsfenster geöffnet.
  14. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    filter on registered users (Registrierte Benutzer ausfiltern)
  15. Führen Sie im Bereich Filters (Filter) Folgendes durch:
    1. Wählen Sie .registered in der Liste Input (Eingabe) aus, da die Benutzerregistrierung als Filterkriterium verwendet werden soll.
    2. Wählen Sie None (Keine) in der Liste Optionally select a function to apply (Optional eine anzuwendende Funktion auswählen) aus, da bei der Filterung der Daten keine Funktion angewendet werden soll.
    3. Wählen Sie == in der Liste Operator aus und geben Sie TRUE in das Feld Value (Wert) ein, da registrierte Benutzer ausgefiltert werden sollen.
  16. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  17. Klicken Sie auf add processor (Prozessor hinzufügen) und fügen Sie einen Prozessor vom Typ Date (Datum) zur Pipeline hinzu, um das Alter der Benutzer auf der Grundlage ihres Geburtsdatums zu berechnen. Daraufhin wird das Konfigurationsfenster geöffnet.
  18. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    calculate user age (Benutzeralter berechnen)
  19. Konfigurieren Sie den Prozessor:
    1. Wählen Sie Calculate time since (Zeit berechnen seit) in der Liste Function name (Funktionsname) aus, da das Benutzeralter auf der Grundlage des jeweiligen Geburtsdatums berechnet werden soll.
    2. Wählen Sie .date_of_birth (Geburtsdatum) im Feld Fields to process (Zu verarbeitende Felder) aus.
    3. Aktivieren Sie die Option Create new column (Neue Spalte erstellen), da das Ergebnis in einem neuen Feld angezeigt werden soll, und geben Sie dem Feld die Bezeichnung age (Alter).
    4. Wählen Sie Years (Jahre) in der Liste Time unit (Zeiteinheit) und Now (Jetzt) im Feld Until (Bis) aus und geben Sie MM/dd/yyyy (MM/tt/jjjj) in das Feld Set the date pattern (Datumsmuster festlegen) ein, da die Anzahl an Jahren bis zum aktuellen Datum im Format Monat/Tag/Jahr berechnet werden soll.
  20. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  21. (Optional) Sehen Sie sich die Vorschau des Prozessors an, um das jeweils berechnete Alter zu prüfen.
    In der Ausgabedatenvorschau wird eine neue Spalte „age (Alter)“ angezeigt.
  22. Klicken Sie auf add processor (Prozessor hinzufügen) und fügen Sie einen weiteren Filter-Prozessor zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  23. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    filter on users aged 60+ (Benutzer 60+ ausfiltern)
  24. Führen Sie im Bereich Filters (Filter) Folgendes durch:
    1. Wählen Sie .age (Alter) in der Liste Input (Eingabe) aus, da das Alter der Benutzer als Filterkriterium verwendet werden soll.
    2. Wählen Sie None (Keine) in der Liste Optionally select a function to apply (Optional eine anzuwendende Funktion auswählen) aus, da bei der Filterung der Daten keine Funktion angewendet werden soll.
    3. Wählen Sie == in der Liste Operator aus und geben Sie 60 in das Feld Value (Wert) ein, da alle Benutzer im Alter ab 60 ausgefiltert werden sollen.
  25. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  26. Klicken Sie auf das Element ADD DESTINATION (ZIEL HINZUFÜGEN) für die Pipeline, um das Fenster zur Auswahl des ersten Datensatzes zu öffnen, der die Ihrem Filter entsprechenden Ausgabedaten aufnehmen soll (S3).
  27. Legen Sie für das Ziel einen aussagekräftigen Namen fest, beispielsweise older users (Ältere Benutzer).
  28. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  29. Klicken Sie auf add datastream (Daten-Stream hinzufügen) für den Filter-Prozessor, um ein anderes Ziel hinzuzufügen und um das Fenster zur Auswahl des zweiten Datensatzes zu öffnen, der die Ausgabedaten aufnehmen soll, die nicht Ihrem Filter entsprechen (S3).
  30. Legen Sie für das Ziel einen aussagekräftigen Namen fest, beispielsweise other users (Andere Benutzer).
  31. (Option) Sehen Sie sich den Filter-Prozessor an, um eine Vorschau Ihrer Daten nach dem Filtervorgang zu erhalten: Alle registrierten Benutzer im Alter ab 60 Jahren.
    In der Ausgabedatenvorschau stimmen 2 Datensätze mit den Kriterien überein.
  32. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  33. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die in Ihrer lokalen Datei gespeicherten Benutzerinformationen wurden gefiltert, das Alter der Benutzer wurde berechnet und die Ausgabe-Flows werden an das von Ihnen definierte S3-Bucket gesendet. Die verschiedenen Ausgaben können jetzt beispielsweise für separate zielgerichtete Marketingkampagnen verwendet werden.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!