Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Aggregieren von Kundeninformationen zur Berechnung der Käufe

Eine Pipeline mit einer Testquelle, einem Prozessor vom Typ „Aggregate (Aggregieren)“ und einem HDFS-Ziel.

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    Laden Sie die Datei aggregate-customers.zip herunter und extrahieren Sie sie. Sie enthält eine hierarchische Liste der Kundendaten, u. a. ID, Produktinformationen wie Buchtitel und Preis usw.

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

    In diesem Beispiel eine in HDFS gespeicherte Datei.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Aggregate Customer Data to Calculate Purchases (Aggregieren von Kundeninformationen zur Berechnung der Käufe)
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten, in diesem Fall eine Liste mit hierarchischen Kundendaten zu Buchkäufen, auswählen können.

    Example

    Vorschau eines Datenbeispiels über Buchkäufe.
  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Aggregate (Aggregieren) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  6. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    calculate customer purchases (Kundenkäufe berechnen)
  7. Wählen Sie im Bereich Group by (Gruppieren nach) das Feld aus, das Sie für Ihre Aggregationsgruppe verwenden möchten, in diesem Beispiel .customerId (.KundenID).
  8. Führen Sie im Bereich Operations (Operationen) Folgendes durch:
    1. Wählen Sie .customerId (.KundenID) in der Liste Field path (Feldpfad) aus und Count (Anzahl) in der Liste Operation.
    2. Geben Sie dem generierten Feld (Output field name (Name des Ausgabefelds)) einen Namen, z. B. nbOfPurchases (Anzahl der Käufe).
    3. Klicken Sie auf das Pluszeichen (+), um ein neues Element hinzuzufügen, wählen Sie .product.price (.Produkt.Preis) in der Liste Field path (Feldpfad) und Sum (Summe) in der Liste Operation aus.
    4. Legen Sie für das generierte Feld einen Namen fest, beispielsweise totalPrice (Gesamtpreis).
    5. Klicken Sie auf das Pluszeichen (+), um ein neues Element hinzuzufügen, wählen Sie .product.name (.Produkt.Name) in der Liste Field path (Feldpfad) und List (Liste) in der Liste Operation aus.
    6. Legen Sie für das generierte Feld einen Namen fest, beispielsweise books (Bücher).
  9. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Nach der Durchführung der Aggregation können Sie eine Vorschau der berechneten Daten anzeigen: die Bücher und der ausgegebene Geldbetrag pro Kunde.

    Vorschau des Prozessors nach dem Anwenden eines Aggregationsvorgangs.
  10. Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) für die Pipeline, um das Fenster zur Auswahl des Datensatzes zu öffnen, der Ihre Ausgabedaten (HDFS) aufnehmen soll.

    Benennen Sie ihn um, falls erforderlich.

  11. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  12. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die Bücherkäufe werden pro Kunde aggregiert und der Ausgabe-Flow wird an die von Ihnen angegebenen Zielsysteme gesendet.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!