Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Senden von Daten an ein Kafka-Topic

Dieses Szenario soll Sie bei der Einrichtung und Verwendung von Konnektoren in einer Pipeline unterstützen. Es wird empfohlen, dass Sie das Szenario an Ihre Umgebung und Ihren Anwendungsfall anpassen.

Beispiel einer Pipeline, die anhand der nachfolgenden Anleitungen erstellt wurde.

Vorbereitungen

  • Wenn Sie dieses Szenario reproduzieren möchten, laden Sie folgende Datei herunter und extrahieren Sie sie: test-file-to-kafka.zip .

Prozedur

  1. Klicken Sie auf Connections (Verbindungen) > Add connection (Verbindung hinzufügen).
  2. Fügen Sie eine Testverbindung hinzu und klicken Sie dann auf Add dataset (Datensatz hinzufügen).
  3. Wählen Sie in der Liste Engine Ihre Engine aus.
    InformationshinweisAnmerkung:
    • Es wird empfohlen, die Remote Engine Gen2 und nicht die Cloud Engine for Design für eine erweiterte Datenverarbeitung einzusetzen.
    • Wenn keine Remote Engine Gen2 in Talend Management Console erstellt wurde bzw. diese vorhanden, aber als nicht verfügbar markiert ist, d. h. sie ist nicht aktiv und wird nicht ausgeführt, dann können Sie weder einen Connection type (Verbindungstyp) in der Liste auswählen noch die neue Verbindung speichern.
    • Die Liste der verfügbaren Verbindungstypen richtet sich nach der ausgewählten Engine.
  4. Wählen Sie JSON in der Liste format (Format) auf und fügen Sie den Inhalt der Datei test-file-to-kafka.json in das Feld Values (Werte) ein.
  5. Geben Sie ihm einen Namen, z. B. action movies (Actionfilme), und speichern Sie ihn.
  6. Gehen Sie genauso vor, um eine Verbindung zu einem Kafka-Server hinzuzufügen:
    1. Klicken Sie auf Connections (Verbindungen) > Add connection (Verbindung hinzufügen).
    2. Geben Sie in dem daraufhin geöffneten Fenster einen Namen für die Verbindung sowie nach Bedarf eine Beschreibung ein.

      Example

      Kafka
    3. Wählen Sie den Typ der zu erstellenden Verbindung aus.
      Wählen Sie Kafka aus.
    4. Geben Sie die Verbindungseigenschaften für den sicheren Zugriff auf den Kafka-Server wie in Eigenschaften von Kafka beschrieben ein, prüfen Sie die Verbindung und klicken Sie dann auf Add dataset (Datensatz hinzufügen).
  7. Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) einen Namen für Ihren Datensatz ein. In diesem Beispiel wird das Topic collette_movies_json zur Veröffentlichung von Daten zu Filmen verwendet.

    Example

    Konfiguration eines neuen Kafka-Datensatzes.
  8. Geben Sie Ihrem Datensatz den Namen Collette kafka topic (Collette-Kafka-Topic).
  9. Klicken Sie auf Validate (Validieren), um den Datensatz zu speichern.
  10. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  11. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    From Test to Kafka - send to Kafka topic (Vom Test zu Kafka - Kafka-Topic senden)
  12. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN) und wählen Sie im daraufhin geöffneten Fenster Ihren Quelldatensatz aus, action movies (Actionfilme).
  13. Klicken Sie auf add processor (Prozessor hinzufügen) und fügen Sie einen Prozessor des Typs Split (Untergliedern) zur Pipeline hinzu, um die Datenelemente aufzuspalten, die sowohl Vor- als auch Nachnamen der Schauspieler enthalten. Daraufhin wird das Konfigurationsfenster geöffnet.
  14. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    split actor names (Namen der Schauspieler untergliedern)
  15. Konfigurieren Sie den Prozessor:
    1. Wählen Sie Split text in parts (Text in Teile untergliedern) in der Liste Function name (Funktionsname) aus, um die Werte, die Namensdaten entsprechen, aufzuspalten.
    2. Wählen Sie .detail.starring (Details Schauspieler) in der Liste Fields to process (Zu verarbeitende Felder) aus, da Sie diese Änderung auf die Werte dieser spezifischen Datenelemente anwenden möchten.
    3. Geben Sie 2 in die Liste Parts (Teile) ein bzw. wählen Sie den Wert aus, um die Werte dieser spezifischen Datenelemente in zwei Teile zu untergliedern.
    4. Wählen Sie Space (Leerzeichen) in der Liste Separator (Begrenzer) aus, da Vor- und Nachnamen in diesen Datenelementen durch ein Leerzeichen voneinander abgesetzt sind.
  16. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  17. (Optional) Sehen Sie sich die Vorschau des Prozessors an, um zu prüfen, wie die Daten nach dem Untergliederungsvorgang aussehen.
    In der Ausgabedatenvorschau wird die Detailspalte der Schauspieler in zwei Teile unterteilt, einen für den Vornamen und den anderen für den Nachnamen.
  18. Klicken Sie auf add processor (Prozessor hinzufügen) und fügen Sie einen Filter-Prozessor zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  19. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    filter on movies w/ actor Collette (Filme mit Schauspieler Collette ausfiltern)
  20. Konfigurieren Sie den Prozessor:
    1. Fügen Sie ein neues Element hinzu und wählen Sie .detail.starring_split_2 (Details Schauspieler teilen 2) in der Liste Input (Eingabe) aus, da die im Datensatz enthaltenen Nachnamen der Schauspieler gefiltert werden sollen.
    2. Wählen Sie None (Keine) in der Liste Optionally select a function to apply (Optional anzuwendende Funktion auswählen) aus.
    3. Wählen Sie == in der Liste Operator aus.
    4. Geben Sie Collette in das Feld Value (Wert) ein, da alle Daten ausgefiltert werden sollen, die den Namen Collette enthalten.
    5. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  21. (Option) Sehen Sie sich die Vorschau des Filter-Prozessors an, um zu prüfen, wie Ihr Daten-Sample nach dem Filtervorgang aussieht.

    Example

    In der Ausgabedatenvorschau stimmen drei Datensätze mit den Kriterien überein.
  22. Klicken Sie auf das Element ADD DESTINATION (ZIEL HINZUFÜGEN) der Pipeline, um ein Fenster zu öffnen, in dem Sie das Apache Kafka-Topic auswählen können, in das Ihre Ausgabedaten geladen werden sollen: Collette kafka topic (Collette Kafka-Topic).
  23. Das Modell Round-Robin (Rundlaufverfahren) auf der Registerkarte Configuration (Konfiguration) des Ziels fungiert als Standard-Partitionstyp (Partition Type), der bei der Veröffentlichung von Ereignissen verwendet wird. Sie können jedoch je nach Ihrem Anwendungsfall auch einen Partitionsschlüssel angeben.
  24. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  25. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die Filmdaten aus Ihrer Testdatei werden verarbeitet und der Ausgabe-Flow an das von Ihnen definierte Topic gesendet, collette_movies_json.

Nächste Maßnahme

Sobald die Daten veröffentlicht sind, können Sie den Inhalt des Topics in einer anderen Pipeline nutzen und als Quelldatensatz verwenden:

Eine neue Pipeline, in der die Quelle das Collette-Kafka-Thema aus der vorherigen Ziel-Pipeline ist.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!