Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Normalisieren komplexer Datensätze

Eine Pipeline mit einem S3-Datensatz, einem Prozessor vom Typ „Normalize (Normalisieren)“ und einem S3-Ziel.

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.

    In diesem Beispiel eine Verbindung zu Amazon S3.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    In diesem Beispiel hierarchische Daten zu Schauspielern, d. h. ID, Name, Land usw.

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

    In diesem Beispiel eine in Amazon S3 gespeicherte Datei.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Normalize Actor Records (Schauspieler-Datensätze normalisieren)
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie Ihre Quelldaten auswählen können, in diesem Beispiel eine Liste der in HDFS gespeicherten Schauspieler.
  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Normalize (Normalisieren) zur Pipeline hinzu. Das Konfigurationsfenster wird geöffnet.
  6. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    normalize actors structure (Schauspieler-Struktur normalisieren)
  7. Geben Sie in den Feldern Column to normalize (Zu normalisierende Spalte) den Wert Actors (Schauspieler) ein, da diese Spalte die hierarchischen Datenelemente enthält, die normalisiert werden sollen.
  8. Aktivieren Sie die Optionen Is list (Ist Liste) und Discard the trailing empty strings (Nachgestellte leere Zeichenfolgen verwerfen), um die Daten in eine Liste abzuflachen (aus einer Array- in eine Datensatz-Struktur) und leere Werte zu verwerfen.
  9. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  10. Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) für die Pipeline, um das Fenster zur Auswahl des Datensatzes zu öffnen, der die normalisierten Daten aufnehmen soll.
    Benennen Sie ihn um, falls erforderlich.
  11. (Optional) Sehen Sie sich die Vorschau des Prozessors vom Typ Normalize (Normalisieren) an, um die Daten vor der Normalisierung mit denjenigen danach zu vergleichen.
    Vorschau des Prozessors vom Typ „Normalize selector (Normalisierungsauswahl)“ nach dem Abflachen der Schauspielerdatensätze.
  12. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  13. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die Datenelemente werden normalisiert und die Ausgabe wird an das von Ihnen angegebene Zielsystem gesendet.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!