Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Auswählen der Dateneinträge deduplizierter Künstler der Tate Gallery

Eine Pipeline mit einer Quelle, einem Prozessor vom Typ „Field selector (Feldauswahl)“ und einem Ziel.

Vorbereitungen

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    Laden Sie folgende Datei herunter und extrahieren Sie sie: field_selector-artists.zip. Sie enthält einen Datensatz mit Künstlern der Tate Gallery in London (mit Namen, Geburtsdatum, URL der jeweiligen Tate-Seite usw.), in dem einige Namen doppelt vorhanden sind.

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

    In diesem Beispiel handelt es sich um eine über eine Testverbindung gespeicherte Datei.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Select deduplicated artists (Deduplizierte Künstler auswählen)
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten, in diesem Fall eine Liste der Tate-Künstler mit einigen Duplikaten, auswählen können.
    Vorschau eines Datenbeispiels mit Tate-Künstler-Datensätzen
  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Field selector (Feldauswahl) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  6. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    select fields with distinct (Felder mit Unterschiedlich-Option auswählen)
  7. Aktivieren Sie die Option Distinct (Unterschiedlich), damit nur Felder mit unterschiedlichen Werten zurückgegeben und die Duplikate ausgegrenzt werden.
  8. Klicken Sie im Modus Simple (Einfach) auf das Symbol Edit (Bearbeiten), um das Fenster Select fields (Felder auswählen) zu öffnen:
    1. Wählen Sie name (Name) in der Liste Input (Eingabe) aus und geben Sie full_name (Vollständer_Name) in der Liste Output (Ausgabe) ein, da Sie die Felder mit Künstlernamen auswählen und umbenennen möchten.
    2. Wählen Sie yearOfBirth (geburtsjahr) in der Liste Input (Eingabe) aus und geben Sie year_of_birth (Geburtsjahr) in der Liste Output (Ausgabe) ein, da Sie die Felder mit den Geburtsjahren der Künstler auswählen und umbenennen möchten.
    3. Wählen Sie yearOfDeath in der Liste Input (Eingabe) aus und geben Sie year_of_death in der Liste Output (Ausgabe) ein, da Sie die Felder mit den Todesjahren der Künstler auswählen und umbenennen möchten.
      Der Konfigurationsfensterbereich für die Feldauswahl zeigt 3 ausgewählte Felder mit aktivierter Option „Distinct (Unterschiedlich)“.
  9. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor der Auswahl- und „Unterschiedlich“-Operation mit denjenigen danach zu vergleichen. Die Künstlernamen werden dedupliziert und nur die Felder mit unterschiedlichen Werten zurückgegeben.

    Vorschau des Prozessors vom Typ „Field selector (Feldauswahl)“ nach der Deduplizierung der Datensätze.
  10. Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) und wählen Sie den Datensatz aus, der die neu organisierten Daten aufnehmen soll.
    Benennen Sie ihn um, falls erforderlich.
  11. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  12. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Die Pipeline wird ausgeführt, die Daten werden gemäß den von Ihnen angegebenen Bedingungen neu organisiert und die Ausgabe wird an das von Ihnen angegebene Zielsystem gesendet.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!