Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Filtern der Kundendaten nach gültigen und ungültigen semantischen Typen

Eine Pipeline mit einem Quelldatensatz, einem Prozessor vom Typ „Field Selector (Feldauswahl)“, einem Prozessor vom Typ „Semantic filter (Semantischer Filter)“ und zwei Zielen.

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.

    In diesem Beispiel eine Testverbindung.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    Laden Sie folgende Datei herunter und extrahieren Sie sie: semantic_filter-customers.zip. Sie enthält eine Liste der Kunden mit Rohdaten (im Anhang dieses Dokuments bereitgestellt).

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

    Die Dateien werden ebenfalls in zwei Test-Datensätzen gespeichert.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Filtern der Kundendaten nach semantischem Typ
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie Ihre Quelldaten auswählen können, in diesem Fall eine Kundenliste mit Rohdaten (inkonsistente Feldnamen, leere Felder usw.) und im Vorfeld ermittelte semantische Typen.

    Example

    Vorschau eines Datenbeispiels über Kunden mit im Vorfeld ermittelten semantischen Typen.
  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Field selector (Feldauswahl) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  6. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    restructure fields (Felder neu strukturieren)
  7. Führen Sie auf der Registerkarte Configuration (Konfiguration) Folgendes durch:
    1. Klicken Sie auf das Symbol Bearbeiten im Auswahlmodus Simple (Einfach), um die Baumstrukturansicht zu öffnen, in der Sie die Felder auswählen und umbenennen können, die Sie beibehalten möchten.
    2. Wählen Sie in der Baumstrukturansicht folgende Felder aus: ID, FIRSTNAME (VORNAME), LASTNAME (NACHNAME), STATE (BUNDESSTAAT), company_name (Firmen_Name) und EMAIL E-MAIL.
    3. Klicken Sie auf das jeweils nebenstehende Symbol Umbenennen und benennen Sie die Felder um: ID, Firstname (Vorname), Lastname (Nachname), State (Bundesstaat), CompanyName (Firmenname) und Email (E-Mail).
  8. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Auswahl- und Umbenennungsvorgang mit denjenigen nach dem Vorgang zu vergleichen.

    Vorschau des Prozessors vom Typ „Field selector (Feldauswahl)“ nach der Umorganisation der Kundendatensätze.
  9. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Semantic filter (Semantischer Filter) zur Pipeline hinzu. Das Konfigurationsfenster wird geöffnet.
  10. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    filter on valid US phones and emails (Nach gültigen US-Telefonnummern und -E-Mailadressen filtern)
  11. Führen Sie im Bereich Filters (Filter) Folgendes durch:
    1. Wählen Sie .PhoneNumber (.Telefonnummer) in der Liste Input (Eingabe) aus, da Sie dieses Feld nach dem damit verknüpften semantischen Typ filtern möchten: Phone numbers (Telefonnummern).
    2. Wählen Sie Valid (Gültig) in der Liste Keep only (Nur beibehalten), um nach dem Vergleich der Werte mit dem semantischen Typ „Phone numbers (Telefonnummern)“ nur die gültigen Werte beizubehalten.
    3. Fügen Sie einen anderen Filter hinzu und wählen Sie .Email (.E-Mail) in der Liste Input (Eingabe) aus, da Sie dieses Feld nach dem damit verknüpften semantischen Typ filtern möchten: Email (E-Mail).
    4. Wählen Sie Valid (Gültig) in der Liste Keep only (Nur beibehalten), um nach dem Vergleich der Werte mit dem semantischen Typ „Email (E-Mail)“ nur die gültigen Werte beizubehalten.
  12. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Filtervorgang mit denjenigen nach dem Vorgang zu vergleichen: Sie werden feststellen, dass ein Dateneintrag einen ungültigen E-Mail-Wert enthält (das Zeichen @ fehlt in der E-Mailadresse) und zwei Dateneinträge ungültige Telefonnummer-Werte aufweisen (fehlende Ziffern), wenn die Einträge mit den zugehörigen semantischen Typen verglichen werden.

    Vorschau des Prozessors vom Typ „Semantic filter (Semantischer Filter)“ nach dem Filtern nach Dateneinträgen mit gültigen Telefonnummern und E-Mail-Adressen.
  13. Klicken Sie auf das Element ADD DESTINATION (ZIEL HINZUFÜGEN) hinter dem Prozessor vom Typ Semantic filter (Semantischer Filter) und wählen Sie den Datensatz aus, der die Daten aufnehmen soll, die den Filterkriterien entsprechen: die Daten mit gültigen Werten.
    Benennen Sie ihn um, falls erforderlich.
  14. Klicken Sie auf die Schaltfläche Doesn't match filter (Stimmt nicht mit Filter überein) neben dem Prozessor vom Typ Semantic filter (Semantischer Filter) und klicken Sie auf das Element ADD DESTINATION (ZIEL HINZUFÜGEN), um den Datensatz auszuwählen der die zurückgewiesenen Daten aufnehmen soll: die Daten mit ungültigen Werten.
  15. Legen Sie für das Ziel einen aussagekräftigen Namen fest.

    Example

    invalid customer data (Ungültige Kundendaten)
  16. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  17. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Die Pipeline wird ausgeführt, die Daten werden gemäß den von Ihnen ausgewählten semantischen Typen gefiltert und die Ausgabe-Flows werden an die von Ihnen angegebenen Ziele gesendet.

Nächste Maßnahme

Sie können die ungültigen Datenelemente jedoch auch an eine Data Stewardship-Kampagne als Ziel senden. Dadurch können Data Stewards die ungültigen Daten prüfen und berichtigen.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!