Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Verwenden von Filtern zur Erstellung von „if“-Bedingungen für Kundendaten

Der Datensatz video_customers.xlsx enthält ein Daten-Sample mit verschiedenen Informationen über US-amerikanische Kunden eines Videostreaming-Anbieters. In der Datei werden Namen, Bundesstaat, Alter und Abonnierungsdatum für die Kunden aufgeführt.

Nach der Kombination verschiedener Filter, die wie „if“-Bedingungen funktionieren, können Sie eine Bereinigungsoperation für die Kundenkategorie durchführen, an der Sie speziell interessiert sind. In diesem Beispiel möchten Sie eine Datei ausgeben, die Kunden des Altersbereichs 30 bis 55 aus den fünf US-Bundesstaaten mit den meisten registrierten Kunden enthält, während nicht verwertbare Daten ausgegrenzt werden sollen.

Laden Sie folgende Datei herunter: video_customers.xlsx.

Hinzufügen einer Datenaufbereitung für den Datensatz video customers

Fügen Sie eine Datenaufbereitung hinzu, um die Aufbereitung und Bereinigung Ihrer Daten in Angriff zu nehmen.

Sie können eine Datenaufbereitung ausgehend von einem in Talend Data Preparation bereits verfügbaren Datensatz oder ausgehend von einer Ihrer lokalen Dateien erstellen. Beim Hinzufügen einer Datenaufbereitung über die entsprechende Schaltfläche wird diese in dem Ordner erstellt, in dem Sie zurzeit arbeiten. Darüber hinaus wird die Datenaufbereitung automatisch in die Liste der Datenaufbereitungen aufgenommen, alle von Ihnen vorgenommenen Änderungen werden automatisch gespeichert.

Before you begin

Sie haben unter Verwendung der zuvor heruntergeladenen Datei den Datensatz video_customers (Video_Kunden) in Talend Cloud Data Preparation erstellt.

Procedure

  1. Klicken Sie auf der Homepage auf Preparations (Datenaufbereitungen), um die Liste der Datenaufbereitungen zu öffnen.
  2. Klicken Sie auf die Schaltfläche Add Preparation (Datenaufbereitung hinzufügen).
  3. Wählen Sie in der Liste Datasets (Datensätze) den Eintrag video_customers als Quellmaterial aus.
    Fenster Add a preparation (Datenaufbereitung hinzufügen) mit einer Liste der Datensätze, die zum Erstellen einer Datenaufbereitung verfügbar sind, darunter video_customers.
    In das Feld Preparation name (Name der Datenaufbereitung) wird automatisch ein Name eingetragen, den Sie jedoch nach Bedarf ändern können.
  4. Klicken Sie auf Submit (Senden).

Results

Der Datensatz wird mit einem leeren Rezept geöffnet, und Sie können mit den Arbeitsschritten zum Hinzufügen einer Datenaufbereitung beginnen. Alle Änderungen, die Sie vornehmen, werden automatisch gespeichert.

Entfernen aller leeren und ungültigen Datenelemente

Die Qualitätsleiste verweist darauf, dass eine Spalte leere oder ungültige Datenelemente enthält.

Für einige Spalten im Raster zeigt die Qualitätsleiste ungültige oder leere Zellen an.

Daten, die dem Spaltentyp entsprechen, werden in der Qualitätsleiste grün angezeigt, rot hingegen kennzeichnet ungültige Daten, die nicht mit dem Spaltentyp übereinstimmen. Leere Datenelemente werden grau angezeigt.

Da Sie sich auf Kunden eines spezifischen Altersbereichs und aus bestimmten Bundesstaaten konzentrieren möchten, sind leere Daten in den entsprechenden Spalten für Sie ohne jeden Nutzen. Deshalb möchten Sie die Zeilen mit leeren Daten aus den Spalten age (Alter) und state (Bundesstaat) sowie darüber hinaus die ungültigen Werte aus dem Datensatz entfernen.

Procedure

  1. Klicken Sie auf das weiße Menüsymbol in der oberen linken Ecke des Rasters und wählen Sie Display rows with invalid or empty values (Zeilen mit ungültigen oder leeren Werten anzeigen) aus.
    Filteroptionen für die leeren und ungültigen Zeilen im ganzen Datensatz.

    Wie Sie sehen, wird durch diese Aktion ein Filter für Ihre Daten erstellt, sodass nur noch die Zeilen des Datensatzes angezeigt werden, die leere oder ungültige Einträge enthalten. Am oberen Rand des Rasters werden alle Filter angegeben, die jeweils auf Ihre Daten angewendet werden.

    Darüber hinaus ist am unteren Rand des Funktionsbereichs eine neue Option verfügbar. Wenn Sie jetzt einen Filter oder einen Bedingung anwenden, können Sie festlegen, ob die Funktionen auf sämtliche Daten oder nur die ausgefilterten Daten angewendet werden sollen. Diese Art der Handhabung von Bedingungen ist spezifisch für Talend Cloud Data Preparation.

    Der erste Filter ist jetzt für die gesamten Daten aktiv. Sie möchten nunmehr ganz gezielt die leeren Datenelemente aus den Spalten age (Alter) und state (Bundesstaat) entfernen.

  2. Klicken Sie auf den grauen Teil der Qualitätsleiste in der Überschrift der Spalte age (Alter).
  3. Wählen Sie im daraufhin geöffneten Menü den Eintrag Delete the rows with empty cell (Zeilen mit leeren Zellen löschen) aus.

    Die leeren Werte wurden entfernt, sodass die Spalte age (Alter) nur noch gültige Daten enthält, wie Sie der Qualitätsleiste für diese Spalte entnehmen können.

  4. Wiederholen Sie diese Operation für die Spalte state (Bundesstaat).

    Die zurzeit aktive Bedingung verweist darauf, dass noch andere Spalten in Ihrem Datensatz leere Werte enthalten. Aber da Ihr Fokus auf Alter und Standort liegt, können Sie diese ignorieren. Andererseits möchten Sie aber die ungültigen Daten aus der Spalte phone number (Telefonnummer) entfernen, da diese zu Marketingzwecken verwendet werden kann.

  5. Klicken Sie auf den roten Teil der Qualitätsleiste von phone number (Telefonnummer) und wählen Sie Delete the rows with invalid cell (Zeilen mit ungültigen Zellen löschen) aus.

    Dadurch werden alle als ungültig eingestuften Daten entfernt.

  6. Klicken Sie in der Filterleiste auf das Papierkorb-Symbol, um den Filter zu löschen und erneut den gesamten Datensatz anzuzeigen.

Results

Die Zeilen mit leeren oder ungültigen Werten wurden aus den Spalten age (Alter), state (Bundesstaat) und phone numbers (Telefonnummer) entfernt. Der Datensatz wurde somit um einiges bereinigt. Sie können sich folglich auf die Daten konzentrieren, die Sie herausstellen möchten.

Erstellen von Filtern für Alter und Bundesstaat

Durch die Erstellung eines Filters lassen sich Daten schnell identifizieren bzw. isolieren.

Sie ziehen erneut Filter heran, um die Daten zu isolieren, an denen Sie in diesem Beispiel am meisten interessiert sind, d. h. Alter und Standort der Kunden. Der Bereich des Data-Profiling in der unteren rechten Ecke der Oberfläche ermöglicht eine Interaktion mit den Diagrammen, die die Daten in den Spalten age (Alter) und state (Bundesstaat) illustrieren, und die Auswahl eines spezifischen Datumsbereichs.

Procedure

  1. Klicken Sie auf die Überschrift der Spalte age (Alter), um deren Inhalt auszuwählen.

    Im Bereich des Data-Profiling in der unteren rechten Fensterecke wird ein vertikales Balkendiagramm angezeigt, dem Sie entnehmen können, wie oft jeder Wert in der Spalte vorkommt.

    Das Balkendiagramm zeigt die Verteilung der Werte in der Spalte age (Alter).

    Wie Sie feststellen können, wurde als Mindestalter 18, als Höchstalter 80 gefunden.

  2. Um die im Raster angezeigten Alterswerte einzugrenzen und entsprechend einen Filter für den Altersbereich 30 bis 55 zu erstellen, stehen Ihnen folgende Möglichkeiten zur Auswahl:
    • Ziehen Sie beide Enden des Schiebereglers für den Bereich, um das anzuzeigende Mindest- und Höchstalter auszuwählen.
      Das Balkendiagramm zeigt die Verteilung der Werte in der Spalte age (Alter), gefiltert nach Werten zwischen 30 und 55.
    • Geben Sie direkt in die entsprechenden Felder 30 als Mindestwert und 55 als Höchstwert ein.

    Daraufhin wird ein neuer Filter auf den Datensatz angewendet, sodass Kundendaten nur angezeigt werden, wenn sie der vorgegebenen Bedingung des Altersbereichs von 30 bis 55 entsprechen.

    Ein Filter wurde angewendet, sodass nur die Werte für age (Alter) zwischen 30 und 55 angezeigt werden.

    Filter können durch manuelle Eingabe von Werten im Textbereich der Filterleiste erstellt werden. Allerdings sind Diagramme überaus praktisch, um schnell und problemlos Filter auf die Daten in einer oder mehrerer Spalten gleichzeitig anzuwenden.

    Sie haben jetzt einen Überblick über einen bestimmten Altersbereich und möchten zusätzlich zum aktuellen Filter einen zweiten Filter anwenden. Filter lassen sich auf vielfältige Weise miteinander kombinieren. In diesem Fall sollen die fünf Bundesstaaten mit der höchsten Anzahl an Kunden angezeigt werden.

  3. Klicken Sie auf die Überschrift der Spalte state (Bundesstaat), um deren Inhalt auszuwählen.

    Dieses Mal werden die Daten in Form eines horizontalen Balkendiagramms im Profiling-Bereich angezeigt.

    Das Balkendiagramm zeigt die Verteilung der Werte in der Spalte state (Bundesstaat).
  4. Um einen Filter für die fünf führenden Bundesstaaten zu erstellen, d. h. diejenigen, die die meisten Kunden aufweisen, klicken Sie bei gedrückt gehaltener Umschalttaste ( Shift ) auf California (Kalifornien), Texas, Florida, New York und Virginia.
    Das Balkendiagramm zeigt die Verteilung der Werte in der Spalte state (Bundesstaat), gefiltert nach 5 Bundesstaaten.

    Wie Sie der Filterleiste entnehmen können, wurde der Filter zusätzlich zum vorherigen Filter angewendet, d. h. im Raster werden ausschließlich die Daten angezeigt, die beiden Filtern entsprechen.

    Zwei Filter wurden angewendet, sodass nur einige Werte der Spalten age (Alter) und state (Bundesstaat) angezeigt werden.
  5. Um die Daten zu entfernen, die nicht mehr benötigt werden, und nur den gewünschten Datenauszug beizubehalten, klicken Sie auf die Funktion Keep these filtered rows (Diese gefilterten Zeilen beibehalten) im Funktionsbereich.

    Diese Funktion ist nur bei aktivierter Optionsschaltfläche Apply changes to: Filtered rows (Änderungen anwenden auf: Gefilterte Zeilen) verfügbar.

  6. Klicken Sie auf das Papierkorb-Symbol bzw. auf das Kreuz in jedem einzelnen Filter, um die Filterleiste wieder zu leeren.

Results

Ihr Datenauszug enthält jetzt nur noch eine begrenzte Liste mit Kunden, die den festgelegten Bedingungen entsprechen.

Exportieren der Daten für eine spezifische Kundengruppe

Sie haben die Daten, auf die Sie sich konzentrieren möchten, isoliert und bereinigt und können Sie jetzt als lokale Datei exportieren.

Durch die Verwendung von Filtern haben Sie bedingte Aktionen mit den Daten durchgeführt. Nur diejenigen Daten, die sich auf Kunden der Altersgruppe 35 bis 50 in bestimmten Bundesstaaten beziehen, wurden beibehalten. Der aufbereitete Datensatz kann jetzt exportiert werden.

Procedure

  1. Klicken Sie auf die Schaltfläche Export (Exportieren).
  2. Wählen Sie das Dateiformat aus, das für den Export der Daten verwendet werden soll:
    • Bei der Auswahl von Local CSV file (Lokale CSV-Datei) müssen Sie festlegen, welche Feldbegrenzer, Textbegrenzungen und Maskierungszeichen verwendet werden sollen, und einen Namen für die zu exportierende Datei eingeben.
    • Bei der Auswahl von Local XLSX file (Lokale XLSX-Datei) müssen Sie einen Namen für die zu exportierende Datei auswählen.
    • Bei der Auswahl von Amazon S3 müssen Sie Ihre Anmeldedaten und andere Informationen für die Speicherung der Datei in Amazon S3 eingeben.

Results

Die von Ihnen mithilfe der Datenaufbereitung bereinigten Daten werden in eine lokale Datei exportiert.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!