Verwenden von Filtern zur Erstellung von „if“-Bedingungen für Kundendaten
Der Datensatz video_customers.xlsx enthält ein Daten-Sample mit verschiedenen Informationen über US-amerikanische Kunden eines Videostreaming-Anbieters. In der Datei werden Namen, Bundesstaat, Alter und Abonnierungsdatum für die Kunden aufgeführt.
Nach der Kombination verschiedener Filter, die wie „if“-Bedingungen funktionieren, können Sie eine Bereinigungsoperation für die Kundenkategorie durchführen, an der Sie speziell interessiert sind. In diesem Beispiel möchten Sie eine Datei ausgeben, die Kunden des Altersbereichs 30 bis 55 aus den fünf US-Bundesstaaten mit den meisten registrierten Kunden enthält, während nicht verwertbare Daten ausgegrenzt werden sollen.
Laden Sie folgende Datei herunter: video_customers.xlsx.
Hinzufügen einer Datenaufbereitung für den Datensatz video customers
Fügen Sie eine Datenaufbereitung hinzu, um die Aufbereitung und Bereinigung Ihrer Daten in Angriff zu nehmen.
Sie können eine Datenaufbereitung ausgehend von einem in Talend Data Preparation bereits verfügbaren Datensatz oder ausgehend von einer Ihrer lokalen Dateien erstellen. Beim Hinzufügen einer Datenaufbereitung über die entsprechende Schaltfläche wird diese in dem Ordner erstellt, in dem Sie zurzeit arbeiten. Darüber hinaus wird die Datenaufbereitung automatisch in die Liste der Datenaufbereitungen aufgenommen, alle von Ihnen vorgenommenen Änderungen werden automatisch gespeichert.
Before you begin
Procedure
Results
Der Datensatz wird mit einem leeren Rezept geöffnet, und Sie können mit den Arbeitsschritten zum Hinzufügen einer Datenaufbereitung beginnen. Alle Änderungen, die Sie vornehmen, werden automatisch gespeichert.
Entfernen aller leeren und ungültigen Datenelemente
Die Qualitätsleiste verweist darauf, dass eine Spalte leere oder ungültige Datenelemente enthält.
Daten, die dem Spaltentyp entsprechen, werden in der Qualitätsleiste grün angezeigt, rot hingegen kennzeichnet ungültige Daten, die nicht mit dem Spaltentyp übereinstimmen. Leere Datenelemente werden grau angezeigt.
Da Sie sich auf Kunden eines spezifischen Altersbereichs und aus bestimmten Bundesstaaten konzentrieren möchten, sind leere Daten in den entsprechenden Spalten für Sie ohne jeden Nutzen. Deshalb möchten Sie die Zeilen mit leeren Daten aus den Spalten age (Alter) und state (Bundesstaat) sowie darüber hinaus die ungültigen Werte aus dem Datensatz entfernen.
Procedure
Results
Die Zeilen mit leeren oder ungültigen Werten wurden aus den Spalten age (Alter), state (Bundesstaat) und phone numbers (Telefonnummer) entfernt. Der Datensatz wurde somit um einiges bereinigt. Sie können sich folglich auf die Daten konzentrieren, die Sie herausstellen möchten.
Erstellen von Filtern für Alter und Bundesstaat
Durch die Erstellung eines Filters lassen sich Daten schnell identifizieren bzw. isolieren.
Sie ziehen erneut Filter heran, um die Daten zu isolieren, an denen Sie in diesem Beispiel am meisten interessiert sind, d. h. Alter und Standort der Kunden. Der Bereich des Data-Profiling in der unteren rechten Ecke der Oberfläche ermöglicht eine Interaktion mit den Diagrammen, die die Daten in den Spalten age (Alter) und state (Bundesstaat) illustrieren, und die Auswahl eines spezifischen Datumsbereichs.
Procedure
Results
Ihr Datenauszug enthält jetzt nur noch eine begrenzte Liste mit Kunden, die den festgelegten Bedingungen entsprechen.
Exportieren der Daten für eine spezifische Kundengruppe
Sie haben die Daten, auf die Sie sich konzentrieren möchten, isoliert und bereinigt und können Sie jetzt als lokale Datei exportieren.
Durch die Verwendung von Filtern haben Sie bedingte Aktionen mit den Daten durchgeführt. Nur diejenigen Daten, die sich auf Kunden der Altersgruppe 35 bis 50 in bestimmten Bundesstaaten beziehen, wurden beibehalten. Der aufbereitete Datensatz kann jetzt exportiert werden.
Procedure
- Klicken Sie auf die Schaltfläche Export (Exportieren).
-
Wählen Sie das Dateiformat aus, das für den Export der Daten verwendet werden soll:
- Bei der Auswahl von Local CSV file (Lokale CSV-Datei) müssen Sie festlegen, welche Feldbegrenzer, Textbegrenzungen und Maskierungszeichen verwendet werden sollen, und einen Namen für die zu exportierende Datei eingeben.
- Bei der Auswahl von Local XLSX file (Lokale XLSX-Datei) müssen Sie einen Namen für die zu exportierende Datei auswählen.
- Bei der Auswahl von Amazon S3 müssen Sie Ihre Anmeldedaten und andere Informationen für die Speicherung der Datei in Amazon S3 eingeben.
Results
Die von Ihnen mithilfe der Datenaufbereitung bereinigten Daten werden in eine lokale Datei exportiert.