Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Tutorial – Datenfluss für Einsteiger

In diesem Tutorial stellen wir Ihnen einen grundlegenden Anwendungsfall der Datenvorbereitung vor, damit Sie sich mit den verschiedenen Schritten, die zum Aufbau eines Datenflusses erforderlich sind, und mit den verschiedenen gebotenen Möglichkeiten vertraut machen können. Mit dem beigefügten Paket, das zwei Datensätze enthält, können Sie alle Schritte dieses Tutorials nachvollziehen.

Dieses Szenario konzentriert sich auf eine Stichprobe von Verkaufsdaten mit Kunden aus der ganzen Welt und Informationen über deren Namen, Bestelldaten und -status, Herkunftsland, Status, Adressen, Telefonnummern usw. Nehmen wir an, Sie möchten die Daten so vorbereiten, dass der Schwerpunkt auf Kunden aus den Vereinigten Staaten liegt. Sie isolieren alle Daten zu US-Kunden, fügen fehlende Informationen zu den Herkunftsbundesstaaten hinzu, nehmen eine kleine Formatierungsänderung vor und exportieren die Daten in eine neue Datei, die Sie z. B. als Quelle für eine Analyse-App verwenden können.

Voraussetzungen

Laden Sie dieses Paket herunter und entpacken Sie es auf Ihrem Desktop:

Datenfluss für Einsteiger – Tutorial

Das Paket enthält die folgenden Datendateien, die Sie zum Abschließen des Tutorials benötigen.

  • sales_data_sample.xlsx

  • states.xlsx

Hinzufügen der Quelldateien zu Ihrem Katalog

Bevor Sie mit der Erstellung des Datenflusses beginnen, müssen die beiden Dateien aus dem Paket in der Analyseplattform verfügbar sein. So fügen Sie die Quelldaten zu Ihrem Katalog hinzu:

  1. Wählen Sie im Starter-Menü die Option Analyse > Katalog aus.

  2. Klicken Sie oben rechts auf Neu erstellen und wählen Sie Datensatz aus.

  3. Ein neues Fenster wird geöffnet. Klicken Sie auf Datendatei hochladen.

  4. Ziehen Sie die Tutorial-Dateien von Ihrem Desktop in den dafür vorgesehenen Bereich des Fensters Datei hinzufügen oder klicken Sie auf Durchsuchen, um sie an ihrem Speicherort auszuwählen.

  5. Klicken Sie auf Hochladen.

Erstellen des Datenflusses und Hinzufügen einer Quelle

Nun, da die Teile eingerichtet sind, können Sie mit der Erstellung des Datenflusses anfangen, beginnend mit der Quelle.

  1. Wählen Sie im Starter-Menü Analyse > Daten vorbereiten aus.

  2. Klicken Sie auf die Kachel Datenfluss oder klicken Sie auf Neu erstellen > Datenfluss.

  3. Legen Sie im Fenster Neuen Datenfluss erstellen die Informationen Ihres Datenflusses wie folgt fest und klicken Sie auf Erstellen:

    • Datenfluss-Tutorial als Name.

    • Persönlich als Bereich.

    • Datenfluss zur Vorbereitung von Verkaufsdaten mit Schwerpunkt auf US-Kunden als Beschreibung.

    • Tutorial als Tag.

    Der leere Datenfluss wird geöffnet.

    Leerer Arbeitsbereich für einen neu erstellten Datenfluss

  4. Klicken Sie auf dem leeren Arbeitsbereich auf Katalog durchsuchen, um die Datensätze anzuzeigen, die Ihrem Katalog hinzugefügt wurden.

  5. Verwenden Sie die gefilterte Suche, um die zuvor hochgeladenen Datensätze sales_data_sample.xlsx und states.xlsx zu finden, und aktivieren Sie die Kontrollkästchen vor deren Namen.

  6. Klicken Sie auf Weiter.

  7. Überprüfen Sie die Datensätze und ihre Felder in der Übersicht und klicken Sie auf In Datenfluss laden.

    Beide Quelldatensätze werden dem Arbeitsbereich hinzugefügt, und Sie können mit der Vorbereitung der Daten mithilfe von Prozessoren beginnen. sales_data_sample.xlsx ist der Hauptdatensatz, mit dem Sie arbeiten werden. Zudem werden zusätzliche Daten aus states.xlsx verwendet.

    Zwei Quelldatensätze für die Erstellung eines Datenflusses

Filtern der Daten von US-Kunden

Sie können nun damit beginnen, die Daten mit sukzessiven Änderungen durch den Einsatz von Prozessoren vorzubereiten. Der erste Schritt besteht darin, den Umfang des Datensatzes zu reduzieren und nur die Daten von Kunden in den USA zu nutzen. Verwenden Sie dazu den Filter-Prozessor, um nur die Zeilen auszuwählen, die im Feld COUNTRY den Wert USA haben.

  1. Klicken Sie auf das Aktionsmenü (Vertikales Ellipsen-Symbol) der Quelle sales_data_sample auf dem Arbeitsbereich.

  2. Wählen Sie in dem sich öffnenden Menü Prozessor hinzufügen > Filter aus.

    Menü zur Auswahl eines Prozessors, um einen Filter-Prozessor hinzuzufügen

    Der Filter-Prozessor wird auf dem Arbeitsbereich platziert und ist bereits mit dem Quellknoten verbunden.

    InformationshinweisEs ist auch möglich, Prozessoren manuell aus dem linken Fensterbereich Prozessoren zu ziehen und abzulegen und Knoten manuell zu verbinden.
  3. Falls es noch nicht geöffnet ist, klicken Sie oben rechts im Arbeitsbereich auf Eigenschaften, um das Fenster mit den Prozessoreigenschaften zu öffnen. Dort können Sie die Prozessoren konfigurieren und die Datenvorschau und das Skript anzeigen.

  4. Klicken Sie im Eigenschaftsfenster auf das Symbol Bearbeiten (Bearbeiten) neben dem Namen des Prozessors, um dem Prozessor einen aussagekräftigeren Namen wie z. B. US-Filter und eine kurze Beschreibung wie z. B. Gefiltert nach US-Kunden zu geben.

  5. Wählen Sie aus der Dropdown-Liste Zu verarbeitendes Feld die Option COUNTRY aus.

  6. Wählen Sie in der Dropdown-Liste Operator die Option =.

  7. Wählen Sie im Feld Verwenden mit die Option Wert und geben Sie USA ein.

  8. Wählen Sie in der Liste Übereinstimmende Zeilen auswählen die Option Alle Filter aus.

    Diese Parameter sind sinnvoller, wenn Sie mehr als einen Filter kombinieren.

  9. Klicken Sie auf Übernehmen.

    Die Prozessorkonfiguration ist gültig, aber es wird immer noch die Meldung Nicht verbunden angezeigt, weil der Prozessor noch keinen Ausgabefluss hat.

  10. Klicken Sie im unteren Fenster auf Datenvorschau.

    Wenn Sie sich die Vorschau ansehen, sehen Sie, dass in diesem Stadium nur die Zeilen mit dem Land USA beibehalten wurden und in den Ausgabefluss übertragen werden. Ihr bisheriger Datenfluss sollte wie folgt aussehen:

    Datenfluss mit dem konfigurierten Filter-Prozessor

Hinzufügen von Bundesstaatsnamen aus einem anderen Datensatz

Bei den verbleibenden Kunden mit Sitz in den USA enthält das Feld STATE den Herkunftsbundesstaat, allerdings in Form eines Codes aus zwei Buchstaben. Sie möchten diese Informationen leichter lesbar gestalten, indem Sie idealerweise den vollständigen Namen des Bundesstaates angeben.

Der Datensatz „states.xlsx“, den Sie zuvor als Quelle importiert haben, enthält eine Referenz aller US-Bundesstaaten mit den Zwei-Buchstaben-Codes sowie den entsprechenden vollständigen Namen. Sie führen eine Verknüpfung zwischen diesen beiden Datensätzen durch, um die Namen der Bundesstaaten abzurufen und den Hauptfluss zu ergänzen.

Referenzdatensatz mit Bundesstaatsnamen

InformationshinweisZwei Datensätze müssen mindestens ein gemeinsames Feld haben, um für eine Verknüpfung in Frage zu kommen.

So führen Sie die Verknüpfung durch:

  1. Klicken Sie auf das Aktionsmenü (Vertikales Ellipsen-Symbol) des Filter-Prozessors und wählen Sie Prozessor zum passenden Zweig hinzufügen > Verknüpfen.

  2. Benennen Sie den Prozessor über das Symbol Bearbeiten (Bearbeiten) im Eigenschaftsfenster in Vollständige Bundestaatsnamen um.

  3. Verbinden Sie die Quelle states mit dem unteren Ankerpunkt des Join-Prozessors. Erstellen Sie eine Verknüpfung, indem Sie auf den Punkt rechts neben dem Quellknoten klicken, die Maustaste gedrückt halten und die Verknüpfung auf den Punkt links neben dem Prozessorknoten ziehen.

    Zwei Eingabeflüsse, die in einem Join-Prozessor zusammengeführt werden

  4. Wählen Sie in der Dropdown-Liste Join-Typ die Option Left Outer Join.

  5. Wählen Sie in der Dropdown-Liste Linker Schlüssel das Feld STATE.

  6. Wählen Sie in der Dropdown-Liste Rechter Schlüssel das Feld Abbreviation.

    Die beiden markierten Spalten enthalten die gemeinsamen Informationen und ermöglichen eine Verknüpfung zwischen den beiden Eingabeflüssen. Bei einem Left Outer Join werden nur die zusätzlichen Felder aus dem zweiten Datensatz zum Hauptfluss hinzugefügt.

  7. Klicken Sie auf Übernehmen.

    Join-Prozessorkonfiguration, um Bundestaatsnamen abzurufen

    Am Ende des Datensatzes wurde ein neues Feld State hinzugefügt, das den vollständigen Namen des Bundesstaates für jeden Kunden enthält.

Umbenennen und Verschieben von Feldern

Es bestehen jetzt mehrere Probleme mit der Benennung und Formatierung Ihrer Spalten. „STATE“ und „State“ sind sich zu ähnlich, was zu Verwechslungen führen kann, und die beiden Felder sind zu weit voneinander entfernt. Um die Konsistenz und Einheitlichkeit der Felder zu verbessern, können Sie den Felder auswählen-Prozessor verwenden, um Ihre Felder umzubenennen und zu verschieben.

  1. Klicken Sie auf das Aktionsmenü (Vertikales Ellipsen-Symbol) des Join-Prozessors und wählen Sie Prozessor hinzufügen > Felder auswählen aus.

  2. Verbinden Sie den Join-Prozessor mit dem Felder auswählen-Prozessor.

    Ein „Felder auswählen“-Prozessor wird nach der Verknüpfung hinzugefügt

  3. Benennen Sie den Prozessor über das Symbol Bearbeiten (Bearbeiten) im Eigenschaftsfenster in Bundesstaatsfelder umbenennen um.

  4. Zeigen Sie mit der Maus auf die Felder, die Sie umbenennen möchten, und klicken Sie auf das Symbol BearbeitenBearbeiten, um die zwei Feldnamen wie folgt zu bearbeiten:

    • STATE als BUNDESSTAATSCODE

    • State als BUNDESSTAATSNAME

  5. Verwenden Sie das Symbol =, um die neue Spalte BUNDESSTAATSNAME neben BUNDESSTAATSCODE zu ziehen und abzulegen.

  6. Klicken Sie auf Übernehmen.

    Sie haben Ihre Felder neu organisiert, und der Datenfluss sieht jetzt folgendermaßen aus:

    „Felder auswählen“-Prozessorkonfiguration

Kundennamen in Großbuchstaben schreiben

Um die Nachnamen der Kunden hervorzuheben und sie leichter von den Vornamen unterscheiden zu können, verwenden Sie eine einfache Formatierungsfunktion des Strings-Prozessors, um Nachnamen in Großbuchstaben zu schreiben.

  1. Klicken Sie auf das Aktionsmenü (Vertikales Ellipsen-Symbol) des Felder auswählen-Prozessors und wählen Sie Prozessor hinzufügen > Strings aus.

  2. Verbinden Sie den Felder auswählen-Prozessor mit dem Strings-Prozessor.

    Hinzufügen eines Strings-Prozessors zum Datenfluss

  3. Benennen Sie den Prozessor über das Symbol Bearbeiten (Bearbeiten) im Eigenschaftsfenster in Großbuchstaben um.

  4. Wählen Sie in der Dropdown-Liste Funktionsname die Option In Großschreibung ändern.

  5. Wählen Sie in der Dropdown-Liste Zu verarbeitende Felder die Option CONTACTLASTNAME aus.

  6. Klicken Sie auf Übernehmen.

    Konfiguration des Strings-Prozessors, um die Groß- und Kleinschreibung der Nachnamen zu ändern

Hinzufügen eines Ziels und Ausführen des Datenflusses

Die wichtigsten Vorbereitungsschritte sind abgeschlossen, und Sie können nun den Datenfluss abschließen, indem Sie konfigurieren, wie die resultierenden Daten exportiert werden sollen. In diesem Szenario exportieren Sie die vorbereiteten Daten als QVD-Datei, die direkt in Ihrem Katalog gespeichert wird, sodass Sie sie später z. B. bequem in einer Analyse-App verwenden können.

  1. Klicken Sie auf das Aktionsmenü (Vertikales Ellipsen-Symbol) des Strings-Prozessors und wählen Sie Ziel hinzufügen > Datendateien aus.

  2. Verbinden Sie den Strings-Prozessor mit dem Datendateien-Ziel.

    Hinzufügen eines Zielknotens zum Exportieren der Vorbereitung als QVD-Datei

  3. Benennen Sie den Prozessor über das Symbol Bearbeiten (Bearbeiten) im Eigenschaftsfenster in QVD-Ziel um.

  4. Wählen Sie in der Dropdown-Liste Bereich die Option Persönlich.

  5. Geben Sie in das Feld Dateiname tutorial_ausgabe ein.

  6. Wählen Sie in der Dropdown-Liste Erweiterung die Option .qvd aus.

  7. Klicken Sie auf Übernehmen.

    Ihr Datenfluss ist nun vollständig und gültig, wie Sie an dem Status in der Kopfleiste und den grünen Häkchen unter jedem Quell-, Prozessor- und Zielknoten erkennen können.

    Ein vollständiger Datenfluss zur Vorbereitung der Beispieldaten

  8. Klicken Sie oben rechts im Fenster auf die Schaltfläche Fluss ausführen.

    Es öffnet sich ein modales Dialogfenster, das den Fortschritt des Flusses anzeigt.

    Modales Dialogfenster, das den Fortschritt des Flusses anzeigt

    Nach einiger Zeit schließt sich das Fenster und es wird eine Benachrichtigung angezeigt, die Ihnen mitteilt, ob die Ausführung erfolgreich war oder nicht. Die Ausgabe des Datenflusses finden Sie jetzt in Ihrem Katalog oder im Abschnitt Ausgaben des Fensters Übersicht für den Datenfluss.

Nächste Schritte

Sie haben gelernt, wie Sie Datenquellen in Ihren Katalog importieren, einen einfachen Datenfluss erstellen, um Ihre Daten zu filtern und zu verbessern, und das Ergebnis Ihrer Vorbereitung als einsatzbereite Datei exportieren.

Wenn Sie mehr über die vielfältigen Möglichkeiten erfahren möchten, wie Sie Datenflüsse für Ihre eigenen Anwendungsfälle nutzen, werfen Sie einen Blick auf die vollständige Liste von Datenfluss-Prozessoren und die von ihnen gebotenen Funktionen.

Wie Sie Ihre vorbereiteten Daten in Analyseanwendungen verwenden können, erfahren Sie unter Erstellen von Analysen und Visualisieren von Daten.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!