Aufbau eines Datenflusses
Videozusammenfassung
Erstellen eines Datenflusses
Beginnen Sie mit der Erstellung eines neuen Datenflusses.
-
Wählen Sie im Starter-Menü Analyse > Erstellen oder Analyse > Daten vorbereiten aus.
-
Klicken Sie auf Datenfluss.
Das Dialogfenster Neuen Datenfluss erstellen wird geöffnet.
-
Geben Sie im entsprechenden Feld einen Namen für den Datenfluss ein.
-
Wählen Sie aus der entsprechenden Dropdown-Liste aus, in welchem Bereich Sie den Datenfluss speichern möchten.
-
Fügen Sie eine Beschreibung hinzu, um den Zweck des Datenflusses festzuhalten.
-
Fügen Sie dem Datenfluss einige Tags hinzu, damit er leichter gefunden werden kann.
-
Aktivieren Sie optional das Kontrollkästchen Datenfluss öffnen, um den Datenfluss direkt nach seiner Erstellung anzuzeigen.
-
Klicken Sie auf Erstellen.
Der leere Datenfluss wird geöffnet und Sie gelangen zur Registerkarte Übersicht der Navigationskopfzeile. Den neuen Datenfluss finden Sie später auch auf der Seite Analyse > Startseite von Qlik Cloud.
Weitere Informationen zu den Angaben in der Übersicht des Datenflusses finden Sie unter Navigieren in Datenflüssen.
Um mit der Gestaltung des Datenflusses zu beginnen, gehen Sie zur Registerkarte Editor in der Navigationskopfzeile.
Auswählen einer Quelle
Der erste Baustein des Datenflusses ist die Quelle, die die Daten enthält, die Sie vorbereiten möchten. Sie können beliebige Daten aus Ihrem Katalog oder aus einer Verbindung verwenden.
Hinzufügen von Daten aus einem Datensatz
Die im Katalog gespeicherten Datensätze können auf Dateien (.qvd,.xls,.csv,.parquet,.json usw.) oder auf Tabellen aus Datenbanken und Data Warehouses basieren.
Unter Dateiformate finden Sie eine Liste der unterstützten Formate.
So wählen Sie einen Datensatz als Quelle für den Datenfluss aus:
-
Ziehen Sie auf der Registerkarte Quellen im linken Fensterbereich eine Datenquelle und legen Sie sie im Arbeitsbereich ab.
Es öffnet sich das Fenster Datenkatalog, in dem Sie nach bereits hochgeladenen Datensätzen suchen können, oder klicken Sie auf Datendatei hochladen, um nach Dateien auf Ihrem Computer zu suchen und diese direkt hochzuladen.
WarnhinweisBeim Hochladen großer Dateien mit mehr als 300 MB kann der Vorgang einige Zeit dauern. Schließen Sie das Fenster nicht. Der Fortschritt wird auf einem Wartekreisel angezeigt, der anfangs leer aussehen kann. -
Aktivieren Sie mithilfe der Such- und Filterfunktionen das Kontrollkästchen vor einem oder mehreren Datensätzen in der Liste und klicken Sie auf Weiter.
-
Auf der Registerkarte Zusammenfassung können Sie die von Ihnen ausgewählten Datensätze überprüfen, die darin enthaltenen Felder kontrollieren und bei Bedarf einige ausschließen. Klicken Sie auf In Datenfluss laden.
Die Quellen werden dem Arbeitsbereich hinzugefügt, und es wird eine Warnung angezeigt, dass Sie sie mit anderen Knoten verbinden müssen.
Nachdem eine Quelle auf dem Arbeitsbereich platziert wurde, können Sie darauf klicken und das Fenster Eigenschaften öffnen, um die ausgewählten Felder bei Bedarf zu bearbeiten, z. B. wenn das Schema der Quelle aktualisiert wurde.
Hochladen und Konfigurieren einer CSV-Datei
Wenn Sie einen CSV-Dateidatensatz als Quelle verwenden, der entweder zuvor in Ihren Katalog oder direkt während des Prozesses hochgeladen wurde, und die Daten in der Vorschau nicht richtig angezeigt werden, könnte dies bedeuten, dass die Datei nicht korrekt formatiert ist.
Zum Beispiel werden diese Kundendaten, die ein Komma als Trennzeichen verwenden, in einer einzigen Spalte angezeigt.
Die Datei war entweder falsch formatiert oder das Trennzeichen wurde beim Hochladen nicht korrekt erkannt. Um dieses Problem zu beheben, müssen Sie die Einstellungen des Datensatzes aufrufen.
-
Wählen Sie im Starter-Menü die Option Analyse > Katalog aus.
-
Öffnen Sie den zu korrigierenden Datensatz.
In der Datensatzübersicht sehen Sie eine Warnung, dass ein möglicher Formatierungsfehler vorliegt.
-
Klicken Sie auf den Link zu den Dateiformateinstellungen in der Warnmeldung oder verwenden Sie das Menü Weitere Aktionen oben rechts in der Übersicht.
Sie können sehen, dass das Trennzeichen fälschlicherweise als Semikolon festgelegt wurde.
-
Wählen Sie aus der Dropdown-Liste Trennzeichen die Option Komma aus.
Mit dem erwarteten Trennzeichen zeigt die Vorschau nun die verschiedenen Felder korrekt an.
-
Klicken Sie auf Speichern.
-
Kehren Sie zum Datenfluss zurück. Wenn der Arbeitsbereich nicht leer war, löschen Sie die veraltete Quelle und fügen Sie sie erneut hinzu. Diesmal wird die Quelle mit der richtigen Datensatzkonfiguration angezeigt.
Hinzufügen von Daten aus einer Verbindung
Qlik Cloud und Datenflüsse unterstützen eine Vielzahl von Verbindungen zu Datenquellen. Weitere Informationen finden Sie in der Liste der unterstützten Datenquellen.
Die einzigen Verbindungstypen, die derzeit nicht unterstützt werden, sind die Folgenden:
So wählen Sie eine Verbindung als Quelle für den Datenfluss aus:
-
Ziehen Sie auf der Registerkarte Quellen im linken Fensterbereich eine Verbindungsquelle und legen Sie sie im Arbeitsbereich ab.
Es öffnet sich das Fenster Verbindung auswählen, in dem Sie nach bereits erstellten Verbindungen suchen können, oder klicken Sie auf Verbindung erstellen, um nach der Authentifizierung direkt eine neue Verbindung zu erstellen.
-
Aktivieren Sie mithilfe der Such- und Filterfunktionen das Kontrollkästchen vor einer Verbindung aus Ihrer Liste und klicken Sie auf Weiter.
-
Je nach Verbindung haben Sie die Möglichkeit, Dateien zu durchsuchen, einen Pfad zu den Daten einzugeben oder Tabellen aus einer Datenbank auszuwählen.
-
Nachdem Sie die Datenquelle ausgewählt haben, klicken Sie auf Speichern oder Fertig stellen.
Die Quelle wird dem Arbeitsbereich hinzugefügt, und es wird eine Warnung angezeigt, dass Sie sie mit anderen Knoten verbinden müssen.
Nachdem eine Quelle auf dem Arbeitsbereich platziert wurde, können Sie darauf klicken und das Fenster Eigenschaften öffnen, um die ausgewählten Felder bei Bedarf zu bearbeiten, z. B. wenn das Schema der Quelle aktualisiert wurde.
Hinzufügen von Prozessoren
Prozessoren sind die Bausteine, die die verschiedenen in einem Datenfluss verfügbaren Vorbereitungsfunktionen enthalten. Sie empfangen die eingehenden Daten und geben die vorbereiteten Daten an den nächsten Schritt des Flusses zurück. Mit Prozessoren können Sie komplexe Extraktions-, Verbesserungs- und Bereinigungsvorgänge an verschiedenen Daten mit einer Live-Vorschau durchführen. Weitere Informationen zu den verfügbaren Funktionen finden Sie in der Datenfluss-Prozessoren.
So verbinden Sie einen ersten Prozessor mit Ihrer Datenquelle:
-
Sie haben folgende Möglichkeiten:
-
Ziehen Sie auf der Registerkarte Prozessoren des linken Fensters den gewünschten Prozessor und legen Sie ihn im Arbeitsbereich neben der Quelle ab.
Sie müssen die Verbindung zwischen der Quelle und dem Prozessor manuell herstellen. Erstellen Sie eine Verknüpfung, indem Sie auf den Punkt rechts neben dem Quellknoten klicken, die Maustaste gedrückt halten und die Verknüpfung auf den Punkt links neben dem Prozessorknoten ziehen.
-
Klicken Sie auf das Aktionsmenü der Quelle, wählen Sie Prozessor hinzufügen aus und klicken Sie auf den gewünschten Prozessor.
Der Prozessor wird auf dem Arbeitsbereich platziert und automatisch mit der Quelle verbunden.
-
-
Klicken Sie auf den Prozessor, um ihn im rechten Fensterbereich zu konfigurieren.
Die verschiedenen verfügbaren Funktionen und die zu konfigurierenden Parameter hängen vom jeweiligen Prozessor ab. Weitere Informationen finden Sie in der Dokumentation zu den einzelnen Prozessoren.
-
Klicken Sie auf Speichern.
-
Fügen Sie so viele Prozessoren wie nötig hinzu und verbinden Sie sie, um Ihre Daten vorzubereiten.
Aktivieren Sie den Schalter Datenvorschau im Fenster Vorschau, um die Auswirkungen eines Prozessors auf eine Stichprobe Ihrer Daten zu sehen. Klicken Sie auf das Zahnradsymbol, um die Einstellungen der Vorschau zu öffnen und die Stichprobengröße auf bis zu 10000 Zeilen einzustellen. Sie können auch den Schalter Script aktivieren, um das Qlik Script-Äquivalent Ihres Datenflusses zu diesem Zeitpunkt anzuzeigen.
Auswählen eines Ziels
Um den Datenfluss zu beenden, müssen Sie den letzten Prozessor mit einem Zielknoten verbinden. Sie können zwischen zwei Zieltypen wählen:
-
Datendateien für Dateien, die in Ihrem Katalog in Qlik Cloud gespeichert sind.
-
Verbindungen zum Schreiben in einer externen Quelle, die als Verbindung in Qlik Cloud hinzugefügt wurde.
Mit beiden Optionen können Sie die vorbereiteten Daten als QVD-, Parquet-, TXT- oder CSV-Datei exportieren.
So verbinden Sie ein Ziel mit dem Rest des Flusses:
-
Sie haben folgende Möglichkeiten:
-
Ziehen Sie auf der Registerkarte Ziele des linken Fensters den gewünschten Prozessor und legen Sie ihn im Arbeitsbereich neben dem letzten Prozessor ab.
Verbinden Sie den letzten Prozessor manuell mit dem Ziel, und zwar auf dieselbe Weise, wie Sie zuvor Prozessoren verbunden haben.
-
Klicken Sie auf das Aktionsmenü des letzten Prozessors, wählen Sie Ziel hinzufügen aus und klicken Sie auf das gewünschte Ziel.
-
-
Klicken Sie auf das Ziel, um es im rechten Fenster zu konfigurieren.
InformationshinweisIm Fall von Datendateien können Sie in einen bestimmten Ordner des gewünschten Bereichs schreiben. Wenn Sie beispielsweise in Ihrem persönlichen Bereich einen Ordner namens folder_name erstellt haben, verwenden Sie folder_name/data_flow_output.qvd als Dateinamen für Ihr Ziel. Die resultierende Datei wird direkt an Ihren Ordner gesendet. -
Klicken Sie auf Speichern.
Mit einem Minimum aus einer Quelle, einem Ziel und einem optionalen Prozessor kann der Datenfluss nun ausgeführt werden.
Ausführen des Datenflusses
Wenn alle Knoten Ihres Datenflusses verbunden, konfiguriert und als OK markiert sind, zeigt ein grünes Häkchen an, dass der Datenfluss als gültig betrachtet wird und ausgeführt werden kann. An diesem Punkt können Sie die Schaltfläche Skriptvorschau oben rechts im Arbeitsbereich verwenden, um das vollständige Skript anzuzeigen, das im Hintergrund generiert wird.
-
Klicken Sie auf Fluss ausführen, um die Verarbeitung der Daten zu starten.
Es öffnet sich eine Benachrichtigung, die den Status der Ausführung anzeigt.
-
Nachdem der Fluss erfolgreich abgeschlossen wurde, finden Sie die ausgegebenen vorbereiteten Daten je nach Ziel an verschiedenen Stellen:
-
Im Katalog unter Ihren anderen Objekten und im Abschnitt Ausgaben der Übersicht des Datenflusses für Datendateien
-
Im Abschnitt Ausgaben der Übersicht des Datenflusses für verbindungsbasierte Datensätze
-
Sie können diese vorbereiteten Daten nun als bereinigte Quelle für ein AutoML-Experiment oder in einer Visualisierungs-App verwenden.