Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Erstellen einer Daten-Pipeline

Sie können eine Daten-Pipeline erstellen, um Ihre ganze Datenintegration innerhalb eines Projekts mithilfe von Datenaufgaben durchzuführen. Beim Onboarding werden Daten aus lokalen bzw. Cloud-Datenquellen in das Projekt verschoben und in einsatzbereiten Datensätzen gespeichert. Sie können auch Umwandlungen vornehmen und Data Marts erstellen, um Ihre generierten und umgewandelten Datensätze zu nutzen. Die Daten-Pipeline kann einfach und linear sein, oder es kann sich um eine komplexe Pipeline handeln, die mehrere Datenquellen nutzt und zahlreiche Ausgaben erstellt.

Alle Datenaufgaben werden im gleichen Bereich wie das Projekt erstellt, zu dem sie gehören.

Sie können auch die Herkunft anzeigen, um Daten und Datenumwandlungen zurück zur ursprünglichen Quelle zu verfolgen und Auswirkungsanalysen durchführen, die eine vorwärtsgerichtete, nachgelagerte Ansicht von Datenaufgaben-, Datensatz- oder Feldabhängigkeiten zeigt. Weitere Informationen finden Sie unter Arbeiten mit Herkunft und Auswirkungsanalyse in Datenintegration.

Eingliederung von Daten

Dies umfasst das Bereitstellen der Daten in einem Bereitstellungsbereich und das anschließende Speichern der Datensätze in einem Cloud Data Warehouse. Bereitstellungs- und Speicherdatenaufgaben werden in einem einzigen Schritt erstellt. Bei Bedarf können Sie die Bereitstellung und die Speicherung auch in getrennten Aufgaben durchführen.

Registrieren von Daten, die bereits in der Datenplattform vorhanden sind

Registrieren Sie Daten, die bereits auf der Datenplattform vorhanden sind, um Daten zusammenzustellen und umzuwandeln und um Data Marts zu erstellen. Damit können Daten nach der Eingliederung mit anderen Tools als Qlik Talend Data Integration verwendet werden, z. B. Qlik Replicate oder Stitch.

Umwandeln von Daten

Erstellen Sie nach dem Onboarding der Daten wiederverwendbare Umwandlungen auf Zeilenebene, die auf Regeln und benutzerdefinierter SQL basieren. Damit wird eine Umwandlungsdatenaufgabe erstellt.

Erstellen und Verwalten von Data Marts

Erstellen Sie einen Data Mart, um Ihre Datensätze zu nutzen. Damit wird eine Data Mart-Datenaufgabe erstellt.

Zieldatenplattformen

Das Projekt wird mit einer Datenplattform verknüpft, die als Ziel für alle Ausgaben verwendet wird.

Weitere Informationen zu unterstützten Datenplattformen finden Sie unter Einrichten von Verbindungen zu Zielen.

Video: Einführung in Projekte

Beispiel für das Erstellen eines Projekts

Im folgenden Beispiel wird das Onboarding von Daten, das Umwandeln der Daten und das Erstellen eines Data Mart gezeigt. Damit wird eine einfache lineare Daten-Pipeline erstellt, die Sie durch Onboarding weiterer Datenquellen erweitern können. Sie können weitere Umwandlungen erstellen und die generierten Datenaufgaben zum Data Mart hinzufügen.

Beispiel einer linearen Daten-Pipeline in einem Projekt

  1. Klicken Sie in Data Integration > Projekte auf Projekt erstellen.

    1. Geben Sie einen Namen und eine Beschreibung für das Projekt ein, und wählen Sie einen Bereich aus, in dem das Projekt erstellt werden soll. Alle Datenaufgaben werden im Bereich des Projekts erstellt, zu dem sie gehören.

      InformationshinweisWenn Sie später die Versionskontrolle für das Projekt aktivieren, können Sie den Projektnamen nicht mehr ändern, solange sich das Projekt unter Versionskontrolle befindet.
    2. Wählen Sie in Anwendungsfall die Option Daten-Pipeline aus.
    3. Wählen Sie aus, welche Datenplattform im Projekt verwendet werden soll.

    4. Wählen Sie eine Verbindung zum Cloud Data Warehouse aus, die Sie im Projekt verwenden möchten. Sie wird verwendet, um Datendateien bereitzustellen und Datensätze und Ansichten zu speichern. Wenn Sie noch keine Verbindung vorbereitet haben, erstellen Sie eine mit Verbindung hinzufügen.

      Wenn Sie Google BigQuery, Databricks oder Microsoft Azure Synapse Analytics als Datenplattform ausgewählt haben, müssen Sie auch eine Verbindung mit einem Bereitstellungsbereich herstellen.

    5. Wenn Sie Qlik Cloud als Datenplattform ausgewählt haben:

      Sie können Daten entweder im verwalteten Speicher von Qlik oder in Ihrem eigenen verwalteten Amazon S3-Bucket speichern. Wenn Sie Ihren eigenen Amazon S3-Bucket verwenden möchten, müssen Sie eine Verbindung mit diesem Bucket auswählen.

      In beiden Fällen müssen Sie auch eine Verbindung mit einem Amazon S3-Bereitstellungsbereich auswählen. Wenn Sie den gleichen Bucket verwenden, den Sie im vorherigen Schritt definiert haben, vergewissern Sie sich, dass Sie einen anderen Ordner im Bucket für die Bereitstellung verwenden.

    6. Klicken Sie auf Erstellen.

      Das Projekt wird erstellt, und Sie können Ihre Daten-Pipeline erstellen, indem Sie Datenaufgaben hinzufügen.

  2. Klicken Sie im Projekt auf Erstellen und dann auf Daten eingliedern.

    Weitere Informationen finden Sie unter Eingliederung von Daten.

    Damit wird eine Bereitstellungsdatenaufgabe und eine Speicherdatenaufgabe erstellt. Um mit der Replikation von Daten zu beginnen, müssen Sie Folgendes tun:

  3. Nachdem die Speicherdatenaufgabe erstellt ist, gehen Sie zurück zum Projekt. Jetzt können Sie für die erstellten Datensätze Umwandlungen durchführen.

    Klicken Sie in der Speicherdatenaufgabe auf ... und wählen Sie Daten umwandeln aus, um eine Umwandlungsdatenaufgabe basierend auf dieser Speicherdatenaufgabe zu erstellen. Anleitungen zu Umwandlungen finden Sie unter Umwandeln von Daten.

  4. Sie können einen Data Mart basierend auf einer Speicherdatenaufgabe oder einer Umwandlungsdatenaufgabe erstellen.

    Klicken Sie in der Datenaufgabe auf ... und wählen Sie Data Mart erstellen aus, um eine Data Mart-Datenaufgabe zu erstellen. Anleitungen zum Erstellen eines Data Mart finden Sie unter:

    Erstellen und Verwalten von Data Marts

Nachdem Sie das erste vollständige Laden der gespeicherten und umgewandelten Datensätze und Data Marts durchgeführt haben, können Sie sie beispielsweise in einer Analyse-App verwenden. Weitere Informationen zum Erstellen von Analyse-Apps finden Sie unter Erstellen einer Analyse-App anhand von mit Qlik Talend Data Integration erstellen Datensätzen.

Sie können auch die Daten-Pipeline erweitern, indem Sie weitere Datenquellen eingliedern, und diese in der Umwandlung oder im Data Mart kombinieren.

Vorgänge in einem Daten-Pipeline-Projekt

Sie können die gleichen Vorgänge, die für eine Datenaufgabe verfügbar sind, auch als Projektvorgänge ausführen. So können Sie die Vorgänge in der Daten-Pipeline organisieren.

InformationshinweisPro Projekt kann jeweils nur ein Projektvorgang ausgeführt werden.
  • Pläne aktivieren und deaktivieren

  • Designvorgänge ausführen

  • Die Ausführung von Datenaufgaben starten und anhalten

  • Datenaufgaben löschen

Klicken Sie auf Vorgänge, um den Status eines laufenden Vorgangs oder des letzten ausgeführten Vorgangs anzuzeigen.

Sie können einen laufenden Vorgang anhalten, indem Sie auf Vorgang anhalten klicken. Laufende Datenaufgaben werden nicht angehalten, aber alle noch nicht gestarteten Aufgaben werden abgebrochen.

Aktivieren und Deaktivieren von Plänen

Sie können die Pläne für Datenaufgaben auf Projektebene steuern.

  • Klicken Sie auf ... und dann auf Plan.

    Sie können den Plan für alle Datenaufgaben oder für eine Aufgabenauswahl aktivieren oder deaktivieren. Nur Aufgaben mit einem definierten Plan werden angezeigt.

    InformationshinweisDiese Option ist für Projekte mit Qlik Cloud als Datenplattform nicht verfügbar.

Weitere Informationen zum Planen von individuellen Datenaufgaben finden Sie unter:

Durchführen von Designvorgängen

Sie können Designvorgänge für alle Datenaufgaben im Projekt oder für eine Aufgabenauswahl ausführen. Damit wird es einfacher, die Datensatzaufgaben im Projekt zu steuern, da die Designvorgänge nicht einzeln für jede Aufgabe ausgeführt werden müssen.

  • Validieren

    Klicken Sie auf Validieren, um alle Aufgaben oder eine Aufgabenauswahl zu validieren. Datenaufgaben, die seit dem letzten Validierungsvorgang geändert wurden, sind bereits ausgewählt.

    Die Datenaufgaben werden in Reihenfolge der Pipeline validiert.

  • Vorbereiten

    Klicken Sie auf Vorbereiten, um alle Aufgaben oder eine Aufgabenauswahl vorzubereiten. Datenaufgaben, die seit dem letzten Vorbereitungsvorgang geändert wurden, sind bereits ausgewählt.

    Sie können wählen, einen Datensatz neu zu erstellen, der eine von der Datenplattform nicht unterstützte Strukturänderung erfordert. Dies kann zu Datenverlust führen.

  • Neu erstellen

    Klicken Sie auf ... und dann auf Neu erstellen, um die Datensätze für alle Aufgaben oder für eine Aufgabenauswahl aus der Quelle neu zu erstellen.

Ausführen von Datenaufgaben

Sie können die Ausführung aller Datenaufgaben im Projekt oder einer Aufgabenauswahl einleiten, statt die Aufgaben einzeln auszuführen. Beispielsweise können Sie alle Aufgaben nach einem zeitbasierten Plan ausführen. Dadurch werden nachgelagerte Aufgaben mit einem ereignisbasierten Plan begonnen.

  • Ausführen

    Klicken Sie auf Ausführen, um die Ausführung aller Aufgaben oder einer Aufgabenauswahl zu beginnen. Damit wird die Ausführung aller ausgewählten Aufgaben begonnen, und der Befehl endet, sobald die Ausführung gestartet hat.

    Sie können unter allen Aufgaben wählen, die zur Ausführung bereit sind. Aufgaben mit einem zeitbasierten Plan und Aufgaben, die CDC verwenden, sind vorausgewählt. Aufgaben mit einem ereignisbasierten Plan sind nicht vorausgewählt, da sie dann ausgeführt werden, wenn neue zu verarbeitende Daten vorliegen.

    In einem Projekt mit Qlik Cloud als Datenplattform sind alle Bereitstellungs- und Speicheraufgaben vorausgewählt.

    InformationshinweisAlle Datenaufgaben werden parallel ausgeführt. Das bedeutet, dass Abhängigkeitsprüfungen die Ausführung mancher Aufgaben verhindern können.
  • Anhalten

    Klicken Sie auf Anhalten, um alle Aufgaben oder eine Aufgabenauswahl anzuhalten.

    Sie können unter Aufgaben wählen, die ausgeführt werden.

Löschen von Datenaufgaben

  • Klicken Sie auf „Löschen“, um alle Datenaufgaben im Projekt oder eine Aufgabenauswahl zu löschen.

Ändern der Ansicht eines Projekts

Es gibt zwei verschiedene Ansichten für ein Projekt. Sie können zwischen den Ansichten wechseln, indem Sie auf Pipeline-Ansicht klicken.

  • Die Pipeline-Ansicht zeigt den Datenfluss der Datenaufgaben.

    Sie können wählen, wie viele Informationen Sie für die Datenaufgaben anzeigen möchten, indem Sie auf Ebenen klicken. Aktivieren oder deaktivieren Sie die folgenden Informationen:

    • Status

    • Aktualität der Daten

    • Zeitplan

  • Die Kartenansicht zeigt Informationen über die Datenaufgabe.

    Sie können nach Objekttyp und Besitzer filtern.

Anzeigen von Daten

Sie können Beispieldaten anzeigen, um die Form Ihrer Daten zu sehen und zu validieren, während Sie die Daten-Pipeline entwerfen.

Die folgenden Berechtigungen sind erforderlich:

  • Das Anzeigen der Daten auf Mandantenebene wird in Verwaltung aktiviert.

    Aktivieren Sie Einstellungen > Funktionssteuerung > Anzeigen von Daten in Datenintegration.

  • Ihnen wird die Rolle Kann Daten anzeigen in dem Bereich zugewiesen, in dem sich die Verbindung befindet.

  • Ihnen wird die Rolle Kann anzeigen in dem Bereich zugewiesen, in dem sich das Projekt befindet.

So zeigen Sie Beispieldaten in der Daten-Pipeline-Ansicht an:

  1. Klicken Sie im Vorschau-Banner unten in der Pipeline-Ansicht auf Aufwärts.

  2. Wählen Sie aus, für welche Datenaufgabe Sie eine Vorschau der Daten anzeigen möchten.

Ein Beispiel der Daten wird angezeigt. Mit Zeilenanzahl können Sie festlegen, wie viele Datenzeilen in das Beispiel eingeschlossen werden sollen.

Exportieren und Importieren von Projekten

Sie können ein Projekt in eine JSON-Datei exportieren, die alle erforderlichen Informationen zum Rekonstruieren des Projekts enthält. Die exportierte JSON-Datei kann in den gleichen Mandanten oder in einen anderen Mandanten exportiert werden. Sie können dies beispielsweise zum Verschieben von Projekten von einem Mandanten zu einem anderen oder zum Erstellen von Sicherungskopien von Projekten verwenden.

Weitere Informationen finden Sie unter Exportieren und Importieren von Daten-Pipelines.

Projekteinstellungen

Sie können gemeinsame Eigenschaften für das Projekt und alle eingeschlossenen Datenaufgaben festlegen.

  • Klicken Sie auf Einstellungen.

Weitere Informationen finden Sie unter Daten-Pipeline-Projekteinstellungen.

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!