Bereitstellen von Streaming-Daten an Qlik Open Lakehouse
Sie können Daten über eine Streaming-Quelle in Amazon S3 bereitstellen. Danach können diese von der Streaming-Umwandlungsaufgabe in das offene Iceberg-Tabellenformat konvertiert werden.
Die Bereitstellung von Streaming-Daten in einem Qlik Open Lakehouse erfordert einen vorkonfigurierten Amazon S3-Bucket. Qlik Open Lakehouse ist speziell für hochvolumige Datenquellen optimiert und mit allen von Qlik unterstützten Streaming-Datenquellen kompatibel. Weitere Informationen zu unterstützten Streaming-Quellen finden Sie unterVerbinden mit Daten-Streams.
Rohdaten werden im Avro-Format in S3 bereitgestellt, und die Streaming-Umwandlungsaufgabe konvertiert die Daten in das Iceberg-Format. Die Iceberg-Spezifikation ermöglicht die Abfrage von Daten von jeder Engine aus, die Trino SQL nativ unterstützt, zum Beispiel Amazon Athena, Ahana oder Starburst Enterprise. Optional können die Tabellen in Ihren Cloud Data Warehouse gespiegelt werden, wo sie ohne Datenduplizierung abgefragt werden können.
Vorbereitungen
-
Stellen Sie sicher, dass Sie Qlik Open Lakehouse eingerichtet haben. Dies umfasst das Erstellen einer Netzwerkintegration, eines Lakehouse-Clusters sowie von Quell- und Zielverbindungen. Weitere Informationen finden Sie unter Einrichten von Qlik Open Lakehouse.
-
Um Daten in Ihrem Cloud Data Warehouse zu spiegeln, müssen Sie zunächst ein Qlik Open Lakehouse Projekt erstellen, um Ihre Daten einzulesen und sie im offenen Iceberg-Tabellenformat zu speichern. Sie können nach der Streaming-Umwandlungsaufgabe eine Spiegeldatenaufgabe hinzufügen. Weitere Informationen finden Sie unter Spiegeln von Daten in einem Cloud Data Warehouse.
Erstellen einer Streaming-Bereitstellungsaufgabe
Um eine Streaming-Bereitstellungsaufgabe zu erstellen, müssen Sie zuerst das Projekt erstellen. Gehen Sie wie folgt vor:
-
Erstellen Sie ein Projekt und wählen Sie in Anwendungsfall die Option Daten-Pipeline aus.
-
Wählen Sie in Datenplattform die Option Qlik Open Lakehouse aus und stellen Sie eine Verbindung zum Datenkatalog her.
-
Richten Sie in Bereitstellungszielverbindung einen Speicherbereich ein.
-
Klicken Sie auf Erstellen, um das Projekt zu erstellen.
Wenn Sie Daten eingliedern oder eine Bereitstellungsaufgabe im Projekt erstellen, wird eine Streaming-Bereitstellungsaufgabe anstelle einer Bereitstellungsaufgabe erstellt. Streaming-Bereitstellungsaufgaben funktionieren und verhalten sich ähnlich wie eine Bereitstellungsaufgabe, stellen aber Daten aus Streaming-Quellen an den Cloud-Speicher bereit. Weitere Informationen finden Sie unter Verbinden mit Daten-Streams.
Alle Dateien werden im Avro-Format bereitgestellt. Nach der Aktualisierung der Bereitstellungsdaten nutzt die Streaming-Umwandlungsaufgabe die Bereitstellungsdaten und aktualisiert die externen Tabellen.
Anzeigen von Aufgabeninformationen
Klicken Sie in der Menüleiste auf , um Aufgabeninformationen anzuzeigen, wie zum Beispiel:
-
Besitzer
-
Bereich
-
Datenplattform
-
Projekt-ID
-
Datenaufgaben-Laufzeit-ID
Operationen
Die folgenden Vorgänge sind in einer Streaming-Bereitstellungsaufgabe verfügbar:
-
Löschen von Spalten
Wählen Sie die Spalte aus und klicken Sie auf Entfernen.
Dadurch wird eine Umwandlungsregel hinzugefügt, die die Spalte aus neu geladenen Daten entfernt, nachdem die Aufgabe vorbereitet und ausgeführt wurde. Sie können die Spalte für neue Datensätze wiederherstellen, indem Sie die Umwandlungsregel löschen.
-
Durch Hashing einer Spalte können z. B. vertrauliche Informationen maskiert werden.
Wählen Sie Hash in der Spalte aus.
Dadurch wird ein SHA-256-Hash der Eingabespalte generiert, nachdem diese mit der Hash-Salt-Zeichenfolge zusammengefasst wurde. Hash-Salt-String ist eine Projekteinstellung, die in Qlik Open Lakehouse-Projekten verfügbar ist.
Der Datentyp wird in String geändert, wenn eine Spalte gehasht wird. Wenn Sie auch nicht gehashte Daten für berechtigte Benutzer beibehalten möchten, führen Sie das Hashing später in einer Umwandlungsaufgabe durch.
-
Filtern von Daten
Weitere Informationen finden Sie unter Filtern eines Datensatzes.
-
Umbenennen eines Datensatzes
Klicken Sie im Datensatz auf
und wählen Sie Umbenennen aus.
Löschen einer Aufgabe
Sie können die Datenaufgabe löschen, wenn sie nicht ausgeführt wird und keine Abhängigkeiten zu nachgelagerten Aufgaben im selben Projekt bestehen.
-
Klicken Sie in der Ansicht Pipeline-Projekt des Projekts in einer Aufgabe auf
und wählen Sie Löschen aus.
Von der Aufgabe erstellte Artefakte (Tabellen und Ansichten) werden ebenfalls gelöscht, es sei denn, Sie möchten sie beibehalten.
Einstellungen
Weitere Informationen zu Aufgabeneinstellungen finden Sie unter Streaming-Lake-Bereitstellungseinstellungen.