Bereitstellen von Daten an Qlik Open Lakehouse
Die Daten werden in Amazon S3 bereitgestellt und sind bereit für die Konvertierung in das offene Iceberg-Tabellenformat durch die Speicherdatenaufgabe. Sie können Daten aus allen von Qlik unterstützten Quellen bereitstellen.
Die Bereitstellung von Daten in einem Qlik Open Lakehouse erfordert einen vorkonfigurierten Amazon S3-Bucket. Qlik Open Lakehouse ist speziell für hochvolumige Streaming-Datenquellen optimiert und mit allen von Qlik unterstützten Datenquellen kompatibel. Die Daten werden im CSV-Format in S3 bereitgestellt. Die Speicherdatenaufgabe konvertiert die Daten in das Iceberg-Format und kopiert sie in Parquet-Dateien. Die Iceberg-Spezifikation ermöglicht die Abfrage von Daten von jeder Engine aus, die Trino SQL nativ unterstützt, zum Beispiel Amazon Athena, Ahana oder Starburst Enterprise. Optional können die Tabellen in Snowflake gespiegelt werden, wo sie ohne Datenduplizierung abgefragt werden können.
Die Bereitstellung von Daten in einem Qlik Open Lakehouse ist in Projekten mit einer AWS Glue Data Catalog-Zielverbindung verfügbar.
Vorbereitungen
-
Um Daten in Snowflake zu spiegeln, müssen Sie zunächst ein Qlik Open Lakehouse Projekt erstellen, um Ihre Daten einzulesen und sie im offenen Iceberg-Tabellenformat zu speichern. Sie können nach der Speicherdatenaufgabe eine Spiegeldatenaufgabe hinzufügen. Um Datenumwandlungen durchzuführen, erstellen Sie ein Snowflake-Projekt, das das Qlik Open Lakehouse Projekt als Quelle verwendet. Weitere Informationen finden Sie unter Spiegeln von Daten in einem Cloud Data Warehouse.
-
Sie können zwar die Quell- und Zielverbindungseinstellungen im Aufgabeneinrichtungs-Assistenten konfigurieren. Zum Vereinfachen der Einrichtung wird aber empfohlen, dies vor Erstellen der Aufgabe zu tun.
Erstellen einer Lake-Bereitstellungsaufgabe
Um eine Lake-Bereitstellungsaufgabe zu erstellen, gehen Sie wie folgt vor:
-
Erstellen Sie ein Projekt und wählen Sie in Anwendungsfall die Option Daten-Pipeline aus.
-
Wählen Sie in Datenplattform die Option Qlik Open Lakehouse aus und stellen Sie eine Verbindung zum Datenkatalog her.
-
Richten Sie in Bereitstellungszielverbindung einen Speicherbereich ein.
-
Klicken Sie auf Erstellen, um das Projekt zu erstellen.
Wenn Sie Daten eingliedern oder eine Bereitstellungsaufgabe im Projekt erstellen, wird eine Lake-Bereitstellungsaufgabe anstelle einer Bereitstellungsaufgabe erstellt. Lake-Bereitstellungsaufgaben funktionieren und verhalten sich größtenteils wie Bereitstellungsaufgaben, mit dem Unterschied, dass sie Daten in Cloud-Speicher bereitstellen. Weitere Informationen finden Sie unter Bereitstellen von Daten aus Datenquellen.
Alle Dateien werden im CSV-Format bereitgestellt. Nach der Aktualisierung der Bereitstellungsdaten werden die externen Tabellen von der Speicheraufgabe aktualisiert, welche die Bereitstellungsaufgabe nutzt.
Einstellungen
Weitere Informationen zu Aufgabeneinstellungen finden Sie unter Lake-Bereitstellungseinstellungen.
Einschränkungen
-
Bereitgestellte Daten werden im Bucket nicht partitioniert, da die Speicheraufgabe jede Minute ausgeführt wird. Daher kann die Datenpartitionshäufigkeit in den Aufgabeneinstellungen nicht aktualisiert werden.
-
Die Datenbereitstellung aus SaaS-Quellen ist zwar geplant, die Speicheraufgabe führt aber jede Minute Mini-Batches aus. Dazu ist ein aktiver Lakehouse-Cluster zu minimalen Kosten erforderlich.
-
Wenn sich der Wert eines Primärschlüssels ändert, werden Datensätze mit dem ursprünglichen Schlüssel als „Gelöscht“ markiert und die Zeile, die den geänderten Schlüsselwert enthält, wird als „Einfügen“ markiert.