Eingliederung von Daten
Der erste Schritt bei der Erstellung einer Daten-Pipeline in einem Qlik Open Lakehouse-Projekt ist die Eingliederung der Daten. Dieser Prozess umfasst die Übertragung der Daten aus der Datenquelle und das Speichern von Datensätzen in optimierten Iceberg-Tabellen.
Die Eingliederung wird in einem einzigen Vorgang erstellt, aber in zwei Schritten durchgeführt. Der Datenquellentyp, entweder CDC oder Streaming, bestimmt die Aufgaben in Ihrem Projekt:
CDC-Quellen
-
Bereitstellung der Daten
Dazu gehört die Übertragung der Daten in fortlaufenden Mini-Batches aus der lokalen Datenquelle in einen Bereitstellungsbereich mithilfe einer Bereitstellungsdatenaufgabe.
Bereitstellen von Daten aus Datenquellen
Sie können Daten auch in einem Lakehouse bereitstellen, wo die Daten in einem S3-Dateispeicher bereitgestellt werden.
-
Speichern von Datensätzen
Hierzu werden der anfängliche Ladevorgang von Bereitstellungsdaten oder inkrementelle Ladevorgänge gelesen und dann die Daten in einem leseoptimierten Format anhand einer Speicherdatenaufgabe angewendet.
Streaming-Quellen
-
Bereitstellung der Daten
Dazu gehört das fortlaufende Streamen der Daten aus der Quelle in einen Bereitstellungsbereich mithilfe einer Streaming-Bereitstellungsdatenaufgabe.
-
Speichern von Datensätzen
Hierzu werden der anfängliche Ladevorgang von Bereitstellungsdaten gelesen und dann die Daten in einem leseoptimierten Format anhand einer Speicher-Umwandlungsdatenaufgabe angewendet.
Verwenden von eingegliederten Daten
Wenn Sie die Daten eingegliedert haben, können Sie die gespeicherten Datensätze auf verschiedene Weise nutzen, unter anderem:
-
Sie können die Datensätze in einer Analyseanwendung verwenden.
-
Sie können Daten in ein oder mehrere Cloud Data Warehouses spiegeln, einschließlich Amazon Redshift und Snowflake, indem Sie eine Spiegeldatenaufgabe direkt zur Speicherdatenaufgabe für CDC-Quellen oder zur Streaming-Umwandlungsaufgabe für Streaming-Quellen hinzufügen.
Weitere Informationen finden Sie unter Spiegeln von Daten in einem Cloud Data Warehouse.
-
Sie können Daten in Ihrem Cloud Data Warehouse umwandeln, indem Sie eine projektübergreifende Pipeline erstellen, die Daten aus Ihrem Eingliederungsprojekt nutzt.