Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Eingliederung von Daten

Der erste Schritt bei der Erstellung einer Daten-Pipeline in einem Qlik Open Lakehouse-Projekt ist die Eingliederung der Daten. Dieser Prozess umfasst die Übertragung der Daten aus der Datenquelle und das Speichern von Datensätzen in optimierten Iceberg-Tabellen.

Die Eingliederung wird in einem einzigen Vorgang erstellt, aber in zwei Schritten durchgeführt. Der Datenquellentyp, entweder CDC oder Streaming, bestimmt die Aufgaben in Ihrem Projekt:

CDC-Quellen

  • Bereitstellung der Daten

    Dazu gehört die Übertragung der Daten in fortlaufenden Mini-Batches aus der lokalen Datenquelle in einen Bereitstellungsbereich mithilfe einer Bereitstellungsdatenaufgabe.

    Bereitstellen von Daten aus Datenquellen

    Sie können Daten auch in einem Lakehouse bereitstellen, wo die Daten in einem S3-Dateispeicher bereitgestellt werden.

    Bereitstellen von Daten an Qlik Open Lakehouse

  • Speichern von Datensätzen

    Hierzu werden der anfängliche Ladevorgang von Bereitstellungsdaten oder inkrementelle Ladevorgänge gelesen und dann die Daten in einem leseoptimierten Format anhand einer Speicherdatenaufgabe angewendet.

    Speichern von Datensätzen

Streaming-Quellen

  • Bereitstellung der Daten

    Dazu gehört das fortlaufende Streamen der Daten aus der Quelle in einen Bereitstellungsbereich mithilfe einer Streaming-Bereitstellungsdatenaufgabe.

    Bereitstellen von Streaming-Daten an Qlik Open Lakehouse

  • Speichern von Datensätzen

    Hierzu werden der anfängliche Ladevorgang von Bereitstellungsdaten gelesen und dann die Daten in einem leseoptimierten Format anhand einer Speicher-Umwandlungsdatenaufgabe angewendet.

    Speichern von Streaming-Datensätzen

Verwenden von eingegliederten Daten

Wenn Sie die Daten eingegliedert haben, können Sie die gespeicherten Datensätze auf verschiedene Weise nutzen, unter anderem:

  • Sie können die Datensätze in einer Analyseanwendung verwenden.

  • Sie können Daten in ein oder mehrere Cloud Data Warehouses spiegeln, einschließlich Amazon Redshift und Snowflake, indem Sie eine Spiegeldatenaufgabe direkt zur Speicherdatenaufgabe für CDC-Quellen oder zur Streaming-Umwandlungsaufgabe für Streaming-Quellen hinzufügen.

    Weitere Informationen finden Sie unter Spiegeln von Daten in einem Cloud Data Warehouse.

  • Sie können Daten in Ihrem Cloud Data Warehouse umwandeln, indem Sie eine projektübergreifende Pipeline erstellen, die Daten aus Ihrem Eingliederungsprojekt nutzt.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!