Verbinden mit Daten-Streams
Die folgenden Streaming-Dienste werden in Qlik Open Lakehouse-Projekten unterstützt. Ereignisdaten werden kontinuierlich erfasst, um eine Verfügbarkeit nahezu in Echtzeit für nachgelagerte Datenintegration, Analysen und KI zu gewährleisten. Dadurch können Pipelines mit geringer Latenz die aktuellste operative Aktivität widerspiegeln.
Streaming-Dienste wie Apache Kafka und Amazon Kinesis bieten dauerhafte, hochdurchsatzfähige Pipelines zur Erfassung operativer Ereignisse, sobald diese auftreten. Im Gegensatz zu dateibasierten Quellen, die auf Batcherfassung basieren, liefern Streaming-Quellen Daten kontinuierlich, sobald Ereignisse eintreten, was eine Verarbeitung nahezu in Echtzeit ermöglicht, ohne auf die Generierung oder Planung von Dateien warten zu müssen. Producer veröffentlichen strukturierte oder semi-strukturierte Nachrichten, die ihr Schema beibehalten und Partitionierung unterstützen. Alle Aktualisierungen und Löschungen für denselben Datensatz müssen denselben Partitionsschlüssel verwenden. Kafka und Kinesis garantieren die Sortierung nur innerhalb einer einzelnen Partition oder eines Shards, nicht über das gesamte Thema oder den gesamten Stream hinweg. Daher stellt die Verwendung eines konsistenten Partitionsschlüssels sicher, dass Änderungen für einen bestimmten Datensatz in der richtigen Reihenfolge verarbeitet werden. Qlik unterstützt auch Amazon S3 als Streaming-Quelle für die kontinuierliche Erfassung von Ereignisdaten.
Streaming-Erfassung im Vergleich zur Batcherfassung
Der Unterschied zwischen Streaming- und Batch-Datenquellen ist Folgender:
-
Bei beiden Quellen werden Ereignisse jede Minute effizient erfasst, was eine Verarbeitung mit geringer Latenz und Analysen nahezu in Echtzeit unterstützt.
-
Bei Nicht-Streaming-Quellen erfolgt zuerst ein vollständiges Laden der vorhandenen Daten und anschließend werden Änderungen erfasst. Sie können die Daten des vollständigen Ladevorgangs auch aus der Quelle neu laden.
-
Bei Streaming-Quellen gibt es keine klare Unterscheidung zwischen anfänglichem Laden und späteren Ereignissen. Qlik kann die Beibehaltung verwalten und unterstützt auch Partitionen.
In einem Qlik Open Lakehouse-Projekt können Streaming-Quellen nur mit der Streaming-Bereitstellungsaufgabe und der Streaming-Umwandlungsaufgabe verwendet werden.
-
Streaming-Daten werden mithilfe einer Streaming-Bereitstellungsaufgabe erfasst, und anstatt diskrete Dateien zu verarbeiten, liest die Streaming-Bereitstellungsaufgabe Ereignisse, sobald diese eintreffen, stellt die Daten in Amazon S3 bereit und speichert Ereignisse als Avro-Dateien. Dieser Ansatz behält die Schemaentwicklung bei, unterstützt komplexe Datentypen wie Strukturen und bietet effizienten Speicher mit optimierter Abfrageleistung, während ein kontinuierliches Erfassungsmodell beibehalten wird.
-
Wenn Sie Daten aus einer Streaming-Quelle eingliedern, wird automatisch eine Streaming-Umwandlungsaufgabe für jeden Datensatz hinzugefügt, der im Iceberg-Format gespeichert wird. Optional kann die Streaming-Umwandlungsaufgabe verwendet werden, um Strukturen zu standardisieren, Ereignis-Nutzlasten zu erweitern oder Daten an nachgelagerte Nutzungsmodelle anzupassen.
-
Eine Spiegel-Datenaufgabe ermöglicht es, Datensätze von Streaming-Quellen in Cloud Data Warehouses zu spiegeln, sodass nachgelagerte Systeme Streaming-Ereignisse nutzen können, ohne Daten zu duplizieren. Weitere Informationen finden Sie unter Spiegeln von Daten in einem Cloud Data Warehouse.
Beschränkungen
Die folgenden Einschränkungen gelten für alle Datenquellen:
-
Wenn Ihre Dateien unterschiedliche Typen aufweisen, was vorkommen kann, wenn sie aus mehreren Quellen oder Versionen stammen, berücksichtigt die Umwandlungsaufgabe, die mit einer einzelnen Beispieldatei erstellt wurde (zum Beispiel während der Eingliederung), diese Unterschiede nicht automatisch.
-
Wenn Sie die Datentypen in der Bereitstellungsaufgabe ändern, zum Beispiel weil Sie die Daten hashen müssen, stellen Sie sicher, dass die Umwandlungsdatentypen den neuen Datentypen entsprechen.