連接資料串流
下列串流服務在 Qlik 開放湖倉庫 專案中受到支援。事件資料會持續擷取,以確保下游資料整合、分析和 AI 的近乎即時可用性,從而實現反映最新營運活動的低延遲管道。
Apache Kafka 和 Amazon Kinesis 等串流服務提供持久、高輸送量的管道,用於擷取發生的營運事件。與依賴批次擷取的檔案型來源不同,串流來源會在事件產生時持續傳遞資料,從而實現近乎即時的處理,而無需等待檔案產生或排程。生產者發佈保留其結構描述並支援分割的結構化或半結構化訊息。相同記錄的所有更新和刪除都必須使用相同的分割區金鑰。Kafka 和 Kinesis 僅保證單一分割區或分片內的排序,而非整個主題或串流的排序,因此使用一致的分割區金鑰可確保指定記錄的變更以正確的順序處理。Qlik 也支援 Amazon S3 作為串流來源,以持續擷取事件資料。
串流擷取與批次擷取
串流與批次資料來源的差異說明如下:
-
這兩種來源都會每分鐘有效率地擷取事件,支援低延遲處理和近乎即時的分析。
-
對於非串流來源,會先完整載入現有資料,然後再擷取變更。您也可以從來源重新載入完整載入資料。
-
對於串流來源,初始載入和後續事件之間沒有明確區分。Qlik 可以管理保留,也支援分割區。
在 Qlik 開放湖倉庫 專案中,串流來源只能與 串流登陸任務 和 串流轉換任務 搭配使用:
-
串流資料是使用 串流登陸任務 擷取,串流登陸任務會讀取抵達的事件,而非處理離散檔案,並將資料登陸到 Amazon S3,以及將事件持久化為 Avro 檔案。此方法可保留結構描述演進、支援複雜資料類型 (例如結構),並提供高效儲存和最佳化查詢效能,同時維持連續擷取模型。
-
當您從串流來源載入資料時,會自動為每個將以 Iceberg 格式儲存的資料集新增串流轉換任務。您可以選擇,串流轉換任務可用於標準化結構、豐富事件承載,或使資料與下游耗用模型保持一致。
-
一個鏡像資料任務可讓來自串流來源的資料集鏡像到雲端資料倉庫,讓下游系統能夠耗用串流事件,而無需重複資料。如需詳細資訊,請參閱 將資料鏡像到雲端資料倉庫。
限制
以下限制適用於所有資料來源:
-
如果您的檔案類型不同 (這可能發生在它們來自多個來源或版本時),則使用單一範例檔案 (例如,在初始設定期間) 建立的轉換任務不會自動考慮這些差異。
-
如果您變更登陸任務中的資料類型 (例如,因為您需要雜湊資料),請確保轉換資料類型與新的資料類型相符。