上線資料
在 Qlik 開放湖倉庫 專案中建立資料管道,第一個步驟是上線資料。此流程涉及從來源傳輸資料,以及將資料集儲存在最佳化的 Iceberg 表格。
以一次操作建立上線,不過會以兩個步驟執行。資料來源類型 (CDC 或串流) 決定您專案中的任務:
CDC 來源
-
登陸資料
這涉及使用登陸資料任務,以連續的迷你批次將資料從內部部署資料來源傳輸到登陸區域。
您也可以將資料登陸到湖存放庫,其中資料會登陸到 S3 檔案儲存空間中。
-
儲存資料集
這涉及讀取登陸資料的初始載入或增量載入,並使用儲存資料任務以讀取最佳化的格式套用資料。
串流來源
-
登陸資料
這涉及使用串流登陸資料任務,持續將資料從來源串流到登陸區域。
-
儲存資料集
這涉及讀取登陸資料的初始載入,並以讀取最佳化的格式套用資料,使用儲存轉換資料任務。
使用已上線的資料
待您將資料上線後,能以數種方式使用所儲存的資料集,包括:
-
您可以在分析應用程式中使用資料集。
-
您可以將資料鏡像到一個或多個雲端資料倉庫,包括 Amazon Redshift 和 Snowflake,方法是將鏡像資料任務直接新增至 CDC 來源的儲存資料任務,或串流來源的串流轉換任務。
如需詳細資訊,請參閱將資料鏡像到雲端資料倉庫。
-
您可以建立跨專案管道以轉換您雲端資料倉庫中的資料,該管道取用來自您上線專案的資料。