上線資料
在 Qlik 開放湖倉庫 專案中建立資料管道,第一個步驟是上線資料。此流程涉及從來源傳輸資料,以及將資料集儲存在最佳化的 Iceberg 表格。資料來源中的變更會以高效率的小批次形式持續套用於儲存表格。
以一次操作建立上線,不過會以兩個步驟執行。
-
登陸資料
這涉及使用登陸資料任務,持續將資料從內部部署資料來源傳輸到登陸區域。
您也可以將資料登陸到湖存放庫,其中資料會登陸到 S3 檔案儲存空間中。
-
儲存資料集
這涉及讀取登陸資料的初始載入或增量載入,並使用儲存資料任務以讀取最佳化的格式套用資料。
待您將資料上線後,能以數種方式使用所儲存的資料集。
-
您可以在分析應用程式中使用資料集。
-
您可以直接向儲存資料任務新增鏡像資料任務,以將資料鏡像到 Snowflake。
-
您可以建立跨專案管道以轉換 Snowflake 中的資料,該管道取用來自上線專案的資料。
上線資料
上線資料是從專案開始。資料集會儲存在專案中所定義的 S3 位置。如需關於專案的詳細資訊,請參閱建立資料管道專案。
-
在專案中,按一下建立,然後按一下上線資料。
提示備註您也可以按一下專案中現有來源的,然後按一下上線資料。
-
為上線新增名稱和描述。
按一下下一步。
-
選取來源連線。
您可選取現有來源連線,也可以建立與來源的新連線。
如需詳細資訊,請參閱設定前往資料來源的連線。
按一下下一步。
-
選取要載入的資料。
如需詳細資訊,請參閱選取資料。
按一下下一步。
會顯示設定,您可在此選取更新方法和歷史記錄設定。
-
在更新方法中選取哪個方法要用來更新資料:
-
變更資料擷取 (CDC)
如果資料包含不支援 CDC 或檢視的表格,將會建立兩個資料管道:一個管道具有支援 CDC 的所有表格,另一個管道具有使用載入和比較所有其他表格和檢視。
-
載入並比較
-
-
在歷史記錄中選取是否除了目前的資料外,也要複寫先前資料的歷史記錄。
-
在您準備好時按一下下一步。
-
預覽為了上線資料所建立的資料任務,亦可視需要重新命名。
提示備註這些名稱會在為儲存空間資料任務中的資料庫架構命名時用到。請考慮使用獨一無二的名稱,以免與使用相同資料平台的其他專案中的資料任務有所衝突。 -
選取您是否想要開啟已建立的任何資料任務,或要返回專案。
準備就緒後,按一下完成。
-
現在已建立上線資料任務。如要開始複寫資料,您需要:
-
準備和執行登陸資料任務。
如需詳細資訊,請參閱從資料來源登陸資料。
-
準備和執行儲存空間資料任務。
如需詳細資訊,請參閱儲存資料集。
選取資料
您可以選取特定表格或檢視,或使用選取規則以納入或排除表格群組。
可使用 % 作為萬用字元,為架構和表格定義選取標準。
-
%.% 可定義所有架構中的所有表格。
-
Public.% 可定義架構 Public 中的所有表格。
選取標準可依照您的選取項目提供預覽。
您現在可以:
-
建立規則,以基於選取標準納入或排除表格群組。
按一下從選取標準新增規則以建立規則,再選取納入或排除。
您可在選取規則之下看見此規則。
-
選取一或多個資料集,按一下新增所選的資料集。
您可在明確選取的資料集之下看見新增的資料集。
選取規則僅套用到目前的表格和檢視組,不會套用到日後新增的表格和檢視。