新增轉換流程
您可以在轉換任務中納入流程。流程設計工具可讓您使用來源、處理器和目標建立轉換流程,以定義複雜或簡單的轉換
轉換流程和處理器是邏輯呈現。這表示,在 ELT 任務中,只會為每個目標建立一個表格,且所有處理器會根據目標編譯為單一 SQL 陳述式。
支援的目標平台
轉換流程支援以下平台:
-
Snowflake
-
Databricks
-
Google BigQuery
-
Azure Synapse Analytics
-
Microsoft Fabric
-
Microsoft SQL Server
-
Amazon Redshift
資訊備註以下 Amazon Redshift 函數不可用:UUID 字串產生和編輯距離。
必要條件
建立轉換流程之前,您必須:
- 以您要用於轉換流程的上線資料填入儲存任務,或註冊現有資料。如需更多關於如何上線並註冊資料的資訊,請參閱 上線資料 和 註冊已存在於資料平台的資料。
- 準備並執行轉換流程中作為來源使用的儲存或轉換任務。執行儲存任務不是強制性質,但建議能夠在流程的每個步驟顯示資料預覽。
建立轉換流程
若要建立有效的轉換流程,您需要至少一個來源資料集,以及一個已命名的目標與已定義的金鑰。
- 在資料管道中開啟轉換資料任務。
- 在轉換中,選取要在轉換流程中包含的來源資料集,再按一下新增轉換流程。
會顯示新增轉換流程,您可在此提供轉換設定。
-
在名稱中輸入目標資料集的名稱。
您也可以在說明中新增較長的說明。
-
在具體化中,選取是否應具體化轉換的輸出。您可以選擇繼承資料任務設定中的設定。
-
開啟將會建立表格,並且將會處理相關的 ELT 處理。
-
關閉將會建立即時執行轉換的檢視。
-
-
增量載入可讓您套用篩選條件或其他條件,以減少使用巨集處理的資料集,藉此調整對於增量資料載入的查詢。只有在資料具體化為表格時,才能使用增量載入。
-
若增量載入是開啟
首次執行任務將會執行初始載入,將所有查詢結果插入目標表格中。後續執行將會執行增量載入,運用您為增量處理定義的篩選條件或特定條件。在增量載入期間,任務只會以更新或插入方式處理資料,不會管理刪除。
-
若增量載入是關閉
首次執行任務將會執行初始載入,將所有查詢結果插入目標表格中。後續執行將會與目標表格比較,並處理新的、已變更或已刪除的記錄,以處理所有查詢結果。
資訊備註若查詢將會選取應存在於目標中的所有記錄,請將增量載入設定為關閉。將會在目標中刪除未選取的記錄。 -
-
在您準備好建立轉換流程時按一下新增。
就會開啟流程設計工具,目標會建立並顯示在流程中作為目標元件。
資訊備註強制為流程目標提供唯一名稱。若您之後想要重新命名流程目標,在資料集名稱中選取目標並輸入新名稱。 - 若沒有為目標定義金鑰,按一下金鑰與可為 Null 旁邊的編輯。隨即開啟設定視窗。 資訊備註金鑰不會繼承自來源資料集,必須手動定義。可為 Null 繼承自來源資料集,可以修改。
- 在設定金鑰和可為 Null 中,在欄中選取您要定義為主要金鑰的金鑰,並在一個或多個欄中選取您要定義為可為 Null 的可為 Null。
- 按一下確認以儲存變更並關閉設定視窗。
若轉換流程的狀態有效,您可以關閉流程並準備資料。
您之後可以在目標設定中變更具體化和增量載入的設定。
-
選取目標並在目標設定中按一下設定旁的編輯。
新增處理器
您可以將處理器新增至流程。
處理器是可新增至流程的元件,以便轉換即將獲得的資料,並將轉換後的資料傳回到流程的下一步。
- 在流程設計工具中,選取要在之後新增處理器的流程元件。
- 按一下流程元件中的 ,然後按一下新增處理器,並選取要新增的處理器。您也可以將處理器從左側面板拖曳至畫布。
- 根據需求設定處理器,並按一下儲存以儲存變更並更新資料預覽。
可用處理器
使用案例:在 Snowflake 聯結、彙總和篩選資料
在此使用案例中,Snowflake 客戶資料需要透過處理器來轉換。由於客戶資訊來自兩個資料集,您想要先將聯結處理器新增至合併記錄。您也想要使用彙總處理器,以計算平均訂單價格,並使用篩選處理器篩選您要在輸出資料集中保留的客戶記錄類型。
第一個資料集是根據稱為 CUSTOMER_ACCOUNT 的 Snowflake 表格,其結構描述看起來如下:
第二個資料集是根據稱為 CUSTOMER_ORDER 的 Snowflake 表格,其結構描述看起來如下:
- 將聯結處理器從處理器左側面板拖曳到畫布。
- 將第二個來源連結至聯結處理器,以便合併來自資料集的資料。
- 設定聯結處理器以在客戶 ID 金鑰 (CUSTOMER_ID) 聯結兩個來源資料集。
- 在聯結處理器之後拖曳彙總處理器。
- 設定彙總處理器,以計算平均客戶購買金額 (ORDER_TOTAL_PRICE),並儲存在可以命名 avg_order_price 的新欄,同時透過客戶區段類型 (LEFT_CUSTOMER_SEGMENT) 將記錄組成群組。
- 將篩選處理器從處理器左側面板拖放到畫布。
- 設定篩選處理器以篩選企業客戶類型 (企業)。
- 選取篩選處理器上的 以開啟功能表,並按一下新增不相符的目標以將第二個目標新增至流程。
此目標將包含不符合篩選條件 (個人客戶類型 (個人)) 的記錄。
- 輸入新的目標資料集的名稱,例如 individual_cust。
- 查看兩個目標的輸出預覽:
business_cust 目標顯示企業客戶類型的平均訂單價格,在此是 157.463687151。
individual_cust 目標顯示個人客戶類型的平均訂單價格,在此是 153.576530612。
- 確認轉換流程的狀態有效,然後關閉。
- 在轉換視窗中,按一下準備以準備資料。
最佳做法
將來源或目標資料集新增至流程時,您應在目標資料集的設定面板中設定金鑰和可為 Null。