跳到主要內容 跳至補充內容

新增轉換流程

您可以在轉換任務中納入流程。流程設計工具可讓您使用來源、處理器和目標建立轉換流程,以定義複雜或簡單的轉換

轉換流程和處理器是邏輯呈現。這表示,在 ELT 任務中,只會為每個目標建立一個表格,且所有處理器會根據目標編譯為單一 SQL 陳述式。

支援的目標平台

轉換流程支援以下平台:

  • Snowflake

  • Databricks

  • Google BigQuery

  • Azure Synapse Analytics

  • Microsoft Fabric

  • Microsoft SQL Server

  • Amazon Redshift

    資訊備註以下 Amazon Redshift 函數不可用:UUID 字串產生和編輯距離。

必要條件

建立轉換流程之前,您必須:

  • 以您要用於轉換流程的上線資料填入儲存任務,或註冊現有資料。如需更多關於如何上線並註冊資料的資訊,請參閱 上線資料註冊已存在於資料平台的資料
  • 準備並執行轉換流程中作為來源使用的儲存或轉換任務。執行儲存任務不是強制性質,但建議能夠在流程的每個步驟顯示資料預覽。

建立轉換流程

若要建立有效的轉換流程,您需要至少一個來源資料集,以及一個已命名的目標與已定義的金鑰。

  1. 在資料管道中開啟轉換資料任務。
  2. 轉換中,選取要在轉換流程中包含的來源資料集,再按一下新增轉換流程

    會顯示新增轉換流程,您可在此提供轉換設定。

  3. 名稱中輸入目標資料集的名稱。

    您也可以在說明中新增較長的說明。

  4. 具體化中,選取是否應具體化轉換的輸出。您可以選擇繼承資料任務設定中的設定。

    • 開啟將會建立表格,並且將會處理相關的 ELT 處理。

    • 關閉將會建立即時執行轉換的檢視。

  5. 增量載入可讓您套用篩選條件或其他條件,以減少使用巨集處理的資料集,藉此調整對於增量資料載入的查詢。只有在資料具體化為表格時,才能使用增量載入

    • 增量載入開啟

      首次執行任務將會執行初始載入,將所有查詢結果插入目標表格中。後續執行將會執行增量載入,運用您為增量處理定義的篩選條件或特定條件。在增量載入期間,任務只會以更新或插入方式處理資料,不會管理刪除。

    • 增量載入關閉

      首次執行任務將會執行初始載入,將所有查詢結果插入目標表格中。後續執行將會與目標表格比較,並處理新的、已變更或已刪除的記錄,以處理所有查詢結果。

    資訊備註若查詢將會選取應存在於目標中的所有記錄,請將增量載入設定為關閉。將會在目標中刪除未選取的記錄。
  6. 在您準備好建立轉換流程時按一下新增

    就會開啟流程設計工具,目標會建立並顯示在流程中作為目標元件。

    資訊備註強制為流程目標提供唯一名稱。若您之後想要重新命名流程目標,在資料集名稱中選取目標並輸入新名稱。
  7. 若沒有為目標定義金鑰,按一下金鑰與可為 Null 旁邊的編輯。隨即開啟設定視窗。
    資訊備註金鑰不會繼承自來源資料集,必須手動定義。可為 Null 繼承自來源資料集,可以修改。
  8. 設定金鑰和可為 Null 中,在欄中選取您要定義為主要金鑰的金鑰,並在一個或多個欄中選取您要定義為可為 Null 的可為 Null
  9. 按一下確認以儲存變更並關閉設定視窗。

若轉換流程的狀態有效,您可以關閉流程並準備資料。

您之後可以在目標設定中變更具體化增量載入的設定。

  • 選取目標並在目標設定中按一下設定旁的編輯

新增處理器

您可以將處理器新增至流程。

處理器是可新增至流程的元件,以便轉換即將獲得的資料,並將轉換後的資料傳回到流程的下一步。

  1. 在流程設計工具中,選取要在之後新增處理器的流程元件。
  2. 按一下流程元件中的 垂直省略圖示,然後按一下新增處理器,並選取要新增的處理器。您也可以將處理器從左側面板拖曳至畫布。
  3. 提示備註可以從處理器面板選取處理器,以顯示處理器的簡短描述。
  4. 根據需求設定處理器,並按一下儲存以儲存變更並更新資料預覽。
    資訊備註您可以使用 SQL資料預覽預覽資料樣本。如需詳細資訊,請參閱預覽資料

可用處理器

使用案例:在 Snowflake 聯結、彙總和篩選資料

在此使用案例中,Snowflake 客戶資料需要透過處理器來轉換。由於客戶資訊來自兩個資料集,您想要先將聯結處理器新增至合併記錄。您也想要使用彙總處理器,以計算平均訂單價格,並使用篩選處理器篩選您要在輸出資料集中保留的客戶記錄類型。

使用聯結處理器、彙總處理器和篩選處理器的轉換流程。

第一個資料集是根據稱為 CUSTOMER_ACCOUNT 的 Snowflake 表格,其結構描述看起來如下:

關於客戶帳戶的 Snowflake 表格結構描述

第二個資料集是根據稱為 CUSTOMER_ORDER 的 Snowflake 表格,其結構描述看起來如下:

關於客戶訂單的 Snowflake 表格結構描述

  1. 聯結處理器從處理器左側面板拖曳到畫布。
  2. 將第二個來源連結至聯結處理器,以便合併來自資料集的資料。
  3. 設定聯結處理器以在客戶 ID 金鑰 (CUSTOMER_ID) 聯結兩個來源資料集。
  4. 聯結處理器之後拖曳彙總處理器。
  5. 設定彙總處理器,以計算平均客戶購買金額 (ORDER_TOTAL_PRICE),並儲存在可以命名 avg_order_price 的新欄,同時透過客戶區段類型 (LEFT_CUSTOMER_SEGMENT) 將記錄組成群組。
  6. 篩選處理器從處理器左側面板拖放到畫布。
  7. 設定篩選處理器以篩選企業客戶類型 (企業)。
  8. 選取篩選處理器上的 垂直省略圖示 以開啟功能表,並按一下新增不相符的目標以將第二個目標新增至流程。

    此目標將包含不符合篩選條件 (個人客戶類型 (個人)) 的記錄。

  9. 輸入新的目標資料集的名稱,例如 individual_cust
  10. 查看兩個目標的輸出預覽:

    business_cust 目標顯示企業客戶類型的平均訂單價格,在此是 157.463687151。

    輸出顯示企業客戶類型的平均訂單價格

    individual_cust 目標顯示個人客戶類型的平均訂單價格,在此是 153.576530612。

    輸出顯示個人客戶類型的平均訂單價格
  11. 確認轉換流程的狀態有效,然後關閉。
  12. 轉換視窗中,按一下準備以準備資料。

最佳做法

將來源或目標資料集新增至流程時,您應在目標資料集的設定面板中設定金鑰和可為 Null。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!