轉換資料
您可以建立可重複使用且以規則為基礎的資料轉換,作為資料管道的一部分。您可以在資料上線過程中執行轉換,或建立可重複使用的轉換資料任務。您可以執行列層級轉換、包含 SQL 轉換,以及設計複雜的轉換流程。產生的資料集可以具體化為表格,或建立為即時執行轉換的檢視。
-
您可以執行明確的資料集轉換,或建立轉換多個資料集的全域規則。您也可以篩選資料集以建立列的子集。
-
您可以新增 SQL 轉換。SQL 轉換允許您將 SQL SELECT 查詢輸入到管道中,以定義複雜或簡單的轉換。
-
您可以新增包含來源、處理器和目標的視覺化轉換流程,以定義複雜或簡單的轉換。
轉換資料任務包含三個檢視:
-
轉換
此檢視會顯示所有轉換,以視覺化從來源資料集到目標資料集的流程。
-
資料集
此檢視會顯示資料集上的所有基本轉換 (例如篩選資料或新增欄),以及執行全域轉換的規則。
-
模型
此檢視可讓您建立包含所含資料集之間關係的資料模型。如需詳細資訊,請參閱 建立資料模型。
除了將表格儲存在資料倉庫之外,您也可以將表格儲存為由資料平台管理的 Iceberg 表格。此選項目前僅適用於 Snowflake 專案。可以在任務設定中的表格類型之下選取 Snowflake 管理的 Iceberg 表格,以便進行。
建立轉換資料任務
建立轉換資料任務最簡單的方法是按一下儲存資料任務上的 ...,然後選取 轉換資料。
您也可以在專案中按一下 建立,然後選取 轉換資料。在這種情況下,您需要定義要使用的來源資料任務。
-
在 轉換 中定義您的來源資料和目標。
您可以:
-
您也可以按一下 選取來源資料,從其他儲存資料任務新增更多資料集。
您可以從目前專案或從另一個專案新增資料集。若要從另一個專案新增資料集:
-
您必須在所使用專案的空間中至少具有 可使用 角色。
-
兩個專案必須位於相同的資料平台上。
如果選取的專案處於版本控制之下,您可以選取要作為來源的分支。如需有關跨專案管道的詳細資訊,請參閱 建置跨專案管道。
-
-
當您新增了所需的轉換後,請按一下 驗證資料集 來驗證資料集。如果驗證發現錯誤,請在繼續之前修正錯誤。
如需詳細資訊,請參閱 驗證和調整資料集。
-
建立資料模型
按一下 模型 以設定所含資料集之間的關係。
如需詳細資訊,請參閱 建立資料模型。
-
按一下 準備 以準備資料任務和所有必要的成品。這可能需要一點時間。
您可以在畫面下方的 準備進度 下追蹤進度。
資訊備註在準備任務之前,請停止直接下游處理的所有任務。 -
當狀態顯示為 已準備 時,您可以執行資料任務。
按一下 ...,然後按一下 執行。
資料任務現在將開始建立資料集以轉換資料。
使用 轉換 檢視
在 轉換 中,會顯示所有轉換,以視覺化從來源資料集到目標資料集的流程。
-
選取轉換以查看使用了哪些來源資料集,以及建立了哪些目標資料集。
-
選取來源以查看使用它的所有轉換,以及所有產生的目標。
-
選取目標以查看哪些是來源資料集,以及哪個轉換建立了此目標資料集。
轉換中的轉換檢視

您可以按一下 顯示選項 來變更下列設定:
-
依轉換類型篩選
僅顯示一種或兩種轉換類型的轉換。
-
篩選
顯示所有轉換或僅顯示選取的轉換。您必須選取轉換才能啟用此選項。
-
密度
選取您要以緊湊的版面配置顯示轉換,還是使用更多空間的寬版面配置。
使用 資料集 檢視
在 資料集 中,您可以檢視和編輯轉換任務中的所有目標資料集。
如需詳細資訊,另請參閱 管理資料集。
新增目標資料集
您可以將更多目標資料集新增至轉換任務。
-
按一下
。
-
提供資料集的 名稱,並選擇性提供 描述。
-
在 來源資料集 中,從任務中可用的資料集選取來源資料集。
提示備註您可以選取 無來源資料集 以建立未連接至任何來源的空白資料集。您可以在設計期間將欄新增至資料集,但在準備任務之前,必須連接至來源資料集。
現在已新增目標資料集。
變更來源資料集
您可以變更目標資料集的來源資料集。
-
按一下 來源: [來源資料集名稱] 後面的
。
-
在 來源資料集 中,從任務中可用的資料集選取另一個來源資料集。
提示備註您可以選取 無來源資料集 以中斷目標資料集與來源的連線。您可以在設計期間編輯資料集,但在準備任務之前,必須連接至來源資料集。
新增欄
您可以將新欄新增至目標資料集。
-
從頭開始新增欄
按一下 + 新增。
提供欄的名稱,並設定運算式以定義欄資料。
如需詳細資訊,請參閱 新增欄至資料集。
-
從來源新增欄
按一下 新增 旁邊的
,然後選取 從來源新增欄。
從來源資料集選取欄。
重新排序欄
您可以變更欄的序數位置。
-
選取欄。
-
按一下
,然後按一下 重新排序。
-
使用箭頭向上或向下移動欄。
-
準備好後,關閉 變更序數。
建立轉換規則
您可以建立可重複使用的轉換規則,以對資料集執行全域轉換。
如需有關建立規則的詳細資訊,請參閱 建立規則以轉換資料集。
篩選資料集
如有需要,您可以篩選資料以建立列的子集。
-
按一下
,然後按一下 篩選。
如需有關篩選的詳細資訊,請參閱 篩選資料集。
排程轉換任務
您可以排程轉換任務以定期更新。您可以設定以時間為基礎的排程,或設定在輸入資料任務完成執行時執行任務。
按一下資料任務上的 ...,然後選取 排程 以建立排程。預設排程設定繼承自專案中的設定。如需有關預設設定的詳細資訊,請參閱 轉換預設值。
您一律需要將 排程 設定為 開啟 才能啟用排程。
以時間為基礎的排程
無論何時更新不同的輸入來源,您都可以使用以時間為基礎的排程來執行任務。
-
在 執行資料任務 中選取 在特定時間。
您可以設定每小時、每天、每週或每月的排程。
以事件為基礎的排程
當輸入資料任務完成執行時,您可以使用以事件為基礎的排程來執行任務。
-
在 執行資料任務 中選取 在特定事件。
您可以選取是否要在任何輸入任務成功完成時,或在選取的任何輸入任務成功完成時執行任務。
監控轉換任務
您可以按一下 監控 來監控轉換任務的狀態和進度。
如需詳細資訊,請參閱 監控個別資料任務。
重新載入資料
如果資料具體化為實體表格,您可以執行手動重新載入表格。當一個或多個表格發生問題時,這非常有用。
-
開啟資料任務並選取 監控 索引標籤。
-
選取您要重新載入的表格。
-
按一下 重新載入表格。
重新載入將在下次執行任務時發生。重新載入程序的行為會因每個資料集的歷程記錄設定和轉換類型而異。這表示資料任務中資料集之間的重新載入程序可能會有所不同。
-
資料集轉換是透過截斷和載入來重新載入。
-
SQL 轉換和轉換流程可以透過截斷和載入,或透過比較和套用來重新載入。最佳實務是比較和套用。
您可以按一下 取消重新載入,取消暫停重新載入的表格的重新載入。這不會影響已重新載入的表格,且目前正在執行的重新載入將會完成。
下游任務將被重新載入以套用變更,並避免回溯。
重新載入轉換資料任務後的下游影響

下游的影響取決於執行的重新載入作業類型,以及直接下游資料集的類型。標準處理表示資料集將使用針對特定資料集設定的方法來反應和處理資料。
範例: 透過截斷和載入重新載入資料集
-
如果下一個資料集使用資料集轉換,它將在下次執行時透過截斷和載入重新載入。
-
如果下一個資料集是 SQL 轉換或轉換流程,它將使用比較和套用重新載入。
重新載入沒有歷程記錄的資料集
在這種情況下,沒有歷程記錄需要考慮。為了減少目標上的處理,重新載入的執行方式如下:
-
截斷表格。
-
從上游資料任務載入目前資料。
下游任務將被重新載入以套用變更。
重新載入啟用歷程記錄的資料集
重新載入的執行方式如下:
-
截斷目前、先前和變更表格。
-
從上游資料任務載入資料,包括先前表格。
重新載入以 SQL 轉換或轉換流程為基礎的資料集
-
截斷並重新載入
資訊備註此選項可能會導致歷程記錄遺失。-
截斷目前和變更表格。
-
執行查詢並將其載入目前表格。
-
-
重新載入並比較
-
執行查詢並將其與目前表格進行比較。
-
新增變更。
-
刪除任務
如果資料任務未執行,且相同專案中沒有下游任務的相依性,您可以刪除該資料任務。
-
在專案的管線專案檢視中,按一下任務上的
,然後選取刪除。
任務建立的成品 (表格和檢視) 也會被刪除,除非您選擇保留它們。
檢視任務資訊
按一下功能表長條上的 以檢視任務資訊,例如:
-
擁有者
-
空間
-
資料平台
-
專案 ID
-
資料任務執行階段 ID
轉換設定
您可以設定轉換資料任務的屬性。
-
按一下 設定。
一般設定
-
資料庫
要在資料來源中使用的資料庫。
-
任務結構描述
您可以變更資料任務結構描述的名稱。預設名稱是任務的名稱。
-
內部結構描述
您可以變更內部儲存結構描述的名稱。預設名稱是附加 "__internal" 的任務名稱。
-
結構描述名稱的預設大寫
您可以設定所有結構描述名稱的預設大寫。如果您的資料庫設定為強制大寫,此選項將不會生效。
- 用於所有表格和檢視的前置詞
您可以為透過此任務建立的所有表格和檢視畫面設定前置詞。
資訊備註若您想要在數個資料任務中使用一個資料庫結構描述,則必須使用唯一前置詞。 -
具體化
您可以選取僅建立即時執行轉換的檢視 (非具體化),或同時建立表格和檢視 (具體化)。
-
歷程記錄資料存放區 (類型 2)
您可以保留歷程記錄變更資料,讓您輕鬆重新建立特定時間點的資料。您可以使用歷程記錄檢視和即時歷程記錄檢視來查看歷程記錄資料。
-
發佈至目錄
選取此選項以將此資料版本發佈至目錄作為資料集。將會在下次您準備此任務時更新目錄內容。
如需更多關於目錄的資訊,請參閱 使用目錄工具理解資料。
執行階段設定
-
平行執行
您可以將完整載入的最大連線數設定為 1 到 5 之間的數字。
-
倉庫
雲端資料倉庫的名稱。
檢視類型設定
檢視類型設定僅適用於 Snowflake。
-
標準檢視
在大多數情況下使用標準檢視。
-
Snowflake 安全檢視
將 Snowflake 安全檢視用於指定用於資料隱私或敏感資訊保護的檢視,例如為限制存取不應向基礎表格的所有使用者公開的敏感資料而建立的檢視。
資訊備註Snowflake 安全檢視的執行速度可能比標準檢視慢。
表格類型設定
這些設定僅可用於以 Snowflake 作為資料平台的專案。
-
表格類型
您可以選取要使用的表格類型:
-
Snowflake 表格
-
Snowflake 管理的 Iceberg 表格
您必須在 Snowflake 外部磁碟區中設定外部磁碟區的預設名稱。
-
-
要使用的雲端儲存資料夾
選取將資料登陸到暫存區域時要使用的資料夾。
-
預設資料夾
如此可建立預設名稱為 <專案名稱>/<資料任務名稱> 的資料夾。
-
根資料夾
將資料存放在儲存區的根資料夾。
-
資料夾
指定要使用的資料夾名稱。
-
-
與 Snowflake 開放目錄同步
啟用此選項可讓 Snowflake Open Catalog 管理雲端檔案儲存中的檔案。
最佳實務
-
如果已新增事實和維度,則無法變更資料超市中資料集的來源。如果您想要保持彈性,可以新增一個包含非具體化檢視的先前轉換任務,該任務可用於變更來源,並為所有來源任務提供模型。
限制
-
選取 非具體化 選項時,無法在轉換資料任務中變更資料類型。
-
欄位層級譜系不適用於在 SQL 轉換或轉換流程中建立的資料集。
-
不支援使用 新增至目標 從設定為 僅附加 的 Qlik 開放湖倉庫鏡像 任務讀取。
作為因應措施,您可以使用 SQL 轉換或轉換流程讀取資料。