管理資料集
您可以管理登陸、儲存區、轉換、資料超市和複寫資料任務包含的資料集,建立轉換、篩選資料和新增欄。
這包括 設計 檢視中 資料集 底下所列出的資料集。您可以透過欄選擇器選取要顯示哪些欄 ()。
轉換規則和明確轉換
您能執行全域和明確的轉換。
轉換規則
您可以建立在範圍內使用 % 作為萬用字元的轉換規則以執行全域轉換,以套用於所有相符資料集。
-
按一下 規則,然後 新增規則 建立新轉換規則。
如需詳細資訊,請參閱建立規則以轉換資料集。
轉換規則在受影響屬性的角落以暗紫色提示。
明確轉換
明確轉換建立:
-
當使用 編輯 變更欄屬性
-
當在資料集使用 重新命名。
-
當新增欄。
明確轉換覆蓋全域轉換,在受影響屬性以亮紫色提示。
資料集模型
資料集可以基於來源,也可以基於目標,取決於任務類型和任務中的操作。使用的資料集模型會影響來源變更時的管道行為以及您可以執行的操作。
-
基於來源的資料集
該資料集基於來源資料集,僅保留中繼資料的變更。會自動套用來源資料的變更,這可能會導致所有下游任務發生變更。無法變更欄順序或變更來源資料集。
以下任務類型一律使用基於來源的資料集模型:登陸、儲存、註冊資料、複寫和在資料湖中登陸。
-
基於目標的資料集
資料集基於目標中繼資料。若從來源新增或移除欄,不會自動套用至下一個下游任務。您可以變更欄的順序,並變更來源資料集。這表示該任務自行包含的程度更高,並且可以讓您控制來源變更的效果。
以下任務類型可以使用基於目標的資料集模型:轉換、資料超市。在某些情況下,基於來源的模型用於基於操作的轉換任務。
-
如果 SQL 轉換或轉換流程執行欄選取,則資料集將基於目標。例如,如果您在 SQL 轉換中使用 SELECT A, B, C from XYZ,或在轉換流程中使用選取欄處理器。
-
如果維持預設欄,則資料集是基於來源。例如,如果您在 SQL 轉換中使用 SELECT * from XYZ。
-
將專案從基於來源的模型更新為基於目標的模型
現有專案會在適用時更新為基於目標的資料集模型。首次開啟專案時,將引導您進行更新流程。匯入和匯出具有不同資料集模型的專案時,需要注意一些事項。
-
無法將具有基於來源之模型的專案匯入到具有基於目標之模型的專案。
將具有基於來源之模型的專案匯入到新的專案、更新新的專案,然後匯出產生的專案。現在您可以將此專案重新匯入到具有基於目標之模型的專案。
-
無法將具有基於目標之模型的專案匯入到具有基於來源之模型的專案。
匯入具有基於目標之模型的專案之前,將專案更新為基於目標的模型。
篩選資料集
如果必要的化,可篩選資料建立列子集。
-
按一下 篩選器
如需詳細資訊,請參閱 篩選資料集。
重新命名資料集
您可以重新命名資料集。
-
在資料集上面按一下 ,然後 重新命名。
新增欄
如必要的話,能使用列層級轉換新增欄。
-
按一下 新增欄
如需詳細資訊,請參閱新增欄到資料集。
編輯欄
您可以透過選取欄和按一下 編輯編輯欄屬性。
-
名稱
-
金鑰
設定欄為主要金鑰。也可以在 金鑰 欄透過選取或取消選取設定金鑰。
-
可為 Null
-
資料類型
設定欄資料類型。針對部分資料類型,您可以設定其他屬性,例如 長度。
理解變更資料類型的影響
對於變更資料類型大小或切換至不同的資料類型,有兩個常見的使用案例:
- 擷取不適合目前資料類型的資料。
- 要求更大的數值準確度。例如,將 SMALLINT 變更為 DECIMAL (p,s)。
在大部分的情況下,變更資料類型將會產生 ALTER TABLE 操作,藉此防止資料損失。例如,若之前的資料類型是 STRING (25),而新的資料類型是 STRING (50),具有新資料類型的欄中資料將會更新,且不會有任何問題。不過,在某些情況下,變更資料類型將會造成捨棄並重新建立表格。例如,若之前的欄資料類型是 NUMBER,且您變更為 DATE,則會捨棄並重新建立表格,因為不可能將數字轉換為日期。同樣地,若目標平台不支援 ALTER 表格操作 (例如 Databricks),則會捨棄並重新建立表格。
在某些情況下,理論上可以改變表格,但由於潛在的複雜性,資料任務將會捨棄並重新建立表格。最後,有的情況是,潛在資料損失 (而非實際資料損失) 將會觸發捨棄和重新建立操作。例如,若您將 STRING(25) 變更為 STRING(1),則如果擷取的資料不適合 STRING(1),將會發生資料損失。不過,有可能 STRING(25) 永遠只包含一個字元,那麼實際上並不會發生資料損失,但仍會因為潛在的資料損失,而捨棄並重新建立表格。
變更為需要捨棄並重新建立表格的資料類型,無論目標平台是什麼
變更下列資料類型將會造成捨棄並重新建立表格:
- 位元組
- BLOB
- CLOB
- NCLOB
支援資料類型大小變更的目標平台,而不需要捨棄並重新建立表格
使用 Snowflake、Google BigQuery、Amazon Redshift、Microsoft SQL Server 和 Azure Synapse Analytics 時,您可以變更特定資料類型的大小,不需要捨棄並重新建立表格。下表列出上述每個平台支援哪些資料類型。
資料類型 | Snowflake | Google BigQuery | Azure Synapse Analytics | Microsoft SQL Server | Amazon Redshift |
---|---|---|---|---|---|
INT1 |
否 |
是 |
是 |
是 |
否 |
INT2 |
否 |
是 |
是 |
是 |
否 |
INT4 |
否 |
是 |
是 |
是 |
否 |
INT8 |
否 |
是 |
是 |
是 |
否 |
REAL4 |
否 |
否 |
是 |
是 |
否 |
REAL8 |
否 |
否 |
是 |
是 |
否 |
UINT1 |
否 |
是 |
是 |
是 |
否 |
UINT2 |
否 |
是 |
是 |
是 |
否 |
UNIT4 |
否 |
是 |
是 |
是 |
否 |
UNIT8 |
否 |
是 |
是 |
是 |
否 |
數字 |
是 |
是 |
是 |
是 |
否 |
字串 |
是 |
是 |
是 |
是 |
是 |
WSTRING |
否 |
是 |
是 |
是 |
否 |
支援將資料類型變更為 STRING、而不需要捨棄並重新建立表格的目標平台
將資料移至 Microsoft SQL Server 和 Azure Synapse Analytics 時,您可以將下列資料類型變更為 STRING,不需要捨棄並重新建立表格:
- 布林
- 日期
- 時間
- 日期時間
- INT1
- INT2
- INT4
- INT8
- REAL4
- REAL8
- UINT1
- UINT2
- UNIT4
- UNIT8
- 數字
- WSTRING (僅 Azure Synapse Analytics 支援)
移除欄
您可以從資料集移除一個或多個欄。
-
選取想要移除的欄,再按一下 移除。
如果想要檢視已移除欄,按一下 顯示移除的欄。使用刪除線文字指示移除的欄。您可以透過選取已移除欄來擷取它,並按一下 還原。
還原欄明確的變更
您可以還原一個或多個欄的所有明確變更。
-
選取要還原變更的欄,並按一下 還原。
全域轉換規則的變更不會被還原。
如果還原新增的欄,該欄將被移除。
資料集設定
您可以變更資料集設定。預設設定為繼承資料資產的設定,但您也可以更改設定為明確開啟或關閉。
-
在資料集按一下 ,再按設定。
檢視資料
您可以檢視資料樣本,以在設計資料管道時查看並驗證資料形態。
必須符合下列要求:
-
會在 管理 於租用戶層級啟用檢視資料。
啟用設定 > 特徵控制 > 在 資料整合 中檢視資料。
-
會向您指派連線所在空間中的可以檢視資料角色。
-
會向您指派專案所在空間中的可以檢視角色。
若要在設計檢視的資料集索引標籤中檢視樣本資料:
-
按一下實體物件中的檢視資料。
就會顯示資料樣本。您可以透過列數設定要在樣本中納入多少資料列。
若要在資料集和表格之間變更:
-
選取資料集以檢視資料的邏輯呈現。
-
選取實體物件以檢視資料庫作為表格和檢視的實體呈現。
最新消息備註若尚未建立實體呈現,則此選項無法使用。
您可以使用兩種方式篩選樣本資料:
-
使用 篩選要擷取哪個樣本資料。
例如,若您使用篩選 ${OrderYear}>2023 且列數設定為 10,您將取得 2024 年的 10 筆訂單樣本。
-
依特定欄篩選樣本資料。
這只會影響現有的樣本資料。若您使用 僅納入 2024 年的訂單,並設定欄篩選以顯示 2022 年的訂單,則結果是空的樣本。
您也可以依特定欄排序資料樣本。排序只會影響現有的樣本資料。若您使用 僅納入 2024 年的訂單,並反轉排序訂單,則樣本資料仍然只會包含 2024 年的訂單。
您可以在資料檢視中隱藏欄:
-
按一下欄上的 ,然後按一下隱藏欄,以隱藏單一欄。
-
按一下欄上的 ,然後按一下顯示欄,以隱藏數個欄。這可讓您控制檢視中所有欄的可見性。
驗證和調整資料集
您可以驗證所有包含在資料任務中的資料集。
拓展驗證和調整以查看所有驗證錯誤和設計變更。
驗證資料集
-
按一下驗證資料集以驗證資料集。
驗證包括檢查:
-
所有表格有主要金鑰
-
沒有遺失的屬性。
-
沒有複製表格或欄名稱。
您也會得到與資源比較的設計變更清單:
-
新增表格和欄
-
拖曳表單和欄
-
重新命名表單和欄
-
變更的主要金鑰和資料類型
拓展驗證和調整以查看所有驗證錯誤和設計變更。
-
修正驗證錯誤,接著再次驗證資料集。
-
多數設計變更能自動調整,變更的主要金鑰和資料類型除外。在此情況下,您需要同步資料集。
準備資料集
如果可能,您可以準備資料集以調整設計變更而無資料損失。若有設計變更無法在沒有資料損失的前提下進行調整,您將可選擇從來源重新建立表格並產生資料損失。
這必須停止任務。
-
按一下 ,然後按一下準備。
準備好資料集後,在重新開始儲存任務之前驗證資料集。
重新建立資料集
您可以從來源重新建立資料集。重新建立資料集時,將有資料損失。只要您有來源資料,您可以從來源載入。
這必須停止任務。
-
按一下 ,接著重新建立。
限制
-
在 Google BigQuery,如果您刪除或重新命名一個欄,這將重新建立表格並導致資料遺失。