雲端資料倉庫中的資料集架構
Qlik Talend Data Integration 可供您建立、管理及控制分析資料管道,將資料一路交付給消費者。當您用 Qlik Talend Data Integration 在雲端資料倉庫中產生資料集時,會產生儲存表格、變更表格和檢視畫面。
有符合直觀且附引導的使用者介面,協助您組建、型塑並執行資料管道。無需手動編碼,即可自動產生操作資料儲存區 (ODS) 和歷史記錄資料儲存區 (HDS) 的架構。
-
登陸
Qlik Talend Data Integration 中的登陸任務能控制從資料來源到登陸區域的連續資料登陸。圖中的範例描述以 Qlik 資料閘道 - 資料移動 使用 CDC 存取資料來源,以保持資料為最新。您也能使用 Qlik Cloud 來源連線執行可排程定期重新載入的完整載入。
如需關於何時需要使用 資料移動閘道 的資訊,請參閱 何時需要 資料移動閘道?
資訊備註登陸區域中的表格是以 Qlik Talend Data Integration 儲存區資料任務所產生,供內部使用。請勿將登陸表格使用於任何其他下游處理。 -
儲存區
儲存區任務可控制將資料套用到儲存區表格的時機,並能建立及管理表格和外部檢視。
-
外部檢視
取用資料時,最佳做法是使用檢視。與表格相比,檢視提供多種優點,包括改善資料並行。
使用即時檢視
使用即時檢視,能存取目前資料 (ODS) 與歷史記錄資料 (HDS)。即時檢視包括取自變更表格,尚未套用到目前或先前表格的資料。這可讓您查看低延遲的資料,而不必頻繁套用變更的資料。因能延遲合併,故可降低目標平台的成本和處理需求。
即時檢視有另一項好處,那就是運算層級不必始終執行。
-
登陸能指向小型的明確倉庫,因為這僅執行 INSERT 操作以便快速執行。
-
例如,儲存處理每日執行一次,能藉由處理喚醒大型運算層級。
-
因為不再需要全天套用變更,所以能改善延遲。變更表格中有插入的新記錄可用時,立刻可在即時檢視中提供使用。
架構
成品是在內部架構和資料任務結構描述中所產生。
-
內部架構含有實體資料表格。
-
資料任務結構描述含有您可藉以使用資料的檢視。
若結構描述與多個資料任務關聯,每個資料任務必須為表格和檢視使用唯一前置詞。您可以在資料任務設定中設定前置詞。
只會檢查內部結構描述是否有命名衝突。對於其他結構描述,您必須確認表格名稱中沒有命名衝突。最佳做法是將內部結構描述命名為與資料任務結構描述相同的名稱並加上 _internal。這將有效確認每個結構描述和前置詞組合都是唯一。
表格
以下表格是在內部架構中所建立。
-
目前的表格 (ODS)
這個表格含有上次套用間隔期間以變更所更新的資料來源複本。
-
先前的表格 (HDS)
這個表格含有 2 型歷史記錄資料。只有在資料任務設定中啟用歷史記錄才會產生。
每回來源表格記錄更新時,都會把新記錄加入至先前的表格。歷史記錄是原目前記錄的複本,其中也包含更新了什麼資料,以及該資料何時有效。
-
變更表格
這個表格含有尚未套用到目前表格的所有變更。只有使用登陸模式完整載入與 CDC 才會產生此表格。
檢視
在資料任務目標架構中可建立的檢視如下。所建立的檢視取決於您是否啟用即時檢視和歷史記錄,以及您是否使用變更處理。
-
目前檢視
-
即時檢視
-
變更檢視
-
歷史記錄檢視
-
歷史記錄即時檢視
目前檢視
命名:<EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< 用於即時檢視的後置詞>
下列標頭欄已新增至表格結構。
欄位 | 類型 | 描述 |
---|---|---|
hdr__key_hash | varbinary(20) |
所有記錄主要金鑰的雜湊。雜湊格式為 SHA1。欄由退格鍵字元分隔。 此欄不會在資料超市資料任務中產生。 |
hdr__key_id | int64 |
序列隨每筆記錄增量。 此欄僅會在資料超市資料任務中產生。 |
hdr__from_timestamp | 時間戳記 |
使用 UTC 的時間戳記
|
hdr__operation | string(1) |
此記錄的最新操作。
|
hdr__inserted_timestamp | 時間戳記 | 金鑰初次建立時的 UTC 時間戳記。使用完整載入時,完整載入的開始時間。 |
hdr__modified_timestamp | 時間戳記 | 上次套用更新時的 UTC 時間戳記。 |
即時檢視
即時檢視顯示每個所選來源表格的檢視,這些表格都透過變更表格中的變更合併表格。這能以即時資料檢視來查詢,不必等待下次套用週期。從變更表格檢視所合併的更改,不是表格之間一致的交易。
唯有您在資料任務的設定中啟用即時檢視,才會建立即時檢視。
命名:<EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< 即時檢視的後置詞>
欄位 | 類型 | 描述 |
---|---|---|
hdr__key_hash | varbinary(20) |
所有記錄主要金鑰的雜湊。雜湊格式為 SHA1。欄由退格鍵字元分隔。 此欄不會在資料超市資料任務中產生。 |
hdr__key_id | int64 |
序列隨每筆記錄增量。 此欄僅會在資料超市資料任務中產生。 |
hdr__from_timestamp | 時間戳記 |
使用 UTC 的時間戳記
|
hdr__operation | string(1) |
此記錄的最新操作。
|
hdr__inserted_timestamp | 時間戳記 | 金鑰初次建立時的 UTC 時間戳記。使用完整載入時,完整載入的開始時間。 |
hdr__modified_timestamp | 時間戳記 | 上次套用更新時的 UTC 時間戳記。 |
hdr__store | varchar(10) |
這表示記錄所在的位置。
|
變更檢視
此為登陸架構中每個所選來源表格的變更表格檢視。
命名:<EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_changes
下列標頭欄位已新增至表格結構。
欄位 | 類型 | 描述 |
---|---|---|
hdr__change_identifier | string(50) |
變更識別碼是含有兩個部分的字串:
|
hdr__from_timestamp | 時間戳記 |
使用 UTC 的時間戳記
|
hdr__to_timestamp | 時間戳記 |
使用 UTC 的時間戳記
|
hdr__operation | string(1) |
此記錄的最新操作。
|
hdr__timestamp | 時間戳記 |
使用 UTC 的時間戳記。 |
hdr__key_hash | binary(20) |
所有記錄主要金鑰的雜湊。 此欄不會在資料超市資料任務中產生。 |
hdr__key_id | int64 |
序列隨每筆記錄增量。 此欄僅會在資料超市資料任務中產生。 |
歷史記錄檢視
如果在資料任務設定中啟用歷史記錄,就會為每個選定的來源表格在資料資產架構中產生歷史記錄檢視。會新增下列標頭欄位。
命名:<EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< 歷史記錄檢視的後置詞>
欄位 | 類型 | 描述 |
---|---|---|
hdr__key_hash | binary(20) |
所有記錄主要金鑰的雜湊。 此欄不會在資料超市資料任務中產生。 |
hdr__key_id | int64 |
序列隨每筆記錄增量。 此欄僅會在資料超市資料任務中產生。 |
hdr__store | varchar(10) |
這表示記錄所在的位置。
|
hdr__operation | string(1) |
此記錄的最新操作。
|
hdr__deleted | 位元 |
依照 hdr__operation 是 D 或 d,表示記錄是否以軟體刪除。 |
hdr__was _current_from_timestamp | 時間戳記 |
記錄初次為最新時的 UTC 時間戳記。 |
hdr__was _current_to_timestamp | 時間戳記 |
記錄上次為最新時的 UTC 時間戳記。 |
歷史記錄即時檢視
歷史記錄即時檢視是為了與取自變更表格的變更合併的每個選定來源表格,在資料資產架構中所產生。會新增下列標頭欄位。
命名:<EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< 即時歷史記錄檢視的後置詞>
欄位 | 類型 | 描述 |
---|---|---|
hdr__key_hash | binary(20) |
所有記錄主要金鑰的雜湊。 此欄不會在資料超市資料任務中產生。 |
hdr__key_id | int64 |
序列隨每筆記錄增量。 此欄僅會在資料超市資料任務中產生。 |
hdr__store | varchar(10) |
這表示記錄所在的位置。
|
hdr__operation | string(1) |
此記錄的最新操作。
|
hdr__deleted | 位元 |
依照 hdr__operation 是 D 或 d,表示記錄是否以軟體刪除。 |