跳到主要內容 跳至補充內容

雲端資料倉庫中的資料集架構

Qlik Talend Data Integration 可供您建立、管理及控制分析資料管道,將資料一路交付給消費者。當您用 Qlik Talend Data Integration 在雲端資料倉庫中產生資料集時,會產生儲存表格、變更表格和檢視畫面。

有符合直觀且附引導的使用者介面,協助您組建、型塑並執行資料管道。無需手動編碼,即可自動產生操作資料儲存區 (ODS) 和歷史記錄資料儲存區 (HDS) 的架構。

使用 Qlik 資料閘道 - 資料移動 和 CDC 建構 Qlik Talend Data Integration 資料管道

  • 登陸

    Qlik Talend Data Integration 中的登陸任務能控制從資料來源到登陸區域的連續資料登陸。圖中的範例描述以 Qlik 資料閘道 - 資料移動 使用 CDC 存取資料來源,以保持資料為最新。您也能使用 Qlik Cloud 來源連線執行可排程定期重新載入的完整載入。

    如需關於何時需要使用 資料移動閘道 的資訊,請參閱 何時需要 資料移動閘道?

    資訊備註登陸區域中的表格是以 Qlik Talend Data Integration 儲存區資料任務所產生,供內部使用。請勿將登陸表格使用於任何其他下游處理。
  • 儲存區

    儲存區任務可控制將資料套用到儲存區表格的時機,並能建立及管理表格和外部檢視。

  • 外部檢視

    取用資料時,最佳做法是使用檢視。與表格相比,檢視提供多種優點,包括改善資料並行。

使用即時檢視

使用即時檢視,能存取目前資料 (ODS) 與歷史記錄資料 (HDS)。即時檢視包括取自變更表格,尚未套用到目前或先前表格的資料。這可讓您查看低延遲的資料,而不必頻繁套用變更的資料。因能延遲合併,故可降低目標平台的成本和處理需求。

即時檢視有另一項好處,那就是運算層級不必始終執行。

  • 登陸能指向小型的明確倉庫,因為這僅執行 INSERT 操作以便快速執行。

  • 例如,儲存處理每日執行一次,能藉由處理喚醒大型運算層級。

  • 因為不再需要全天套用變更,所以能改善延遲。變更表格中有插入的新記錄可用時,立刻可在即時檢視中提供使用。

架構

成品是在內部架構和資料任務結構描述中所產生。

  • 內部架構含有實體資料表格。

  • 資料任務結構描述含有您可藉以使用資料的檢視。

    若結構描述與多個資料任務關聯,每個資料任務必須為表格和檢視使用唯一前置詞。您可以在資料任務設定中設定前置詞。

只會檢查內部結構描述是否有命名衝突。對於其他結構描述,您必須確認表格名稱中沒有命名衝突。最佳做法是將內部結構描述命名為與資料任務結構描述相同的名稱並加上 _internal。這將有效確認每個結構描述和前置詞組合都是唯一。

資訊備註所有表格和檢視都由 Qlik Talend Data Integration 管理。請勿使用其他工具改變資料。

表格

以下表格是在內部架構中所建立。

  • 目前的表格 (ODS)

    這個表格含有上次套用間隔期間以變更所更新的資料來源複本。

  • 先前的表格 (HDS)

    這個表格含有 2 型歷史記錄資料。只有在資料任務設定中啟用歷史記錄才會產生。

    每回來源表格記錄更新時,都會把新記錄加入至先前的表格。歷史記錄是原目前記錄的複本,其中也包含更新了什麼資料,以及該資料何時有效。

    請使用歷史記錄檢視或歷史記錄即時檢視來檢視歷史記錄資料。如需詳細資訊,請參閱 歷史記錄檢視歷史記錄即時檢視

  • 變更表格

    這個表格含有尚未套用到目前表格的所有變更。只有使用登陸模式完整載入與 CDC 才會產生此表格。

檢視

在資料任務目標架構中可建立的檢視如下。所建立的檢視取決於您是否啟用即時檢視和歷史記錄,以及您是否使用變更處理。

  • 目前檢視

  • 即時檢視

  • 變更檢視

  • 歷史記錄檢視

  • 歷史記錄即時檢視

目前檢視

命名:<EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< 用於即時檢視的後置詞>

下列標頭欄已新增至表格結構。

表格標頭欄位
欄位 類型 描述
hdr__key_hash varbinary(20)

所有記錄主要金鑰的雜湊。雜湊格式為 SHA1。欄由退格鍵字元分隔。

此欄不會在資料超市資料任務中產生。

hdr__key_id int64

序列隨每筆記錄增量。

此欄僅會在資料超市資料任務中產生。

hdr__from_timestamp 時間戳記

使用 UTC 的時間戳記

  • 對於取自完整載入的資料,這將會是完整載入開始時間。

  • 對於透過變更表格而來的變更,這將會是記錄的時間戳記欄位。

hdr__operation string(1)

此記錄的最新操作。

  • D - 已從變更表格刪除。

  • U - 已從變更表格更新。

  • I - 已從變更表格插入。

  • L - 已透過完整載入任務插入。

  • d - 已從比較與套用刪除。

  • u - 已從比較與套用更新。

  • i - 已從比較與套用插入。

hdr__inserted_timestamp 時間戳記 金鑰初次建立時的 UTC 時間戳記。使用完整載入時,完整載入的開始時間。
hdr__modified_timestamp 時間戳記 上次套用更新時的 UTC 時間戳記。

即時檢視

即時檢視顯示每個所選來源表格的檢視,這些表格都透過變更表格中的變更合併表格。這能以即時資料檢視來查詢,不必等待下次套用週期。從變更表格檢視所合併的更改,不是表格之間一致的交易。

唯有您在資料任務的設定中啟用即時檢視,才會建立即時檢視。

命名:<EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< 即時檢視的後置詞>

表格標頭欄位
欄位 類型 描述
hdr__key_hash varbinary(20)

所有記錄主要金鑰的雜湊。雜湊格式為 SHA1。欄由退格鍵字元分隔。

此欄不會在資料超市資料任務中產生。

hdr__key_id int64

序列隨每筆記錄增量。

此欄僅會在資料超市資料任務中產生。

hdr__from_timestamp 時間戳記

使用 UTC 的時間戳記

  • 對於取自完整載入的資料,這將會是完整載入開始時間。

  • 對於透過變更表格而來的變更,這將會是記錄的時間戳記欄位。

hdr__operation string(1)

此記錄的最新操作。

  • D - 已從變更表格刪除。

  • U - 已從變更表格更新。

  • I - 已從變更表格插入。

  • L - 已透過完整載入任務插入。

  • d - 已從比較與套用刪除。

  • u - 已從比較與套用更新。

  • i - 已從比較與套用插入。

hdr__inserted_timestamp 時間戳記 金鑰初次建立時的 UTC 時間戳記。使用完整載入時,完整載入的開始時間。
hdr__modified_timestamp 時間戳記 上次套用更新時的 UTC 時間戳記。
hdr__store varchar(10)

這表示記錄所在的位置。

  • CURRENT - 如果記錄位在目前的實體表格。

  • CHANGES - 如果記錄位在變更表格。

變更檢視

此為登陸架構中每個所選來源表格的變更表格檢視。

命名:<EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_changes

下列標頭欄位已新增至表格結構。

變更表格標頭欄位
欄位 類型 描述
hdr__change_identifier string(50)

變更識別碼是含有兩個部分的字串:

  • 自 1970 年 1 月 1 日起,以秒計的批次執行開始時間戳記 (10 位字串)

  • 來自複寫閘道的變更序列 (35 個字元)

hdr__from_timestamp 時間戳記

使用 UTC 的時間戳記

  • 對於取自完整載入的資料,這將會是完整載入開始時間。

  • 對於透過變更表格而來的變更,這將會是記錄的時間戳記欄位。

hdr__to_timestamp 時間戳記

使用 UTC 的時間戳記

  • 對於取自完整載入的資料,這將會是完整載入開始時間。

  • 對於透過變更表格而來的變更,這將會是記錄的時間戳記欄位。

hdr__operation string(1)

此記錄的最新操作。

  • D - 已從變更表格刪除。

  • U - 已從變更表格更新。

  • I - 已從變更表格插入。

  • L - 已透過完整載入任務插入。

  • d - 已從比較與套用刪除。

  • u - 已從比較與套用更新。

  • i - 已從比較與套用插入。

hdr__timestamp 時間戳記

使用 UTC 的時間戳記。

hdr__key_hash binary(20)

所有記錄主要金鑰的雜湊。

此欄不會在資料超市資料任務中產生。

hdr__key_id int64

序列隨每筆記錄增量。

此欄僅會在資料超市資料任務中產生。

歷史記錄檢視

如果在資料任務設定中啟用歷史記錄,就會為每個選定的來源表格在資料資產架構中產生歷史記錄檢視。會新增下列標頭欄位。

命名:<EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< 歷史記錄檢視的後置詞>

歷史記錄檢視標頭欄位
欄位 類型 描述
hdr__key_hash binary(20)

所有記錄主要金鑰的雜湊。

此欄不會在資料超市資料任務中產生。

hdr__key_id int64

序列隨每筆記錄增量。

此欄僅會在資料超市資料任務中產生。

hdr__store varchar(10)

這表示記錄所在的位置。

  • CURRENT - 如果記錄位在目前的實體表格。

  • PRIORS - 如果記錄位在有歷史記錄資料的先前表格。

hdr__operation string(1)

此記錄的最新操作。

  • D - 已從變更表格刪除。

  • U - 已從變更表格更新。

  • I - 已從變更表格插入。

  • L - 已透過完整載入任務插入。

  • d - 已從比較與套用刪除。

  • u - 已從比較與套用更新。

  • i - 已從比較與套用插入。

hdr__deleted 位元

依照 hdr__operation 是 D 或 d,表示記錄是否以軟體刪除。

hdr__was _current_from_timestamp 時間戳記

記錄初次為最新時的 UTC 時間戳記。

hdr__was _current_to_timestamp 時間戳記

記錄上次為最新時的 UTC 時間戳記。

歷史記錄即時檢視

歷史記錄即時檢視是為了與取自變更表格的變更合併的每個選定來源表格,在資料資產架構中所產生。會新增下列標頭欄位。

命名:<EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< 即時歷史記錄檢視的後置詞>

即時歷史記錄檢視標頭欄位
欄位 類型 描述
hdr__key_hash binary(20)

所有記錄主要金鑰的雜湊。

此欄不會在資料超市資料任務中產生。

hdr__key_id int64

序列隨每筆記錄增量。

此欄僅會在資料超市資料任務中產生。

hdr__store varchar(10)

這表示記錄所在的位置。

  • CURRENT - 如果記錄位在目前的實體表格。

  • PRIORS - 如果記錄位在有歷史記錄資料的先前表格。

  • CHANGES - 如果記錄位在變更表格。

hdr__operation string(1)

此記錄的最新操作。

  • D - 已從變更表格刪除。

  • U - 已從變更表格更新。

  • I - 已從變更表格插入。

  • L - 已透過完整載入任務插入。

  • d - 已從比較與套用刪除。

  • u - 已從比較與套用更新。

  • i - 已從比較與套用插入。

hdr__deleted 位元

依照 hdr__operation 是 D 或 d,表示記錄是否以軟體刪除。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!