建立與管理資料超市 | Qlik Cloud 說明
跳到主要內容 跳至補充內容

建立與管理資料超市

載入資料後,您可以使用來自 Storage Transform 任務的資料來建立資料超市。您可以根據業務需求建立任意數量的資料超市。理想情況下,您的資料超市應包含為分析組織內特定區段或單位 (例如銷售部門) 而收集的摘要資料儲存庫。

資訊備註資料超市建立功能適用於 Qlik Talend Cloud 進階版Qlik Talend Cloud 企業版 訂閱。
資訊備註資料任務在所屬的專案擁有者的內容中操作。如需有關所需角色和權限的詳細資訊,請參閱 資料空間角色與權限

除了將表格儲存在資料倉庫之外,您也可以將表格儲存為由資料平台管理的 Iceberg 表格。此選項目前僅適用於 Snowflake 專案。可以在任務設定中的表格類型之下選取 Snowflake 管理的 Iceberg 表格,以便進行。

先決條件

您可以使用下列類型的資料任務作為資料超市的來源:

  • Storage

  • Transform

在建立資料超市之前,您需要在來源資料任務中執行下列操作:

  • 將您想要在資料超市中使用的資料填入資料集。如需詳細資訊,請參閱 將資料導入資料倉儲
  • 建立資料集關聯式模型以定義來源資料集之間的關係。如需詳細資訊,請參閱 建立資料模型

    警告備註所有來源資料集都必須具有索引鍵。

建立資料超市

若要建立資料超市:

  1. 開啟您的專案。

  2. 執行下列其中一項操作:

    • 按一下右上角的 建立,然後選取 建立資料超市
    • 在來源資料任務中,按一下右下角的 ,然後選取 建立資料超市

    建立資料超市 對話方塊隨即開啟。

    建立資料超市的對話方塊

  3. 提供資料超市的名稱,並選擇性地提供說明。

  4. 如果您想要稍後設定資料超市,請清除 開啟 核取方塊,然後按一下 建立。否則,只需按一下 建立

    資料超市會在 資料超市 索引標籤上開啟。

    資料超市

  5. 選取您的來源資料 中所述選取您的來源資料
  6. 如果您希望資料超市包含維度,請如 將維度和事實新增至資料超市 中所述新增維度
  7. 如果您希望資料超市包含事實,請如 新增事實 中所述新增事實
  8. 如果資料超市同時包含維度和事實,請如 建置星狀結構描述 中所述將維度新增至您的星狀結構描述。
  9. 在您的資料超市中建立資料集,並如 填入您的資料超市 中所述將資料填入其中。

瞭解更多資訊

選取您的來源資料

您可以從來源資料任務中的資料集選取來源資料。

若要執行此操作:

  1. 按一下索引標籤中間的 選取來源資料 按鈕,或按一下 選取來源資料 工具列按鈕。

    選取來源資料 對話方塊隨即開啟。

  2. 管道專案 下拉式清單中,選取要從哪個專案取得來源資料。

    您可以從目前專案或從另一個專案新增資料集。若要從另一個專案新增資料集:

    • 您必須在所使用專案的空間中至少具有 可取用 角色。

    • 兩個專案必須位於相同的資料平台上。

    如果選取的專案處於版本控制之下,您可以選取要使用哪個分支作為來源。如需有關跨專案管道的詳細資訊,請參閱 建置跨專案管道

  3. 資料任務 下拉式清單中,選取 Storage 任務,或者如果您建立了轉換,則選取 Transform 任務。

  4. 保留預設的 % 以搜尋所有資料集,或輸入特定資料集的名稱以進行尋找。然後按一下 搜尋

  5. 選取所需的資料集,然後按一下 新增選取的資料表

  6. 按一下 確定 以關閉對話方塊,然後繼續執行 新增事實 和/或 新增維度

資訊備註您可以重複此程序以從其他資料任務新增資料集。

將維度和事實新增至資料超市

選取來源資料後,您就可以繼續建置資料超市。資料超市可以有事實資料集、維度資料集,或兩者的組合 (其中維度資料集在邏輯上與事實資料集相關)。

新增維度

若要新增維度。

  1. 按一下 新增維度 按鈕。

    新增維度 對話方塊隨即開啟。

  2. 提供下列設定:

    • 最精細的資料集:選取資料集。
    • 名稱:指定維度的顯示名稱。預設為最精細的資料集名稱。
    • 說明:選擇性地提供說明。
    • 歷程記錄類型:選取下列其中一項:
      • 類型 1:每當 Storage 中的對應記錄更新時,維度中的現有記錄就會更新。
      • 類型 2:每當 Storage 中的對應記錄更新時,就會將新記錄新增至維度。
    • 要反正規化的相關資料集:任何可以在維度資料集中反正規化的資料集 (根據來源資料資產模型中的關係) 都可以在此處選取。

      可以反正規化的維度範例

      具有相關維度的維度範例

  3. 按一下 確定 以儲存您的設定。

    維度將會新增至左側的 維度 清單中。

另請參閱 角色扮演維度

檢視有關維度的資訊

當您選取維度時,來源關聯式模型 索引標籤將會顯示在中央窗格中。此索引標籤會顯示在維度中合併的來源資料集。您在新增維度時選擇反正規化的資料集將會顯示為已選取 (並呈現灰色)。

使用 Categories Suppliers 資料集反正規化的 Products 維度

具有相關維度的關聯式模型範例

新增事實

若要新增事實:

  1. 按一下 新增事實 按鈕。

    新增事實 對話方塊隨即開啟。

  2. 提供下列設定:

    • 事實:選取要作為事實的資料集。資料集應定義您正在建立之事實的精細度。
    • 名稱:指定事實的顯示名稱。預設為事實名稱。
    • 說明:選擇性地提供說明。
    • 要反正規化的相關資料集:任何可以在您的事實資料集中反正規化的資料集都可以在此處選取。
    • 進階
      • 使用目前資料:選取時 (預設),事實將不會包含交易日期欄。
      • 選擇交易日期:若要根據特定交易日期尋找資料,請選取此選項,然後選取日期欄。如果您的星狀結構描述包含類型 2 維度,且您需要尋找特定交易的正確資料,這將非常有用。例如,如果客戶有多個地址,則可能可以根據訂單日期找到正確的地址。

        範例使用案例:

        零售商需要建立資料超市來分析訂單與客戶之間的關係。資料超市應該能夠回答諸如以下查詢:2022 年第 4 季美國哪個州的訂單總額最高?

        如果零售商選取 使用目前資料 選項,則只有 Customers 資料表中的最新記錄版本會包含在計算中。

        忽略交易日期將導致資料不準確,如下圖所示:

        顯示選取「使用目前資料」時,Orders 事實資料表與 Customers 維度之間的關係。

        然而,如果零售商選取 選擇交易日期 選項,客戶的訂單將會與 Customers 資料表中的正確記錄版本建立關聯。

        這將允許零售商準確計算 2022 年第 4 季每個州的訂單總額。

        顯示選取「使用交易日期」時,Orders 事實資料表與 Customers 維度之間的關係。

        提示備註請注意,根據業務需求,交易日期在每個資料超市中的運用方式可能有所不同。例如,在一個資料超市中,它可以用來分析訂單日期,而在另一個資料超市中,它可以用來分析出貨日期。
  3. 按一下 確定 以儲存您的設定。

    事實將會新增至左側的 事實 清單中。

檢視有關事實的資訊

當您選取事實時,中央窗格中會顯示下列索引標籤:

  • 星狀結構描述模型 (預設):顯示資料超市內資料集關係的圖形表示。
  • 事實模型:顯示與事實資料集相關的任何資料集。您在新增事實時選擇反正規化的資料集將會顯示為已選取 (並呈現灰色)。

    具有反正規化 Orders 資料集的 Orders Details 事實

    具有反正規化資料集的事實範例

  • 交易日期:如果您在新增事實時選取了 選擇交易日期 選項,則為交易欄的名稱。

未知和延遲到達的維度處理

每個維度都包含 -10 列,這些是維度的業務索引鍵 (物件 ID)。第 -1 列保留給延遲到達的維度,而 0 則保留給未知的維度。

未知的維度

「未知」是指最初建立維度時無法使用的資料。例如,假設您有一個 ORDER 事實,其中包含一個 SHIPPER 欄,該欄是 SHIPPER 維度的業務索引鍵。如果 ORDER 事實列尚未出貨 (因此 SHIPPER 欄為 NULL),它將會與 0 記錄 (表示維度的未知) 建立關聯。當 ORDER 事實稍後更新為 SHIPPER 值 (例如 USPS) 時,相關的維度 ID (0) 也會隨之更新。

資訊備註「未知」也可能是遺失或不存在的資料,這些資料可能永遠不會被新增。

延遲到達的維度

延遲到達的維度具有存在於新事實資料中,但尚未存在於維度中的索引鍵。例如,如果 ORDER 事實中的 SHIPPER 具有新托運人的值 "NEWSHIP",且該業務索引鍵尚未存在於 DIM_SHIPPER 維度中,則資料超市處理會將該事實與 -1 列建立關聯。這表示您的維度資料表中遺失了維度成員。當 DIM_SHIPPER 維度的 "NEWSHIP" 業務索引鍵到達時,將會建立其維度列,並更新事實記錄以與先前遺失的維度保持一致。

建置星狀結構描述

將維度新增至資料超市後,您就可以繼續將它們連接到您的事實資料集,從而建立星狀結構描述。

若要執行此操作:

  1. 在左側的 事實 清單中選取您的事實。
  2. 從右側的 建議的維度 清單中選取要新增的維度。

    建議的維度會以虛線顯示為連接到事實資料集。

    在下圖中,某些維度是較早新增的,因此以灰色實線連接。

    具有建議維度的星狀結構描述範例

  3. 按一下 套用 以新增維度。

    維度將會以灰色實線顯示為連接到事實資料集。

  4. 若要關閉 建議的維度 面板,請按一下 關聯

填入您的資料超市

設計好資料超市後,您就可以繼續填入資料。

若要執行此操作:

  1. 按一下右上角的 準備 工具列按鈕。

    準備程序包括在資料超市中建立資料集和檢視,以及更新目錄。

    您可以在畫面下方的 準備進度 下追蹤進度。

    準備完成後,準備 按鈕會變更為 執行

  2. 選擇性地,如下方 驗證和同步您的資料超市 中所述驗證資料超市。

  3. 按一下 執行 按鈕。

    視窗會切換至 監視器 檢視,顯示資料超市中資料集的載入進度和狀態。

    資料超市監視器

每筆來源記錄都會由資料超市處理,甚至是已刪除的記錄。這樣做是為了確保保留歷程記錄資訊。

資訊備註對於具有類型 2 歷程記錄的維度資料集,處理的記錄計數將包含記錄的所有版本列,並顯示高於實際處理記錄數的值。

驗證和同步您的資料超市

驗證資料超市可確保資料超市中繼資料與 Storage (或 Transform,如果已定義) 中的對應中繼資料相同。驗證資料超市也會將建立的中繼資料與目前的星狀結構描述設計進行比較。例如,如果您在將維度新增至已建立的資料超市後執行驗證,驗證將會失敗。

若要驗證資料超市:

  1. 執行 按鈕右側的 更多 功能表中選取 驗證資料集,或按一下視窗右下角的 驗證資料集 按鈕。

    將會顯示 驗證已完成 訊息。

  2. 如果中繼資料未同步,或存在星狀結構描述設計衝突,視窗底部的 驗證並調整 窗格將會自動開啟並顯示驗證報告。

    具有星狀結構描述設計衝突的資料超市

    具有驗證錯誤的資料超市

  3. 若要解決任何 暫停的設計變更 問題,請按一下右上角的 更多 按鈕,然後選取 準備。如果 可在不遺失資料的情況下變更 欄的值為 ,則會執行 ALTER 操作。否則,將會重新建立資料超市資料表。

    請注意,所有 驗證錯誤 都需要手動解決。

管理資料超市

本區段說明可用於管理資料集和資料超市的各種選項。

精簡事實或維度

資料集 索引標籤中,您可以執行各種操作來精簡事實和維度,例如建立轉換規則 (例如,取代欄值) 以及新增欄層級運算式。資料集 索引標籤位於 資料超市 索引標籤的右側:

資料集索引標籤

用於管理事實和維度資料集的資料集索引標籤

新增規則

如需如何新增全域規則的說明,請參閱 建立規則以轉換資料集

資訊備註如需有關規則以及您可以在資料集上執行的其他操作的詳細資訊,請參閱 管理資料集。請注意,某些選項 (例如篩選和重新命名資料集) 不適用於資料超市資料任務。

新增欄

您可以將新欄新增至目標資料集。

  • 按一下 + 新增

    提供欄的名稱,並設定運算式以定義欄資料。

    如需詳細資訊,請參閱 新增欄至資料集

  • 按一下 新增 旁邊的 向下,然後選取 從來源新增欄

    從來源資料集選取欄。

重新排序欄

您可以變更欄的序數位置。

  1. 選取欄。

  2. 按一下 更多,然後按一下 重新排序

  3. 使用箭頭向上或向下移動欄。

  4. 準備好後關閉 變更序數

角色扮演維度

角色扮演維度是在同一個星狀結構描述中多次使用,但具有不同意義的相同維度。這在日期和客戶維度中很常見。例如,您的星狀結構描述可能有兩個日期實體,一個代表訂單日期,另一個代表收貨日期。

若要新增或編輯維度的角色名稱:

  1. 按一下維度節點中的 更多 圖示,然後選取 編輯此星狀結構描述中的維度名稱
  2. 編輯此星狀結構描述中的維度名稱 對話方塊中,於 此星狀結構描述中的維度名稱 欄位中輸入名稱 (或編輯現有名稱),然後按一下 確定

    新名稱將會顯示在原始維度名稱下方。

其他管理選項

下表說明其他管理選項:

若要 執行此操作
新增其他來源資料集 請參閱 選取您的來源資料
新增其他事實 請參閱 新增事實
新增其他維度 請參閱 將維度和事實新增至資料超市
刪除維度 維度 窗格中選取維度,然後從 功能表中選取 刪除
刪除事實 事實 窗格中選取事實,然後從 功能表中選取 刪除
重新建立資料超市

按一下右上角的 按鈕,然後選取 重新建立資料表。例如,如果 Storage 中有無法自動同步到資料超市的變更,則可能需要重新建立資料超市。

資訊備註若個別表格發生問題,建議先嘗試載入表格,而非重新建立。重新建立表格可能會造成歷史資料損失。若有重大變更,您也必須準備取用重建資料任務的下游資料任務,以載入資料。
停止執行中的資料超市任務 按一下右上角的 停止 按鈕。
準備資料超市任務

按一下右上角的 按鈕,然後選取 準備,以將資料集與 Transform 或 Storage 資產同步,並解決任何設計衝突。這會準備要執行的任務。這包括:

  • 驗證設計是否有效。

  • 建立或變更實體資料表和檢視以符合設計。

  • 產生資料任務的 SQL 程式碼。

  • 建立或變更任務輸出資料集的目錄項目。

您可以在畫面下方的 準備進度 下追蹤進度。

資訊備註在準備任務之前,請停止直接下游處理的所有任務。

排程資料超市任務

您可以排程資料超市任務以定期更新。您可以設定以時間為基礎的排程,或設定在輸入資料任務完成執行時執行任務。

按一下資料任務上的 ...,然後選取 排程 以建立排程。預設排程設定繼承自專案中的設定。如需有關預設設定的詳細資訊,請參閱 資料超市預設值

您需要將 排程 設定為 開啟 以啟用排程。

以時間為基礎的排程

無論不同的輸入來源何時更新,您都可以使用以時間為基礎的排程來執行任務。

  • 執行資料任務 中選取 在特定時間

您可以設定每小時、每天、每週或每月的排程。

以事件為基礎的排程

您可以使用以事件為基礎的排程,在輸入資料任務完成執行時執行任務。

  • 執行資料任務 中選取 在特定事件

您可以選取是否要在任何輸入任務成功完成時,或在任何選取的輸入任務成功完成時執行任務。

資訊備註如果在觸發排程時有任何輸入任務或下游任務正在執行,則任務將不會執行。任務將被略過,直到下一次排程執行。

重新載入資料

您可以執行手動重新載入資料。當一個或多個資料表出現問題時,這非常有用。

  1. 開啟資料任務並選取 監視器 索引標籤。

  2. 選取您想要重新載入的資料表。

    當選取維度進行重新載入時,所有使用該維度的事實也將被重新載入以維持完整性。

  3. 按一下 重新載入資料表

您可以按一下 取消重新載入 來取消暫停重新載入的資料表的重新載入。這不會影響已重新載入的資料表,且目前正在執行的重新載入將會完成。

重新載入的執行方式如下:

  1. 截斷選取的維度和事實。

  2. 從上游資料任務載入選取的維度資料表。

  3. 從上游資料任務載入事實資料表。這包括:

    • 明確選取的事實資料表。

    • 與重新載入的維度相關的事實資料表。

資訊備註如果您重新載入維度 x 和相關事實 a,然後也使用維度 x 建立新事實 b,則事實 b 將不會自動重新載入。您必須手動重新載入新事實 b

刪除任務

如果資料任務未執行,且相同專案中沒有下游任務的相依性,您可以刪除該資料任務。

  • 在專案的管線專案檢視中,按一下任務上的更多,然後選取刪除

任務建立的成品 (表格和檢視) 也會被刪除,除非您選擇保留它們。

資訊備註請記住,您保留的成品將不再由任務更新。

檢視任務資訊

按一下功能表長條上的 資訊 以檢視任務資訊,例如:

  • 擁有者

  • 空間

  • 資料平台

  • 專案 ID

  • 資料任務執行階段 ID

資料超市設定

按一下 設定 工具列按鈕以開啟 設定:<data-mart-name> 對話方塊。

警告備註如果任務已經執行過,變更執行階段設定以外的設定將需要您重新建立資料集。

一般設定

一般 索引標籤中,提供下列設定:

  • 資料庫:將在其中建立資料超市的資料庫
  • 資料任務結構描述:將在其中建立資料集的結構描述
  • 內部結構描述:將在其中建立內部資料集的結構描述
  • 結構描述名稱的預設大寫

    您可以設定所有結構描述名稱的預設大寫。如果您的資料庫設定為強制大寫,此選項將不會生效。

  • 用於所有表格和檢視的前置詞

    您可以為透過此任務建立的所有表格和檢視畫面設定前置詞。

    資訊備註若您想要在數個資料任務中使用一個資料庫結構描述,則必須使用唯一前置詞。
  • 發佈至目錄

    選取此選項以將此資料版本發佈至目錄作為資料集。將會在下次您準備此任務時更新目錄內容。

    如需更多關於目錄的資訊,請參閱 使用目錄工具理解資料

執行階段設定

執行階段 索引標籤中,提供下列設定:

  • 平行執行:輸入允許 Qlik Cloud 為任務開啟的資料庫連線最大數量。預設數量為 10。
  • 倉儲:僅與 Snowflake 相關。Snowflake 資料倉儲的名稱。

檢視類型設定

檢視類型設定僅適用於 Snowflake。

  • 標準檢視

    在大多數情況下使用標準檢視。

  • Snowflake 安全檢視

    將 Snowflake 安全檢視用於指定用於資料隱私或敏感資訊保護的檢視,例如為限制存取不應向基礎資料表的所有使用者公開的敏感資料而建立的檢視。

    資訊備註 Snowflake 安全檢視的執行速度可能比標準檢視慢。

資料表類型設定

這些設定僅可用於以 Snowflake 作為資料平台的專案。

  • 表格類型

    您可以選取要使用的表格類型:

    • Snowflake 表格

    • Snowflake 管理的 Iceberg 表格

      您必須在 Snowflake 外部磁碟區中設定外部磁碟區的預設名稱。

  • 要使用的雲端儲存資料夾

    選取將資料登陸到暫存區域時要使用的資料夾。

    • 預設資料夾

      如此可建立預設名稱為 <專案名稱>/<資料任務名稱> 的資料夾。

    • 根資料夾

      將資料存放在儲存區的根資料夾。

    • 資料夾

      指定要使用的資料夾名稱。

  • 與 Snowflake 開放目錄同步

    啟用此選項可讓 Snowflake Open Catalog 管理雲端檔案儲存中的檔案。

最佳實務

  • 如果已新增事實和維度,則無法變更資料集的來源。如果您想要保持彈性,可以新增具有非具體化檢視的先前 Transform 任務,該任務可用於變更來源,並為所有來源任務提供模型。

限制

使用滿足以下所有條件的來源資料集時,有一些限制:

  • 透過 SQL 轉換或轉換流程建立

  • 非具體化

  • 歷史資料儲存 (類型 2) 已關閉

這些資料集在每次執行時都會更新,這可能會影響效率和成本。您可以透過以下方式緩解此問題:

  • 變更要具體化的來源資料集。

  • 使用明確的資料集轉換。

  • 建立轉換多個資料集的全域規則。

關係

  • 無法關聯兩個資料集的資料。建立轉換任務,您可在此定義資料模型中的關係,並使用轉換任務作為任務的來源。

  • 若資料模型中有兩個資料集相關,即使您只選取了其中一個資料集,這兩個資料集都將在任務中提供使用。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們!