Qlik 開放湖倉庫 架構 | Qlik Cloud 說明
跳到主要內容 跳至補充內容

Qlik 開放湖倉庫 架構

Qlik 開放湖倉庫Qlik Talend Cloud 中提供完全受管的端對端解決方案,以在基於 Iceberg 的湖倉中擷取、處理和最佳化資料。此解決方案可大規模提供低延遲查詢效能和高效率的資料作業。

Qlik 開放湖倉庫 架構結合了安全通訊、可擴展運算和高效率資料處理,以提供現代化的湖倉體驗。Qlik 開放湖倉庫 運用 AWS 原生元件,包括 EC2 和 S3。

核心元件

建立 Qlik 開放湖倉庫 需要下列實體。

Data Movement Gateway (CDC)

Data Movement Gateway 在您的內部部署或雲端環境中執行。它會從來源系統 (例如 RDBMS、SAP 或大型主機) 擷取變更,並將資料傳送至 Amazon S3 登陸區域。串流來源不需要此項目。

網路整合代理程式 (EC2 執行個體)

網路整合代理程式是 EC2 執行個體,可促進雲端中的 Qlik 服務與您環境內的湖倉叢集之間的安全通訊。在網路整合程序期間,代理程式會自動部署為隨需執行個體,並由 Qlik 完全受管。新版本會在發行時自動部署。

當網路整合運作正常時,管理活動中心的 湖倉叢集 檢視中會顯示 已連線 狀態。如果發生連線問題,狀態會變更為 已中斷連線

湖倉叢集 (EC2 Auto-Scaling 群組)

湖倉叢集是負責資料處理的 AWS EC2 執行個體群組。叢集執行個體會協調並執行工作負載,以處理來自登陸區域的傳入資料,並在處理後將資料以 Iceberg 格式儲存在目標位置。

在設定網路整合期間,會自動建立具有單一 AWS Spot 執行個體的湖倉叢集。您可以管理並建立其他叢集,以支援您持續的湖倉需求。設定叢集時,您會授予 Qlik 權限來建立、啟動、停止、擴展或復原伺服器,以滿足資料處理需求。每個叢集都與單一網路整合相關聯,不過多個叢集可以在同一個網路整合內執行。單一叢集可以執行許多湖倉工作。

AWS Spot 執行個體使用備用的 Amazon EC2 容量,成本低於一般執行個體,但可能會在幾乎沒有通知的情況下被 AWS 中斷。依預設,Qlik 會佈建暫時的 Spot 執行個體以進行資料處理。如果 AWS Spot 市場中沒有足夠的 Spot 執行個體可用,Qlik 會自動使用隨需執行個體以確保連續性。當 Spot 執行個體可用時,系統會還原為 Spot 執行個體。湖倉叢集技術旨在於 Spot 和隨需執行個體之間順暢轉換,在節點之間移動工作。此程序會自動發生,不需要手動介入。在叢集設定中,您可以設定叢集中應使用多少個 Spot 和隨需執行個體。利用 Spot 執行個體有助於降低 Qlik 開放湖倉庫 的持續運算成本。

除了定義要使用的 Spot 和隨需執行個體數量之外,您還可以設定最適合專案工作負載和預算的擴展策略。下列擴展策略可套用至叢集:

  • 低成本:非常適合開發或 QA 環境,以及不依賴最新即時資料的工作負載。Qlik 致力於將成本保持在盡可能低的水平,這會導致偶爾出現高延遲期間。

  • 低延遲:專為可接受近乎即時資料時效性的非任務關鍵型工作負載而設計。雖然此策略旨在實現低延遲,但可能會遇到短暫的峰值。

  • 一致的低延遲:適用於具有必須具備即時資料時效性之大規模資料的生產環境。Qlik 會主動擴展執行個體以確保低延遲,這可能會產生較高的成本。

  • 不擴展:處理一致資料量之工作負載的絕佳選項。選取此選項可保留靜態數量的執行個體,無需自動擴展且成本可預測。

Amazon S3 值區

Amazon S3 值區的使用方式如下:

  • 登陸資料值區:原始 CDC 資料在轉換之前會登陸在 S3 值區中。

  • 組態值區:儲存湖倉系統使用的中繼資料和組態。

  • Iceberg 表格儲存:資料會儲存並最佳化在 Iceberg 格式表格中。所使用的值區由專案的目錄連線決定。

高階流程

初始設定

  1. VPC 和基礎架構佈建 - 藉由追蹤 Qlik 文件內的指示,在您的 AWS 帳戶中設定 VPC 以及子網路、S3 值區和 IAM 角色。

  2. 網路整合組態 - 租用戶管理員使用先前佈建的基礎架構詳細資料,在 Qlik Talend Cloud 中建立網路整合。

  3. Qlik 元件部署 - Qlik 會在您的 VPC 內自動佈建資料平面閘道和湖倉叢集。

  4. 建立通訊 - 資料平面閘道會安全地與 Qlik Talend Cloud 建立通訊。

  5. 閘道部署 - 在內部部署或您的雲端環境 (包括資料平面 VPC) 中部署 Data Movement Gateway (CDC)。

  6. 準備好運作 - 設定完成後,您可以根據其存取權限建立和管理 Qlik 開放湖倉庫 專案和工作。

建立 Qlik 開放湖倉庫 專案

提供下列工作類型:

登陸資料工作

  1. 來源組態 - Data Movement Gateway 設定為從來源系統 (包括 RDBMS、SAP、大型主機等) 擷取變更。

  2. 資料登陸 - CDC 工作會持續將原始變更資料傳送至您 AWS 帳戶中指定的 S3 登陸值區。

儲存資料工作

  1. 註冊 Iceberg 目錄連線,例如 AWS Glue Data Catalog。

  2. Qlik Talend Cloud 中定義儲存工作。

  3. Qlik Talend Cloud 會將工作定義傳送至資料平面閘道。

  4. 資料平面閘道會安全地將工作指示轉送至 Qlik 湖倉叢集。

  5. 叢集會持續從 S3 中的登陸值區讀取原始資料、進行處理,並將輸出寫入 S3 中的 Iceberg 表格。

  6. 湖倉叢集會根據湖倉叢集設定中預先定義的偏好設定,根據負載自動擴展或縮減。

  7. 監控資料會傳送至 Qlik Talend Cloud,而記錄和指標會轉送至 Qlik

鏡像資料工作

您可以建立外部 Iceberg 表格,以允許從您的雲端資料倉庫查詢儲存在資料湖中的資料,而無需重複。這可讓您在儲存於 S3 上 (例如 Parquet 格式) 的 Iceberg 受管資料之上使用資料倉庫分析引擎。透過參照外部表格而不是將資料複製到資料倉庫,這可降低儲存成本、維持單一事實來源,並確保湖倉和倉庫環境之間的一致性。

您的網路整合與 Qlik Talend Cloud 之間的通訊

網路整合會建立與 Qlik Talend Cloud 的傳出安全連線 (HTTPS)。成功接受後,連線會轉換為安全的 Web Socket (WSS)。網路整合與 Qlik Talend Cloud 之間會建立額外的專用通訊通道 (WSS),以接收湖倉特定的工作命令和控制項。網路整合會定期建立與 Qlik Talend Cloud 的安全連線 (HTTPS),以接收和傳送資料相關事件。指標和記錄會從湖倉叢集傳送至 Qlik

採取下列措施以確保您的資料安全:

  • 從您的網路整合到 Qlik Talend Cloud 的所有連線都是傳出的。不需要傳入存取。

  • 中繼資料、命令和控制要求會使用受 HTTPS 保護的通訊通道進行傳輸,從而在網路整合與 Qlik Talend Cloud 之間建立額外的加密圖層。

  • 所有資料流程都在您擁有的資源之間進行。資料絕不會傳送至 Qlik Talend Cloud。例如,表格和欄位名稱等中繼資料會傳送至 Qlik Talend Cloud 以允許工作定義。

  • 資料在傳送至 Qlik 之前會進行匿名化。Qlik 會使用匿名化資料,在記錄或指標指出問題時主動為您提供支援。

資料集架構

Qlik 開放湖倉庫 管道專案中資料集的架構由資料來源決定。如需詳細資訊,請參閱下列內容:

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們!