步驟 2:建立 Lakehouse 叢集
Lakehouse 叢集定義了執行 Qlik 開放湖倉庫 儲存任務的運算環境。每個叢集都會指定包含執行個體數量、機器類型和擴展策略的設定。
當您為 Qlik 開放湖倉庫 管道專案建立網路整合時,系統會自動建立一個具有單一 AWS Spot 執行個體的叢集。不過,您可以在「管理」和 資料整合 活動中心建立其他叢集。
Lakehouse 叢集將管道連結至一組 AWS 執行個體,讓您可以透過將關鍵工作指派給高效能叢集,並將非關鍵工作負載指派給具成本效益的機器,來最佳化工作負載。
雖然一個叢集與單一 VPC 相關聯,但多個叢集可以在同一個 VPC 內執行。此外,單一叢集可以執行多個工作。在建立 Lakehouse 叢集之前,定義工作負載的運算需求會很有幫助。叢集設定 (包含擴展策略) 可以根據需要進行修改,儘管某些變更可能需要輪替叢集。如需編輯叢集設定的詳細資訊,請參閱 管理湖存放庫叢集
建立 Lakehouse 叢集時,您需要指定 Qlik 佈建的 Spot 和隨需 (On-Demand) 執行個體數量。如需有關 Qlik 如何在您的叢集中使用 Spot 和隨需執行個體的詳細資訊,請參閱 湖倉叢集 (EC2 Auto-Scaling 群組)
使用自訂映像檔是選用的。使用自訂映像檔時,需要 x86 映像檔,但建議同時使用 arm 和 x86 映像檔,以最大化 Spot 執行個體的可用性。如需詳細資訊,請參閱AMI 需求 。
叢集功能
建立叢集時,您必須選擇叢集執行的工作負載類型:串流、CDC 或混合。一般而言,最佳實務是為串流和 CDC (資料庫和 SaaS) 來源使用獨立的叢集。這可確保準確且最低的計費費用。不過,在某些使用案例中,混合工作負載是合適的,並且可以共用一個叢集:
-
用於計費量微不足道的小型專案的測試或評估。
-
如果非串流使用量極少,且您不想設定和維護獨立的叢集。
先決條件
若要建立 Lakehouse 叢集,您需要:
-
目前租用戶內的網路整合。
-
存取網路整合的權限。
建立 Lakehouse 叢集
若要將叢集新增至目前的租用戶,請執行下列操作:
-
在 管理 活動中心,按一下 Lakehouse 叢集。選取 Lakehouse 叢集 索引標籤,按一下 建立新項目,然後按一下 Lakehouse 叢集,並進行設定:
-
名稱:輸入叢集的名稱。
-
網路整合:選取將部署叢集的網路整合。
-
整合空間:選取叢集將所屬的空間,因為這不會從網路整合繼承。
-
選取工作負載的叢集功能:
-
串流工作負載:從串流資料來源擷取時選取此選項。
-
CDC 工作負載:從資料庫和 SaaS 應用程式來源擷取時選取此選項。
-
混合工作負載:在測試時,或串流來源的使用量極少且工作負載主要由 CDC 來源組成時,選取混合工作負載。
-
-
設定系列類型:
-
類型:選取執行個體類型。
-
大小:選取執行個體大小。
-
- 設定執行個體:
-
AWS 隨需執行個體:輸入此叢集的 AWS 隨需執行個體數量。
-
AWS Spot 執行個體:輸入要使用的 Spot 執行個體 最小值 和 最大值 數量。
- 從下列選項中為您的工作負載選擇適當的策略:
-
低成本 – 針對低成本進行最佳化,但可能會導致偶爾出現高延遲的期間。
-
低延遲 - 努力維持低延遲,同時允許短暫、必要的峰值。
-
一致的低延遲 - 主動擴展以確保延遲保持在低水準。
-
手動擴展 - 保留靜態數量的執行個體,不進行自動擴展。
-
選取您的叢集接收軟體更新的方式:
-
早期推出:非常適合開發和預備叢集,以便在投入生產之前,針對自訂設定和程式碼驗證新版本。
-
較晚推出:在成功的早期推出之後套用更新,建議用於生產環境。
-
為您想要包含的任何標籤新增 金鑰 和 值,以協助您識別、組織和管理資源。