Apache Kafka 資料串流
連線至您的 Apache Kafka 叢集,以在您的 Qlik 開放湖倉庫 專案中做為串流資料來源使用。Kafka 連線只能與串流登陸任務和串流轉換任務搭配使用。
Qlik 開放湖倉庫 讓組織能夠在開放且可擴充的架構上建置即時、分析就緒的管道。透過將 Apache Kafka 整合為串流來源,Qlik 支援將大量事件資料持續擷取到 Apache Iceberg 表格中。這種組合提供低延遲的資料可用性和穩健的結構描述演進,讓團隊能夠將即時洞察付諸實踐,並加速下游轉換。
串流登陸任務和串流轉換任務讓 Kafka 主題成為您 Qlik 開放湖倉庫 專案的核心元件。當資料串流至 Iceberg 時,可快速用於分析、AI 和機器學習工作負載,支援時間敏感的決策制定和可擴展的資料工程實務。結果是一個統一且查詢最佳化的資料圖層,可強化串流架構的可靠性和效能。若要使用您的雲端資料倉儲查詢引擎分析來自 Kafka 的資料,請將資料登陸並儲存在 Qlik 開放湖倉庫 中,然後使用 鏡像資料任務 將資料鏡像到您的倉儲。
必要條件
建立和使用 Kafka 串流來源時,適用下列要求:
-
具有網路連線能力至代理伺服器的網路整合。
-
確保您要連線的 Kafka 叢集可從將執行登陸任務的 Lakehouse 叢集所在的 VPC 存取。
-
Kafka 串流來源連線需要 Qlik 開放湖倉庫 目標平台。
設定 Kafka 連線屬性
若要設定您的 Kafka 連線,請執行下列動作:
-
在連線中,按一下建立連線。
-
選取您要在其中建立連線的 空間,或選擇 建立新的資料空間。
-
從 連接器 名稱清單中選取 Kafka,或使用 搜尋 方塊。確保 類型 為 來源,且 類別 為 串流。
-
設定下列屬性:
資料來源
依下列方式設定您的資料來源連線屬性:
-
從清單中選取您的網路整合。
-
在代理伺服器中,使用格式hostname:port輸入單一主機,例如host1:9092。
若要輸入主機清單,請使用格式:hostname:port, hostname:port,例如host1:9092,host2:9092。
驗證詳細資料
-
從清單中選取您的驗證方法:
-
SASL/SCRAM-SHA-512:此選項使用 SCRAM-SHA-512 機制,透過使用者名稱和密碼進行驗證。這是最安全的 SCRAM 變體,且需要將相符的 SCRAM-SHA-512 憑證設定在 Kafka 叢集中。
-
:
SASL/SCRAM-SHA-256
輸入您的連線的使用者名稱和密碼。
TLS
您可以選擇新增憑證授權單位 (CA)。
若要新增 CA,請選取使用自訂信任 CA。
在CA 路徑中,輸入要上傳至Qlik Cloud的 CA 檔案路徑。CA 檔案可供執行任務的叢集使用。
其他 Kafka 屬性
其他 Kafka 屬性為選用。
為您想要包含的任何標記新增索引鍵和值,以協助您識別、組織和管理資源。
結構描述登錄連線
結構描述登錄伺服器為選用。
若要連線至結構描述登錄,請按一下 設定結構描述登錄伺服器 並設定下列設定:
結構描述登錄 URI:輸入 URI,格式為 http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081。
使用者名稱:輸入伺服器連線的使用者名稱。
密碼:輸入伺服器連線的密碼。
結構描述登錄連線 TLS
如果您選擇設定結構描述登錄伺服器,您可以選擇新增憑證授權單位 (CA)。
若要新增 CA,請選取 使用自訂信任 CA。
在 CA 路徑 中,輸入要上傳至 Qlik Cloud 的 CA 檔案路徑。CA 檔案可供執行任務的叢集使用。
建立連線
設定安全方法後,請完成下列步驟以建立您的連線:
在 名稱 中,輸入連線的顯示名稱,例如,My Kafka Streaming Source connection。
按一下 測試連線 以驗證認證。
按一下建立。
將主題對應至資料集
從 Kafka 來源擷取時,支援下列使用案例:
| 主題 | 目標資料集 | 使用案例 | 對應 |
|---|---|---|---|
| 一 | 一 | 每個主題都會載入到目標資料集。 | 在串流登陸任務的資料集對應中支援。 |
| 一 | 許多 | 將主題複製到多個資料集。 | 透過多次使用新增至目標來支援。 |
| 一個 | 許多 | 將事件分割至多個目標。例如,一個事件包含 orders 和 order lines,這些會分割成多個資料集。 | 在 串流轉換任務 中支援。複製資料集並在每個資料集中選取不同的欄位;或在分叉處理器和選取欄位處理器的轉換流程中使用。 |
| 一 | 多個 | 根據特定的欄位值,將主題分割成多個資料集。 | 在串流轉換任務中支援。為每個用於將主題分割成不同資料集的欄位值,設定一個篩選處理器。若要處理不符的記錄,請設定一個額外的篩選處理器,將不符的資料輸出至單獨的資料集。 |
| 許多 | 一個 | 將符合特定條件的所有主題擷取至相同的目標資料集,或將特定主題擷取至相同的資料集。 | 支援於串流登陸任務的資料集對應中。如果多個主題載入至單一資料集,且其中一個主題載入任務失敗,則資料集會發生錯誤,且其他主題的載入會中斷。 |