跳到主要內容 跳至補充內容

建立知識市集

知識市集可讓您將結構化資料嵌入並儲存在向量資料庫中。這可讓擴增的內容透過語意搜尋功能,做為擷取擴增生成 (RAG) 應用程式的內容。

輸出為 JSON 格式。

資訊備註您需要一個 Qlik Talend Cloud 企業版 訂閱。
資訊備註只有在 Snowflake 平台和客戶管理的資料閘道上才支援此功能。Snowflake 冰山不支援。

安裝 Qlik Data Gateway - Data Movement

建立知識市集之前,您必須安裝特定的 Qlik Data Gateway - Data Movement。如需詳細資訊,請參閱設定知識超市的 Qlik Data Gateway - Data Movement

支援的連線

如需支援的相關資訊:

建立資料

  1. 在左側功能表中按一下 專案,然後開啟專案。
  2. 專案 頁面,您可以產生文件並發佈至向量資料庫。選擇任一項:
    • 按一下 新建 > 知識市集
    • 按一下資料任務的 動作功能表圖示 > 知識市集

    隨即開啟設定視窗。

  3. 輸入名稱。
  4. 輸入說明。這是選用項目。
  5. 儲存向量於 下拉式清單中選取儲存文件位置。若要將文件與專案一起儲存,請選取 資料專案平台
  6. 如果您選取 外部向量資料庫,請建立或選取 向量資料庫連線。文件和向量將儲存在此向量資料庫中。
  7. 建立或選取 LLM 連線。使用語意搜尋需要此連線。
  8. 按一下建立
  9. 建立資料後,新增文件。

新增文件

資訊備註僅支援文字格式。例如,無法擷取圖表或影像中的文字。
  1. 資料任務頁面的資料集標籤中,按一下左側面板中的新增
  2. 選取將產生文件的基礎資料集。每個記錄都會建立一個文件。例如,對於病患清單,將為每位病患建立一份文件。
  3. 文件綱要名稱欄位會預先填入所選基礎資料集的名稱。如有需要,請重新命名。
  4. 輸入說明。這是選用項目。
  5. 選取您要包含的資料以豐富文件。
  6. 按一下確定。您已返回文件綱要索引標籤。
  7. 選取資料集索引標籤。
  8. 在左側面板中,選取您先前選擇作為基礎資料集的資料集。
  9. 若要移除您不想包含在文件中的資料,請選取核取方塊並按一下移除
  10. 為了改善 LLM 執行的語意搜尋,請重新命名名稱不夠清除的資料。

    範例:將 dt 重新命名為 date

  11. 當您視需要移除並重新命名資料後,按一下右側的 動作圖示 > Prepare。文件正在以 JSON 格式產生。
  12. 文件產生後:
    1. 選取 Datasets 索引標籤。
    2. 若要在執行任務前驗證文件,請按一下 View data 以顯示資料範例。
    3. 按一下執行。文件正在根據組態傳輸至向量資料庫或資料平台。

Run 按鈕為作用中時,傳輸即完成。

若要確保所有內容都已傳輸,您可以詢問有關資料的問題。如需詳細資訊,請參閱使用測試助理

完整載入和變更資料擷取 (CDC)

支援全量載入和 CDC。

全量載入:針對每個文件執行個體產生一份文件,並將其傳送至目標。

CDC:在基礎或相關實體中發生任何變更後,文件會重新產生。

當項目新增至基礎實體時,會建立一份新文件。如果相關實體中沒有任何項目可以連接到基礎實體,則這些項目不會出現在文件中。

更新輸入資料

當您更新輸入資料時,必須執行資料任務以將變更傳輸至向量資料庫或資料平台。

索引名稱

每個知識市集都有一個用於語意搜尋的索引名稱。

當您設定任務以寫入相同的索引時,必須為任務設定相同的 LLM 參數。

如果您希望文件位於相同索引中,它們必須具有相同的索引名稱。

若要編輯索引名稱:

  1. 資料任務頁面中,按一下設定
  2. 選取向量資料庫設定索引標籤。
  3. 編輯索引名稱
  4. 按一下確定

設定

您可以檢視和編輯知識超市的設定。

資料任務頁面,按一下 > 設定

資訊備註由於設定取決於儲存 (Databricks、Snowflake 等),下表描述了始終可用的設定。有更多設定可用。
此表格說明連線索引標籤的設定。
設定描述
來源連線

來源連線。

儲存向量於

從下拉式清單中,選取:

  • 外部向量資料庫
  • 資料專案平台
向量資料庫連線

儲存向量於選取外部向量資料庫時,此設定可用。

向量資料庫連線。

如需詳細資訊,請參閱連線到向量資料庫

LLM 連線LLM 連線。

如需詳細資訊,請參閱連線到 LLM 連線

若您想要使用 Databricks 作為 LLM 連線,請在建立知識超市時設定內嵌模型服務端點完成模型服務端點。如需更多資訊,請參閱 Databricks 文件

此表格說明平台設定索引標籤的設定。
設定描述
資料任務結構描述資料任務結構描述的名稱。
內部架構內部架構的名稱。
用於所有表格和檢視的前置詞用於解決多個資料任務之間衝突的前置詞。
此表格說明向量資料庫設定索引標籤的設定。
設定描述
索引結構描述

儲存向量於選取外部向量資料庫時,此設定不可用。

索引架構的名稱。
索引名稱索引的名稱。
若索引已存在當多個任務寫入到相同的索引時,請選取是否必須刪除該索引:
  • 使用現有索引:索引未刪除。
  • 捨棄並建立索引:已刪除索引。
此表格說明執行階段索引標籤的設定。
設定描述
平行執行

資料庫連線數量上限。 

輸入 1 至 50 之間的值。

大量大小對於知識超市,批次大小是每次批次請求中載入的文件數量。

對於基於檔案的知識超市,批次大小是每次批次請求中載入的檔案數量。

在 Snowflake 上,不需要批次大小,因為所有內容都在一個查詢中載入。

要載入的記錄數量上限0 表示所有記錄都已載入。
此表格說明檢視索引標籤的設定。
設定 描述
標準檢視 使用標準檢視來顯示查詢結果,如同一個表格一樣。
Snowflake 安全檢視 使用 Snowflake 安全檢視來指定用於資料隱私或敏感資訊保護的檢視畫面,例如為了針對不應暴露給所有基礎表格使用者的敏感資料,限制其存取權限,所建立的檢視畫面。

Snowflake 安全檢視的執行速度比標準檢視慢。

此表格說明測試助理索引標籤的設定。
設定描述
內容中的文件數量將傳遞至模型作為內容的相關文件數量。
提示範本輸入 AI 必須追蹤的範本,以篩選要包含的文件。
篩選輸入運算式以篩選要包含的文件。

由於篩選器是以中繼資料為基礎,且檔案型知識市集沒有中繼資料,請仔細考慮您正在設定的篩選器。排除資料可能比包含資料更相關。

如需詳細資訊,請參閱使用測試助理

文件擷取從下拉式清單中選取選項:
  • 顯示擷取到的內容:測試助理提供其產生答案所依據的文件。
  • 不顯示擷取到的內容:測試助理會產生答案,但不提供文件。
回答產生從下拉式清單中選取選項:
  • 產生答案:測試助理會根據文件產生答案。
  • 不要產生答案:測試助理僅使用文件回答。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們!