建立知識市集
知識市集可讓您將結構化資料嵌入並儲存在向量資料庫中。這可讓擴增的內容透過語意搜尋功能,做為擷取擴增生成 (RAG) 應用程式的內容。
輸出為 JSON 格式。
安裝 Qlik Data Gateway - Data Movement
建立知識市集之前,您必須安裝特定的 Qlik Data Gateway - Data Movement。如需詳細資訊,請參閱設定知識超市的 Qlik Data Gateway - Data Movement。
支援的連線
如需支援的相關資訊:
- 向量資料庫,請參閱 連線到向量資料庫。
- LLM 連線,請參閱 連線到 LLM 連線。
- 檔案儲存區,請參閱 連線至檔案儲存空間。
建立資料
- 在左側功能表中按一下 專案,然後開啟專案。
- 從 專案 頁面,您可以產生文件並發佈至向量資料庫。選擇任一項:
- 按一下 新建 > 知識市集。
- 按一下資料任務的
> 知識市集。
隨即開啟設定視窗。
- 輸入名稱。
- 輸入說明。這是選用項目。
- 從 儲存向量於 下拉式清單中選取儲存文件位置。若要將文件與專案一起儲存,請選取 資料專案平台。
- 如果您選取 外部向量資料庫,請建立或選取 向量資料庫連線。文件和向量將儲存在此向量資料庫中。
- 建立或選取 LLM 連線。使用語意搜尋需要此連線。
- 按一下建立。
- 建立資料後,新增文件。
新增文件
- 在資料任務頁面的資料集標籤中,按一下左側面板中的新增。
- 選取將產生文件的基礎資料集。每個記錄都會建立一個文件。例如,對於病患清單,將為每位病患建立一份文件。
- 文件綱要名稱欄位會預先填入所選基礎資料集的名稱。如有需要,請重新命名。
- 輸入說明。這是選用項目。
- 選取您要包含的資料以豐富文件。
- 按一下確定。您已返回文件綱要索引標籤。
- 選取資料集索引標籤。
- 在左側面板中,選取您先前選擇作為基礎資料集的資料集。
- 若要移除您不想包含在文件中的資料,請選取核取方塊並按一下移除。
- 為了改善 LLM 執行的語意搜尋,請重新命名名稱不夠清除的資料。
範例:將 dt 重新命名為 date。
- 當您視需要移除並重新命名資料後,按一下右側的
> Prepare。文件正在以 JSON格式產生。 - 文件產生後:
- 選取 Datasets 索引標籤。
- 若要在執行任務前驗證文件,請按一下 View data 以顯示資料範例。
- 按一下執行。文件正在根據組態傳輸至向量資料庫或資料平台。
當 Run 按鈕為作用中時,傳輸即完成。
若要確保所有內容都已傳輸,您可以詢問有關資料的問題。如需詳細資訊,請參閱使用測試助理。
完整載入和變更資料擷取 (CDC)
支援全量載入和 CDC。
全量載入:針對每個文件執行個體產生一份文件,並將其傳送至目標。
CDC:在基礎或相關實體中發生任何變更後,文件會重新產生。
當項目新增至基礎實體時,會建立一份新文件。如果相關實體中沒有任何項目可以連接到基礎實體,則這些項目不會出現在文件中。
更新輸入資料
當您更新輸入資料時,必須執行資料任務以將變更傳輸至向量資料庫或資料平台。
索引名稱
每個知識市集都有一個用於語意搜尋的索引名稱。
當您設定任務以寫入相同的索引時,必須為任務設定相同的 LLM 參數。
如果您希望文件位於相同索引中,它們必須具有相同的索引名稱。
若要編輯索引名稱:
- 在資料任務頁面中,按一下設定。
- 選取向量資料庫設定索引標籤。
- 編輯索引名稱。
- 按一下確定。
設定
您可以檢視和編輯知識超市的設定。
從資料任務頁面,按一下
> 設定。
| 設定 | 描述 |
| 來源連線 | 來源連線。 |
| 儲存向量於 | 從下拉式清單中,選取:
|
| 向量資料庫連線 為儲存向量於選取外部向量資料庫時,此設定可用。 | 向量資料庫連線。 如需詳細資訊,請參閱連線到向量資料庫。 |
| LLM 連線 | LLM 連線。 如需詳細資訊,請參閱連線到 LLM 連線。 若您想要使用 Databricks 作為 LLM 連線,請在建立知識超市時設定內嵌模型服務端點和完成模型服務端點。如需更多資訊,請參閱 Databricks 文件。 |
| 設定 | 描述 |
| 資料任務結構描述 | 資料任務結構描述的名稱。 |
| 內部架構 | 內部架構的名稱。 |
| 用於所有表格和檢視的前置詞 | 用於解決多個資料任務之間衝突的前置詞。 |
| 設定 | 描述 |
| 索引結構描述 為儲存向量於選取外部向量資料庫時,此設定不可用。 | 索引架構的名稱。 |
| 索引名稱 | 索引的名稱。 |
| 若索引已存在 | 當多個任務寫入到相同的索引時,請選取是否必須刪除該索引:
|
| 設定 | 描述 |
| 平行執行 | 資料庫連線數量上限。 輸入 1 至 50 之間的值。 |
| 大量大小 | 對於知識超市,批次大小是每次批次請求中載入的文件數量。 對於基於檔案的知識超市,批次大小是每次批次請求中載入的檔案數量。 在 Snowflake 上,不需要批次大小,因為所有內容都在一個查詢中載入。 |
| 要載入的記錄數量上限 | 0 表示所有記錄都已載入。 |
| 設定 | 描述 |
| 標準檢視 | 使用標準檢視來顯示查詢結果,如同一個表格一樣。 |
| Snowflake 安全檢視 | 使用 Snowflake 安全檢視來指定用於資料隱私或敏感資訊保護的檢視畫面,例如為了針對不應暴露給所有基礎表格使用者的敏感資料,限制其存取權限,所建立的檢視畫面。 Snowflake 安全檢視的執行速度比標準檢視慢。 |
| 設定 | 描述 |
| 內容中的文件數量 | 將傳遞至模型作為內容的相關文件數量。 |
| 提示範本 | 輸入 AI 必須追蹤的範本,以篩選要包含的文件。 |
| 篩選 | 輸入運算式以篩選要包含的文件。 由於篩選器是以中繼資料為基礎,且檔案型知識市集沒有中繼資料,請仔細考慮您正在設定的篩選器。排除資料可能比包含資料更相關。 如需詳細資訊,請參閱使用測試助理。 |
| 文件擷取 | 從下拉式清單中選取選項:
|
| 回答產生 | 從下拉式清單中選取選項:
|