建立基於檔案的知識超市
基於檔案的知識超市可讓您將非結構化資料內嵌並儲存在向量資料庫中。這可透過語意搜尋功能擷取擴增的內容,以做為擷取擴增生成 (RAG) 應用程式的內容。
支援的輸入格式為:PDF
、TXT
和 Word DOCX
。
安裝 Qlik Data Gateway - Data Movement
在建立基於檔案的知識超市之前,您必須安裝特定的 Qlik Data Gateway - Data Movement。如需詳細資訊,請參閱設定知識超市的 Qlik Data Gateway - Data Movement。
支援的連線
如需支援的相關資訊:
- 向量資料庫,請參閱 連線到向量資料庫。
- LLM 連線,請參閱 連線到 LLM 連線。
- 檔案儲存區,請參閱 連線至檔案儲存空間。
建立檔案
- 在左側功能表中按一下 專案,然後開啟專案。
- 從專案頁面,您可以建立基於檔案的知識超市。選擇任一項:
- 按一下新建 > 基於檔案的知識超市。
- 按一下資料任務的
> 基於檔案的知識超市。
隨即開啟設定視窗。
- 輸入名稱。
- 輸入說明。這是選用項目。
- 建立或選取來源連線。
-
從儲存向量於下拉式清單中選取儲存文件的位置。若要將文件與專案一起儲存,請選取資料專案平台。
- 如果您選取外部向量資料庫,請建立或選取向量資料庫連線。文件和向量將儲存在此向量資料庫中。
- 建立或選取 LLM 連線。使用語意搜尋需要此連線。
- 按一下建立。
- 建立知識超市後,新增文件。
新增檔案
- 在資料任務頁面的資料夾索引標籤中,選取一個資料夾,或按一下選取資料夾以選取新的資料夾。
- 前往資料夾,選取資料夾的核取方塊。
無論何時將檔案新增到資料夾中,只要這些檔案採用受支援的格式之一,就會讀取資料夾中的所有檔案。
從資料夾中刪除索引中已存在的檔案時,資料仍在索引中。若要從索引中移除資料,請使用相同但空白的檔案。
若要顯示資料夾中的檔案清單,請以滑鼠右鍵按一下該資料夾。
- 按一下儲存以關閉選取資料夾視窗。
- 若要編輯區塊大小、區塊重疊,請按一下設定 > 執行階段。
- 若要編輯索引名稱,請按一下設定 > 向量資料庫設定。
如需詳細資訊,請參閱索引名稱。
- 按一下右側的
> 準備。
- 準備完成後,按一下執行。正在內嵌和傳輸文件。
當執行按鈕處於作用中狀態時,傳輸即完成。
- 首次完整載入時,請驗證每個檔案的狀態:
- 在功能表中選取監控。
- 選取頁面底部的完整載入狀態。
- 當某些檔案失敗時,在您重新執行所有內容之前,請修正錯誤或刪除檔案。如果錯誤地保留檔案,則下次執行將會失敗。
資訊備註載入所有檔案可能會導致額外的費用。
若您的檔案正確,您可以詢問有關您資料的問題。如需詳細資訊,請參閱使用測試助理。
完整載入和變更資料擷取 (CDC)
支援完整載入和 CDC。
完整載入:每個文件執行個體都會產生一個文件,並將其傳送到目標。
CDC:任何變更後都會重新產生文件。
變更或新增檔案時,會從此檔案讀取文件。檔案將根據區塊大小和重疊情況分割成區塊文件。
首次完整載入時,請驗證每個檔案的狀態:
- 在功能表中選取監控。
- 選取頁面底部的完整載入狀態。
- 當某些檔案失敗時,在您重新執行所有內容之前,請修正錯誤或刪除檔案。如果錯誤地保留檔案,則下次執行將會失敗。
更新輸入資料
當您更新輸入資料時,必須執行資料任務以將變更傳輸至向量資料庫或資料平台。
由於已刪除舊的區塊,並插入新的區塊,欄位 hdr__operation
對應至插入操作,而不是更新操作。如需更多資訊,請參閱雲端資料倉庫中的資料集架構。
索引名稱
每個知識超市都有一個用於語意搜尋的索引名稱。
當設定任務以寫入到相同的索引時,必須為任務設定相同的 LLM 參數。
如果您希望文件位於相同索引中,它們必須具有相同的索引名稱。
若要編輯索引名稱:
- 在資料任務頁面中,按一下設定。
- 選取向量資料庫設定索引標籤。
- 編輯索引名稱。
- 按一下確定。
編輯索引名稱後,您必須準備任務。否則,您的變更將不會在下次執行中套用。
設定
您可以檢視和編輯知識超市的設定。
從資料任務頁面,按一下 > 設定。
設定 | 描述 |
來源連線 | 來源連線。 |
儲存向量於 | 從下拉式清單中,選取:
|
向量資料庫連線 為儲存向量於選取外部向量資料庫時,此設定可用。 | 向量資料庫連線。 如需詳細資訊,請參閱連線到向量資料庫。 |
LLM 連線 | LLM 連線。 如需詳細資訊,請參閱連線到 LLM 連線。 若您想要使用 Databricks 作為 LLM 連線,請在建立知識超市時設定內嵌模型服務端點和完成模型服務端點。如需更多資訊,請參閱 Databricks 文件。 |
設定 | 描述 |
資料任務結構描述 | 資料任務結構描述的名稱。 |
內部架構 | 內部架構的名稱。 |
用於所有表格和檢視的前置詞 | 用於解決多個資料任務之間衝突的前置詞。 |
設定 | 描述 |
索引結構描述 為儲存向量於選取外部向量資料庫時,此設定不可用。 | 索引架構的名稱。 |
索引名稱 | 索引的名稱。 |
若索引已存在 | 當多個任務寫入到相同的索引時,請選取是否必須刪除該索引:
|
設定 | 描述 |
平行執行 | 資料庫連線數量上限。 輸入 1 至 50 之間的值。 |
大量大小 | 對於知識超市,批次大小是每次批次請求中載入的文件數量。 對於基於檔案的知識超市,批次大小是每次批次請求中載入的檔案數量。 在 Snowflake 上,不需要批次大小,因為所有內容都在一個查詢中載入。 |
要載入的記錄數量上限 | 0 表示所有記錄都已載入。 |
設定 | 描述 |
標準檢視 | 使用標準檢視來顯示查詢結果,如同一個表格一樣。 |
Snowflake 安全檢視 | 使用 Snowflake 安全檢視來指定用於資料隱私或敏感資訊保護的檢視畫面,例如為了針對不應暴露給所有基礎表格使用者的敏感資料,限制其存取權限,所建立的檢視畫面。 Snowflake 安全檢視的執行速度比標準檢視慢。 |
設定 | 描述 |
內容中的文件數量 | 將傳遞至模型作為內容的相關文件數量。 |
提示範本 | 輸入 AI 必須追蹤的範本,以篩選要包含的文件。 |
篩選 | 輸入運算式以篩選要包含的文件。 由於篩選器是以中繼資料為基礎,且檔案型知識市集沒有中繼資料,請仔細考慮您正在設定的篩選器。排除資料可能比包含資料更相關。 如需詳細資訊,請參閱使用測試助理。 |
文件擷取 | 從下拉式清單中選取選項:
|
回答產生 | 從下拉式清單中選取選項:
|