Создание киоска файловой базы знаний
Киоски файловых баз знаний позволяют встраивать неструктурированные данные в базы данных векторов и хранить их там. Это позволяет извлекать дополненный контекст с помощью функциональностей семантического поиска и использовать его в качестве контекста для приложений с генерацией, дополненной поиском (RAG).
Поддерживаются следующие форматы ввода: PDF
, TXT
и DOCX
Word.
Установка Qlik Data Gateway — Data Movement
Прежде чем создавать киоски файловых баз знаний, необходимо установить специальный Qlik Data Gateway — Data Movement. Для получения дополнительной информации см. раздел Настройка Qlik Data Gateway — Data Movement для киосков баз знаний.
Поддерживаемые подключения
Источники информации о поддерживаемых подключениях см. ниже.
- Базы данных векторов — см. раздел Подключение к базам данных векторов.
- Подключения БЯМ — см. раздел Подключение к подключениям LLM.
- Хранилище файлов — см. раздел Подключение к файловому хранилищу.
Создание файлов
- Нажмите Проекты в меню слева и откройте проект.
- На странице Проект можно создать киоск файловой базы знаний. Выполните одно из следующих действий.
- Нажмите Создать > Киоск файловой базы знаний.
- Нажмите
задачи данных > Киоск файловой базы знаний.
Откроется окно настройки конфигурации.
- Введите имя.
- Введите описание. Это необязательно.
- Создайте или выберите Подключение к источнику.
-
Выберите место хранения документов в раскрывающемся списке Хранить векторы в. Чтобы хранить документы вместе с проектом, выберите Платформа проектов данных.
- Если выбран параметр Внешняя база данных векторов, создайте или выберите Подключение к базе данных векторов. Документы и векторы будут храниться в этой базе данных векторов.
- Создайте или выберите Подключение БЯМ. Это подключение необходимо для использования семантического поиска.
- Нажмите Создать.
- После создания киоска базы знаний добавьте документы.
Добавление файлов
- Выберите папку на вкладке Папки страницы Задача данных или нажмите Выберите папки, чтобы выбрать новую папку.
- Перейдите к папке и установите флажок рядом с папкой.
Все файлы в папках будут прочитаны, если они имеют один из поддерживаемых форматов, независимо от того, когда они были добавлены в папку.
При удалении из папки файла, который уже существует в индексе, его данные остаются в индексе. Чтобы удалить данные из индекса, используйте тот же файл, но пустой.
Чтобы отобразить список файлов в папке, нажмите ее правой кнопкой мыши.
- Нажмите Сохранить, чтобы закрыть окно Выберите папки.
- Чтобы изменить размер блока и перекрытие блоков, нажмите Параметры > Время выполнения.
- Чтобы изменить название индекса, нажмите Параметры > Настройки базы данных векторов.
Для получения дополнительной информации см. раздел Имя индекса.
- Нажмите
справа > Подготовить.
- По завершении подготовки нажмите Запустить. Документы будут встраиваться и передаваться.
Передача выполняется, когда кнопка Запустить активна.
- При первой полной загрузке проверьте состояние каждого файла:
- Выберите в меню Мониторинг.
- Выберите в нижней части страницы Состояние полной загрузки.
- Если с некоторыми файлами произошел сбой, исправьте ошибки или удалите файлы, прежде чем запускать все заново. Если сохранить файлы с ошибками, следующие запуски будут неудачными.
Примечание к информацииПерезагрузка всех файлов может привести к дополнительным расходам.
Когда файлы будут в порядке, можно будет задавать вопросы о данных. Для получения дополнительной информации см. раздел Использование помощника по проведению тестов.
Полная загрузка и захват изменений данных (CDC)
Поддерживаются полная загрузка и CDC.
Полная загрузка. Для каждого экземпляра документа создается документ, который отправляется в цель.
CDC. Документ создается заново после любого изменения.
При изменении или добавлении файла документы считываются из этого файла. Файл разбивается на документы, состоящие из блоков, в соответствии с размером блока и перекрытием.
При первой полной загрузке проверьте состояние каждого файла:
- Выберите в меню Мониторинг.
- Выберите в нижней части страницы Состояние полной загрузки.
- Если с некоторыми файлами произошел сбой, исправьте ошибки или удалите файлы, прежде чем запускать все заново. Если сохранить файлы с ошибками, следующие запуски будут неудачными.
Обновление ввода данных
При обновлении ввода данных необходимо запустить задачу данных, чтобы передать изменения в базу данных векторов или на платформу данных.
Поскольку старые блоки удаляются, а новые вставляются, поле hdr__operation
соответствует операции вставки, а не операции обновления. Для получения дополнительной информации см. раздел Архитектура базы данных в облачном хранилище данных.
Имя индекса
Каждый киоск базы знаний имеет имя индекса, которое используется для семантического поиска.
При настройке задач для записи в один и тот же индекс необходимо настроить одинаковые параметры БЯМ для этих задач.
Если вы хотите, чтобы ваши документы находились в одном индексе, они должны иметь одинаковое имя индекса.
Чтобы изменить имя индекса:
- На странице задачи данных нажмите Настройки.
- Выберите вкладку Настройки векторной базы данных.
- Измените Имя индекса.
- Нажмите кнопку ОК.
После изменения имя индекса необходимо подготовить задачу. В противном случае изменения не будут применяться в следующих запусках.
Параметры
Можно просматривать и изменять параметры киоска базы знаний.
На странице Задача данных нажмите > Параметры.
Параметры | Описание |
Подключение к источнику | Подключение к источнику. |
Хранить векторы в | В раскрывающемся списке выберите:
|
Подключение к базе данных векторов Этот параметр доступен, если для параметра Хранить векторы в выбрано значение Внешняя база данных векторов. | Подключение к базе данных векторов. Для получения дополнительной информации см. раздел Подключение к базам данных векторов. |
Подключение БЯМ | Подключение БЯМ. Для получения дополнительной информации см. раздел Подключение к подключениям LLM. Если в качестве подключения БЯМ необходимо использовать Databricks, настройте конечную точку обслуживания модели встраивания и конечную точку обслуживания модели завершения при создании киоска базы знаний. Для получения дополнительной информации см. документацию по Databricks. |
Параметры | Описание |
Схема задачи данных | Имя схемы задачи данных. |
Внутренняя схема | Имя внутренней схемы. |
Префикс для всех таблиц и видов | Префикс для разрешения конфликтов между несколькими задачами данных. |
Параметры | Описание |
Схема индекса Этот параметр недоступен, если для параметра Хранить векторы в выбрано значение Внешняя база данных векторов. | Имя схемы индекса. |
Имя индекса | Имя индекса. |
Если индекс уже существует | Если несколько задач записывают данные в один и тот же индекс, выберите, нужно ли удалять индекс:
|
Параметры | Описание |
Параллельное выполнение | Максимальное количество подключений к базе данных. Введите значение от 1 до 50. |
Массовый размер | Для киосков баз знаний массовый размер — это количество документов, загружаемых в каждом массовом запросе. Для киосков файловых баз знаний массовый размер — это количество файлов, загружаемых в каждом массовом запросе. В Snowflake массовый размер не требуется, поскольку все загружается в одном запросе. |
Максимальное количество записей для загрузки | «0» означает, что все записи загружены. |
Параметры | Описание |
Стандартные виды | Используйте стандартные виды для отображения результатов запроса в формате таблицы. |
Защищенные виды Snowflake | Используйте защищенные виды Snowflake для представления конфиденциальных данных или защищенной информации. В частности, такие виды могут создаваться, если требуется ограничить доступ к конфиденциальным данным и данные не должны быть видны пользователям, имеющим доступ к базовым таблицам. Защищенные виды Snowflake могут выполняться медленнее, чем стандартные представления. |
Параметры | Описание |
Количество документов в контексте | Количество релевантных документов, которые будут переданы в модель в качестве контекста. |
Шаблон запроса | Введите шаблон, которому ИИ должен следовать для фильтрации включаемых документов. |
Фильтр | Введите выражение для фильтрации включаемых документов. Поскольку фильтр основан на метаданных, а файловые хранилища знаний не имеют метаданных, тщательно продумайте настраиваемый фильтр. Возможно, более целесообразно исключать данные, а не включать их. Для получения дополнительной информации см. раздел Использование помощника по проведению тестов. |
Получение документов | Выберите параметр в раскрывающемся списке:
|
Создание ответов | Выберите параметр в раскрывающемся списке:
|