Создание киоска файловой базы знаний
Киоски файловых баз знаний позволяют встраивать неструктурированные данные в базы данных векторов и хранить их там. Это позволяет извлекать дополненный контекст с помощью функциональностей семантического поиска и использовать его в качестве контекста для приложений с генерацией, дополненной поиском (RAG).
Поддерживаются следующие форматы ввода: PDF, TXT и DOCX Word.
Требования
-
Вам нужна подписка Qlik Talend Cloud Enterprise.
-
Поддерживается на платформах Snowflake и Databricks. Snowflake Iceberg не поддерживается.
-
Требуется управляемый клиентом шлюз данных.
Для Databricks требуется Шлюз данных Qlik — движение данных версия 2024.11.95 или выше.
Установка Шлюз данных Qlik — движение данных
Прежде чем создавать киоски файловых баз знаний, необходимо установить специальный Шлюз данных Qlik — движение данных. Для получения дополнительной информации см. раздел Настройка Шлюз данных Qlik — движение данных для киосков баз знаний.
Поддерживаемые подключения
Источники информации о поддерживаемых подключениях см. ниже.
- Базы данных векторов — см. раздел Подключение к базам данных векторов.
- Подключения БЯМ — см. раздел Подключение к подключениям LLM.
- Хранилище файлов — см. раздел Подключение к файловому хранилищу.
- Облачное хранилище (Amazon S3, Google Cloud Storage, Azure Data Lake Storage), см. Подключение к облачному хранилищу.
Создание файлов
- Нажмите Проекты в меню слева и откройте проект.
- На странице Проект можно создать киоск файловой базы знаний. Выполните одно из следующих действий.
- Нажмите Создать > Киоск файловой базы знаний.
- Нажмите
задачи данных > Киоск файловой базы знаний.
Откроется окно настройки конфигурации.
- Введите имя.
- Введите описание. Это необязательно.
- Создайте или выберите Подключение к источнику.
-
Выберите место хранения документов в раскрывающемся списке Хранить векторы в. Чтобы хранить документы вместе с проектом, выберите Платформа проектов данных.
- Если выбран параметр Внешняя база данных векторов, создайте или выберите Подключение к базе данных векторов. Документы и векторы будут храниться в этой базе данных векторов.
- Создайте или выберите Подключение БЯМ. Это подключение необходимо для использования семантического поиска.
- Нажмите Создать.
- После создания киоска базы знаний добавьте документы.
Добавление файлов
- Выберите папку на вкладке Папки страницы Задача данных или нажмите Выберите папки, чтобы выбрать новую папку.
- Перейдите к папке и установите флажок рядом с папкой.
Все файлы в папках будут прочитаны, если они имеют один из поддерживаемых форматов, независимо от того, когда они были добавлены в папку.
При удалении из папки файла, который уже существует в индексе, его данные остаются в индексе. Чтобы удалить данные из индекса, используйте тот же файл, но пустой.
Чтобы отобразить список файлов в папке, нажмите ее правой кнопкой мыши.
- Нажмите Сохранить, чтобы закрыть окно Выберите папки.
- Чтобы изменить размер блока и перекрытие блоков, нажмите Параметры > Время выполнения.
- Чтобы изменить название индекса, нажмите Параметры > Настройки базы данных векторов.
Для получения дополнительной информации см. раздел Имя индекса.
- Нажмите
справа > Подготовить. - По завершении подготовки нажмите Запустить. Документы будут встраиваться и передаваться.
Передача выполняется, когда кнопка Запустить активна.
- При первой полной загрузке проверьте состояние каждого файла:
- Выберите в меню Мониторинг.
- Выберите в нижней части страницы Состояние полной загрузки.

- Если с некоторыми файлами произошел сбой, исправьте ошибки или удалите файлы, прежде чем запускать все заново. Если сохранить файлы с ошибками, следующие запуски будут неудачными.
Примечание к информацииПерезагрузка всех файлов может привести к дополнительным расходам.
Когда файлы будут в порядке, можно будет задавать вопросы о данных. Для получения дополнительной информации см. раздел Использование помощника по проведению тестов.
Полная загрузка и захват изменений данных (CDC)
Поддерживаются полная загрузка и CDC.
Полная загрузка. Для каждого экземпляра документа создается документ, который отправляется в цель.
CDC. Документ создается заново после любого изменения.
При изменении или добавлении файла документы считываются из этого файла. Файл разбивается на документы, состоящие из блоков, в соответствии с размером блока и перекрытием.
При первой полной загрузке проверьте состояние каждого файла:
- Выберите в меню Мониторинг.
- Выберите в нижней части страницы Состояние полной загрузки.

- Если с некоторыми файлами произошел сбой, исправьте ошибки или удалите файлы, прежде чем запускать все заново. Если сохранить файлы с ошибками, следующие запуски будут неудачными.
Обновление ввода данных
При обновлении ввода данных необходимо запустить задачу данных, чтобы передать изменения в базу данных векторов или на платформу данных.
Поскольку старые блоки удаляются, а новые вставляются, поле hdr__operation соответствует операции вставки, а не операции обновления. Для получения дополнительной информации см. раздел Архитектура базы данных в облачном хранилище данных.
Имя индекса
Каждый киоск базы знаний имеет имя индекса, которое используется для семантического поиска.
При настройке задач для записи в один и тот же индекс необходимо настроить одинаковые параметры БЯМ для этих задач.
Если вы хотите, чтобы ваши документы находились в одном индексе, они должны иметь одинаковое имя индекса.
Чтобы изменить имя индекса:
- На странице задачи данных нажмите Настройки.
- Выберите вкладку Настройки векторной базы данных.
- Измените Имя индекса.
- Нажмите кнопку ОК.
После изменения имя индекса необходимо подготовить задачу. В противном случае изменения не будут применяться в следующих запусках.
Настройки
Можно просматривать и изменять параметры киоска базы знаний.
На странице Задача данных нажмите
> Параметры.
| Настройки | Описание |
| Подключение к источнику | Подключение к источнику. |
| Хранить векторы в | В раскрывающемся списке выберите:
|
| Подключение к базе данных векторов Этот параметр доступен, если для параметра Хранить векторы в выбрано значение Внешняя база данных векторов. | Подключение к базе данных векторов. Для получения дополнительной информации см. раздел Подключение к базам данных векторов. |
| Подключение БЯМ | Подключение БЯМ. Для получения дополнительной информации см. раздел Подключение к подключениям LLM. Если в качестве подключения БЯМ необходимо использовать Databricks, настройте конечную точку обслуживания модели встраивания и конечную точку обслуживания модели завершения при создании киоска базы знаний. Для получения дополнительной информации см. документацию по Databricks. |
| Настройки | Описание |
| Схема задачи данных | Имя схемы задачи данных. |
| Внутренняя схема | Имя внутренней схемы. |
| Префикс для всех таблиц и видов | Префикс для разрешения конфликтов между несколькими задачами данных. |
| Настройки | Описание |
| Схема индекса Этот параметр недоступен, если для параметра Хранить векторы в выбрано значение Внешняя база данных векторов. | Имя схемы индекса. |
| Имя индекса | Имя индекса. |
| Если индекс уже существует | Если несколько задач записывают данные в один и тот же индекс, выберите, нужно ли удалять индекс:
|
| Конечная точка поиска векторов Databricks | Имя конечной точки векторного поиска, созданной в Databricks. Для получения дополнительной информации см. раздел Настройка Databricks для витрин знаний . Примечание к информацииПрименимо только к проектам, использующим Databricks в качестве платформы данных. |
| Настройки | Описание |
| Параллельное выполнение | Максимальное количество подключений к базе данных. Введите значение от 1 до 50. |
| Массовый размер | Для киосков баз знаний массовый размер — это количество документов, загружаемых в каждом массовом запросе. Для киосков файловых баз знаний массовый размер — это количество файлов, загружаемых в каждом массовом запросе. В Snowflake и Databricks массовый размер не требуется, поскольку все загружается в одном запросе. |
| Максимальное количество записей для загрузки | «0» означает, что все записи загружены. |
| Настройки | Описание |
| Стандартные виды | Используйте стандартные виды для отображения результатов запроса в формате таблицы. |
| Защищенные виды Snowflake | Используйте защищенные виды Snowflake для представления конфиденциальных данных или защищенной информации. В частности, такие виды могут создаваться, если требуется ограничить доступ к конфиденциальным данным и данные не должны быть видны пользователям, имеющим доступ к базовым таблицам. Защищенные виды Snowflake могут выполняться медленнее, чем стандартные представления. |
| Параметры | Описание |
| Количество документов в контексте | Количество релевантных документов, которые будут переданы в модель в качестве контекста. |
| Шаблон запроса | Введите шаблон, которому ИИ должен следовать для фильтрации включаемых документов. |
| Фильтр | Введите выражение для фильтрации включаемых документов. Поскольку фильтр основан на метаданных, а файловые хранилища знаний не имеют метаданных, тщательно продумайте настраиваемый фильтр. Возможно, более целесообразно исключать данные, а не включать их. Для получения дополнительной информации см. раздел Использование помощника по проведению тестов. |
| Получение документов | Выберите параметр в раскрывающемся списке:
|
| Создание ответов | Выберите параметр в раскрывающемся списке:
|
Изменение подключений или шлюза данных
В случае изменения подключения источника, вектора или шлюза векторных данных, задачу нужно подготовить сначала.