Создание витрины знаний
Витрины знаний позволяют встраивать и хранить ваши структурированные данные в векторной базе данных. Это позволяет извлекать дополненный контекст с функциональностью семантического поиска для использования в качестве контекста для приложений Retrieval Augmented Generation (RAG).
Выходные данные представлены в формате JSON.
Установка Qlik Data Gateway — Data Movement
Перед созданием хранилища знаний необходимо установить определенный Qlik Data Gateway — Data Movement. Для получения дополнительной информации см. раздел Настройка Qlik Data Gateway — Data Movement для киосков баз знаний.
Поддерживаемые подключения
Для получения информации о поддерживаемых:
- Векторные базы данных, см. Подключение к базам данных векторов.
- Подключения БЯМ, см. Подключение к подключениям LLM.
- Хранилище файлов, см. Подключение к файловому хранилищу.
Создание данных
- Нажмите Проекты в левом меню и откройте проект.
- Со страницы Проекта можно создавать и публиковать документы в векторной базе данных. Выполните одно из следующих действий.
- Нажмите Создать > Витрина знаний.
- Нажмите
задачи данных > Витрина знаний.
Откроется окно настройки конфигурации.
- Введите имя.
- Введите описание. Это необязательно.
- Выберите, где хранить документы, из раскрывающегося списка Хранить векторы в. Чтобы хранить документы с проектом, выберите Платформа проекта данных.
- Если вы выбрали Внешнюю векторную базу данных, создайте или выберите подключение к векторной базе данных. Документы и векторы будут храниться в этой векторной базе данных.
- Создайте или выберите LLM-подключение. Это подключение требуется для использования семантического поиска.
- Нажмите Создать.
- При создании данных добавьте документы.
Добавление документов
- На вкладке Наборы данных страницы Задачи данных нажмите Добавить на левой панели.
- Выберите базовый набор данных, из которого будет сгенерирован документ. Документ будет создан для каждой записи. Например, для списка пациентов будет создан документ для каждого пациента.
- Поле Имя схемы документа предварительно заполняется именем выбранного базового набора данных. Переименуйте при необходимости.
- Введите описание. Это необязательно.
- Выберите данные, которые вы хотите включить для обогащения документа.
- Нажмите кнопку ОК. Вы вернулись на вкладку Схемы документов.
- Выберите вкладку Наборы данных.
- На левой панели выберите набор данных, который вы выбрали ранее в качестве базового набора данных.
- Чтобы удалить данные, которые вы не хотите включать в документы, установите флажок и нажмите Удалить.
- Чтобы улучшить семантический поиск, выполняемый LLM, переименуйте данные, чьи имена недостаточно понятны.
Переименовать dt в date.
- Когда вы удалили и переименовали данные при необходимости, нажмите
справа > Подготовить. Документы генерируются в JSONформате. - Когда документы генерируются:
- Выберите вкладку Наборы данных.
- Чтобы проверить ваши документы перед запуском задачи, нажмите Просмотреть данные, чтобы отобразить образец данных.
- Нажмите Запустить. Документы передаются в векторную базу данных или на платформу данных в зависимости от конфигурации.
Передача завершена, когда кнопка Запуск активна.
Чтобы убедиться, что все было перенесено, вы можете задать вопросы о ваших данных. Для получения дополнительной информации см. раздел Использование помощника по проведению тестов.
Полная загрузка и захват изменений данных (CDC)
Полная загрузка и захват измененных данных поддерживаются.
Полная загрузка: Документ генерируется для каждого экземпляра документа и будет отправлен целевому объекту.
CDC: Документ регенерируется после любого изменения в базовой или связанной сущности.
Новый документ создается, когда запись добавляется в базовую сущность. Если никакие записи в связанных сущностях не могут быть связаны с базовой сущностью, они не появятся в документах.
Обновление входных данных
При обновлении входных данных необходимо запустить задачу данных для передачи изменений в векторную базу данных или платформу данных.
Имя индекса
Каждый маркет знаний имеет имя индекса, которое используется для семантического поиска.
Когда вы настраиваете задачи для записи в один и тот же индекс, вы должны настроить одни и те же параметры LLM для этих задач.
Если вы хотите, чтобы ваши документы находились в одном индексе, они должны иметь одинаковое имя индекса.
Чтобы изменить имя индекса:
- На странице задачи данных нажмите Настройки.
- Выберите вкладку Настройки векторной базы данных.
- Измените Имя индекса.
- Нажмите кнопку ОК.
Параметры
Можно просматривать и изменять параметры киоска базы знаний.
На странице Задача данных нажмите
> Параметры.
| Параметры | Описание |
| Подключение к источнику | Подключение к источнику. |
| Хранить векторы в | В раскрывающемся списке выберите:
|
| Подключение к базе данных векторов Этот параметр доступен, если для параметра Хранить векторы в выбрано значение Внешняя база данных векторов. | Подключение к базе данных векторов. Для получения дополнительной информации см. раздел Подключение к базам данных векторов. |
| Подключение БЯМ | Подключение БЯМ. Для получения дополнительной информации см. раздел Подключение к подключениям LLM. Если в качестве подключения БЯМ необходимо использовать Databricks, настройте конечную точку обслуживания модели встраивания и конечную точку обслуживания модели завершения при создании киоска базы знаний. Для получения дополнительной информации см. документацию по Databricks. |
| Параметры | Описание |
| Схема задачи данных | Имя схемы задачи данных. |
| Внутренняя схема | Имя внутренней схемы. |
| Префикс для всех таблиц и видов | Префикс для разрешения конфликтов между несколькими задачами данных. |
| Параметры | Описание |
| Схема индекса Этот параметр недоступен, если для параметра Хранить векторы в выбрано значение Внешняя база данных векторов. | Имя схемы индекса. |
| Имя индекса | Имя индекса. |
| Если индекс уже существует | Если несколько задач записывают данные в один и тот же индекс, выберите, нужно ли удалять индекс:
|
| Параметры | Описание |
| Параллельное выполнение | Максимальное количество подключений к базе данных. Введите значение от 1 до 50. |
| Массовый размер | Для киосков баз знаний массовый размер — это количество документов, загружаемых в каждом массовом запросе. Для киосков файловых баз знаний массовый размер — это количество файлов, загружаемых в каждом массовом запросе. В Snowflake массовый размер не требуется, поскольку все загружается в одном запросе. |
| Максимальное количество записей для загрузки | «0» означает, что все записи загружены. |
| Параметры | Описание |
| Стандартные виды | Используйте стандартные виды для отображения результатов запроса в формате таблицы. |
| Защищенные виды Snowflake | Используйте защищенные виды Snowflake для представления конфиденциальных данных или защищенной информации. В частности, такие виды могут создаваться, если требуется ограничить доступ к конфиденциальным данным и данные не должны быть видны пользователям, имеющим доступ к базовым таблицам. Защищенные виды Snowflake могут выполняться медленнее, чем стандартные представления. |
| Параметры | Описание |
| Количество документов в контексте | Количество релевантных документов, которые будут переданы в модель в качестве контекста. |
| Шаблон запроса | Введите шаблон, которому ИИ должен следовать для фильтрации включаемых документов. |
| Фильтр | Введите выражение для фильтрации включаемых документов. Поскольку фильтр основан на метаданных, а файловые хранилища знаний не имеют метаданных, тщательно продумайте настраиваемый фильтр. Возможно, более целесообразно исключать данные, а не включать их. Для получения дополнительной информации см. раздел Использование помощника по проведению тестов. |
| Получение документов | Выберите параметр в раскрывающемся списке:
|
| Создание ответов | Выберите параметр в раскрывающемся списке:
|