Создание витрины знаний

Витрины знаний позволяют встраивать и хранить ваши структурированные данные в векторной базе данных. Это позволяет извлекать дополненный контекст с функциональностью семантического поиска для использования в качестве контекста для приложений Retrieval Augmented Generation (RAG).

Выходные данные представлены в формате JSON.

Вам нужна подписка Qlik Talend Cloud Enterprise.

Требования

Вам нужна подписка Qlik Talend Cloud Enterprise.
Поддерживается на платформах Snowflake и Databricks. Snowflake Iceberg не поддерживается.
Требуется управляемый клиентом шлюз данных.

Для Databricks требуется Шлюз данных Qlik — движение данных версия 2024.11.95 или выше.

Установка Шлюз данных Qlik — движение данных

Перед созданием хранилища знаний необходимо установить определенный Шлюз данных Qlik — движение данных. Для получения дополнительной информации см. раздел Настройка Шлюз данных Qlik — движение данных для киосков баз знаний.

Поддерживаемые подключения

Источники информации о поддерживаемых подключениях см. ниже.

Базы данных векторов — см. раздел Подключение к базам данных векторов.
Подключения БЯМ — см. раздел Подключение к подключениям LLM.
Хранилище файлов, см. Подключение к файловому хранилищу.

Создание данных

Нажмите Проекты конвейера в левом меню и откройте проект.
Со страницы Проекта конвейера можно создавать и публиковать документы в векторной базе данных. Выполните одно из следующих действий.
- Нажмите Создать > Витрина знаний.
- Нажмите задачи данных > Витрина знаний.
Откроется окно настройки конфигурации.
Введите имя.
Введите описание. Это необязательно.
Выберите, где хранить документы, из раскрывающегося списка Хранить векторы в. Чтобы хранить документы вместе с проектом, выберите Платформа проектов данных.
Если выбран параметр Внешняя база данных векторов, создайте или выберите Подключение к базе данных векторов. Документы и векторы будут храниться в этой базе данных векторов.
Создайте или выберите Подключение БЯМ. Это подключение необходимо для использования семантического поиска.
Нажмите Создать.
При создании данных добавьте документы.

Добавление документов

Поддерживается только текстовый формат. Например, текст из диаграмм или изображений не может быть извлечен.

На вкладке Наборы данных страницы Задачи данных нажмите Добавить на левой панели.
Выберите базовый набор данных, из которого будет сгенерирован документ. Документ будет создан для каждой записи. Например, для списка пациентов будет создан документ для каждого пациента.
Поле Имя схемы документа предварительно заполняется именем выбранного базового набора данных. Переименуйте при необходимости.
Введите описание. Это необязательно.
Выберите данные, которые вы хотите включить для обогащения документа.
Щелкните ОК. Вы вернулись на вкладку Схемы документов.
Выберите вкладку Наборы данных.
На левой панели выберите набор данных, который вы выбрали ранее в качестве базового набора данных.
Чтобы удалить данные, которые вы не хотите включать в документы, установите флажок и нажмите Удалить.
Выберите Метаданные для всех полей, которые вы хотите определить как метаданные. Вы можете фильтровать по метаданным перед отправкой данных в LLM.

Примечание к информацииВ Databricks метаданные реализуются одним полем, содержащим JSON-представление ключа и значений выбранных полей метаданных.
Чтобы улучшить семантический поиск, выполняемый LLM, переименуйте данные, чьи имена недостаточно понятны.
Переименовать dt в date.
Когда вы удалили и переименовали данные при необходимости, нажмите справа > Подготовить. Документы генерируются в JSON формате.
Когда документы генерируются:
1. Выберите вкладку Наборы данных.
2. Чтобы проверить ваши документы перед запуском задачи, нажмите Просмотреть данные, чтобы отобразить образец данных.
3. Щелкните Запустить. Документы передаются в векторную базу данных или на платформу данных в зависимости от конфигурации.

Передача завершена, когда кнопка Запуск активна.

Чтобы убедиться, что все было перенесено, вы можете задать вопросы о ваших данных. Для получения дополнительной информации см. раздел Использование помощника по проведению тестов.

Полная загрузка и захват изменений данных (CDC)

Полная загрузка и захват измененных данных поддерживаются.

Полная загрузка: Документ генерируется для каждого экземпляра документа и будет отправлен целевому объекту.

CDC: Документ регенерируется после любого изменения в базовой или связанной сущности.

Новый документ создается, когда запись добавляется в базовую сущность. Если никакие записи в связанных сущностях не могут быть связаны с базовой сущностью, они не появятся в документах.

Обновление входных данных

При обновлении входных данных необходимо запустить задачу данных для передачи изменений в векторную базу данных или платформу данных.

Имя индекса

Каждый киоск базы знаний имеет имя индекса, которое используется для семантического поиска.

Когда вы настраиваете задачи для записи в один и тот же индекс, вы должны настроить одни и те же параметры LLM для этих задач.

Если вы хотите, чтобы ваши документы находились в одном индексе, они должны иметь одинаковое имя индекса.

Чтобы изменить имя индекса:

На странице задачи данных нажмите Настройки.
Выберите вкладку Настройки векторной базы данных.
Измените Имя индекса.
Нажмите кнопку ОК.

Просмотр информации о задаче

Нажмите Сведения на панели меню, чтобы просмотреть информацию о задаче, например:

Владелец
Пространство
Платформа данных
Идентификатор проекта
Идентификатор выполнения задачи данных

Настройки

Можно просматривать и изменять параметры киоска базы знаний.

На странице Задача данных нажмите > Параметры.

Поскольку параметры зависят от хранилища (Databricks, Snowflake и т. п.), в следующих таблицах описаны параметры, которые всегда доступны. Могут быть доступны и другие параметры.

В этой таблице описаны параметры вкладки Подключения.
Настройки	Описание
Подключение к источнику	Подключение к источнику.
Хранить векторы в	В раскрывающемся списке выберите: Внешняя база данных векторов Платформа проектов данных
Подключение к базе данных векторов Этот параметр доступен, если для параметра Хранить векторы в выбрано значение Внешняя база данных векторов.	Подключение к базе данных векторов. Для получения дополнительной информации см. раздел Подключение к базам данных векторов.
Подключение БЯМ	Подключение БЯМ. Для получения дополнительной информации см. раздел Подключение к подключениям LLM. Если в качестве подключения БЯМ необходимо использовать Databricks, настройте конечную точку обслуживания модели встраивания и конечную точку обслуживания модели завершения при создании киоска базы знаний. Для получения дополнительной информации см. документацию по Databricks.

В этой таблице описаны параметры вкладки Параметры платформы.
Настройки	Описание
Схема задачи данных	Имя схемы задачи данных.
Внутренняя схема	Имя внутренней схемы.
Префикс для всех таблиц и видов	Префикс для разрешения конфликтов между несколькими задачами данных.

В этой таблице описаны параметры вкладки Настройки базы данных векторов.
Настройки	Описание
Схема индекса Этот параметр недоступен, если для параметра Хранить векторы в выбрано значение Внешняя база данных векторов.	Имя схемы индекса.
Имя индекса	Имя индекса.
Если индекс уже существует	Если несколько задач записывают данные в один и тот же индекс, выберите, нужно ли удалять индекс: Использовать существующий индекс: индекс не удаляется. Отбросить и создать индекс. Индекс удаляется.
Конечная точка поиска векторов Databricks	Имя конечной точки векторного поиска, созданной в Databricks. Для получения дополнительной информации см. раздел Настройка Databricks для витрин знаний . Примечание к информацииПрименимо только к проектам, использующим Databricks в качестве платформы данных.

В этой таблице описаны параметры вкладки Время выполнения.
Настройки	Описание
Параллельное выполнение	Максимальное количество подключений к базе данных. Введите значение от 1 до 50.
Массовый размер	Для киосков баз знаний массовый размер — это количество документов, загружаемых в каждом массовом запросе. Для киосков файловых баз знаний массовый размер — это количество файлов, загружаемых в каждом массовом запросе. В Snowflake и Databricks массовый размер не требуется, поскольку все загружается в одном запросе.
Максимальное количество записей для загрузки	«0» означает, что все записи загружены.

В этой таблице описаны параметры вкладки Виды для Snowflake.
Настройки	Описание
Стандартные виды	Используйте стандартные виды для отображения результатов запроса в формате таблицы.
Защищенные виды Snowflake	Используйте защищенные виды Snowflake для представления конфиденциальных данных или защищенной информации. В частности, такие виды могут создаваться, если требуется ограничить доступ к конфиденциальным данным и данные не должны быть видны пользователям, имеющим доступ к базовым таблицам. Защищенные виды Snowflake могут выполняться медленнее, чем стандартные представления.

В этой таблице описаны параметры вкладки Помощник по тестированию.
Параметры	Описание
Количество документов в контексте	Количество релевантных документов, которые будут переданы в модель в качестве контекста.
Шаблон запроса	Введите шаблон, которому ИИ должен следовать для фильтрации включаемых документов.
Фильтр	Введите выражение для фильтрации включаемых документов. Поскольку фильтр основан на метаданных, а файловые хранилища знаний не имеют метаданных, тщательно продумайте настраиваемый фильтр. Возможно, более целесообразно исключать данные, а не включать их. Для получения дополнительной информации см. раздел Использование помощника по проведению тестов.
Получение документов	Выберите параметр в раскрывающемся списке: Показать извлеченный контекст: Помощник по тестированию предоставляет документы, на основе которых он генерирует ответ. Не показывать извлеченный контекст: Помощник по тестированию генерирует ответ, но не предоставляет документы.
Создание ответов	Выберите параметр в раскрывающемся списке: Генерировать ответы: Помощник по тестированию генерирует ответ на основе документов. Не генерировать ответы: Тестовый помощник отвечает только с помощью документов.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь