Перейти к основному содержимому Перейти к дополнительному содержимому

Создание киоска файловой базы знаний

Киоски файловых баз знаний позволяют встраивать неструктурированные данные в базы данных векторов и хранить их там. Это позволяет извлекать дополненный контекст с помощью функциональностей семантического поиска и использовать его в качестве контекста для приложений с генерацией, дополненной поиском (RAG).

Поддерживаются следующие форматы ввода: PDF, TXT и DOCX Word.

Примечание к информацииВам нужна подписка Qlik Talend Cloud Enterprise.
Примечание к информацииЭта функциональность поддерживается только на платформах Snowflake и для шлюза данных, управляемого клиентом.

Установка Qlik Data Gateway — Data Movement

Прежде чем создавать киоски файловых баз знаний, необходимо установить специальный Qlik Data Gateway — Data Movement. Для получения дополнительной информации см. раздел Настройка Qlik Data Gateway — Data Movement для киосков баз знаний.

Поддерживаемые подключения

Источники информации о поддерживаемых подключениях см. ниже.

Создание файлов

  1. Нажмите Проекты в меню слева и откройте проект.
  2. На странице Проект можно создать киоск файловой базы знаний. Выполните одно из следующих действий.
    • Нажмите Создать > Киоск файловой базы знаний.
    • Нажмите Значок «Действия» задачи данных > Киоск файловой базы знаний.

    Откроется окно настройки конфигурации.

  3. Введите имя.
  4. Введите описание. Это необязательно.
  5. Создайте или выберите Подключение к источнику.
  6. Выберите место хранения документов в раскрывающемся списке Хранить векторы в. Чтобы хранить документы вместе с проектом, выберите Платформа проектов данных.

  7. Если выбран параметр Внешняя база данных векторов, создайте или выберите Подключение к базе данных векторов. Документы и векторы будут храниться в этой базе данных векторов.
  8. Создайте или выберите Подключение БЯМ. Это подключение необходимо для использования семантического поиска.
  9. Нажмите Создать.
  10. После создания киоска базы знаний добавьте документы.

Добавление файлов

Примечание к информацииВ документы записывается только текст. Текст из диаграмм или изображений не извлекается.
  1. Выберите папку на вкладке Папки страницы Задача данных или нажмите Выберите папки, чтобы выбрать новую папку.
  2. Перейдите к папке и установите флажок рядом с папкой.

    Все файлы в папках будут прочитаны, если они имеют один из поддерживаемых форматов, независимо от того, когда они были добавлены в папку.

    При удалении из папки файла, который уже существует в индексе, его данные остаются в индексе. Чтобы удалить данные из индекса, используйте тот же файл, но пустой.

    Чтобы отобразить список файлов в папке, нажмите ее правой кнопкой мыши.

  3. Нажмите Сохранить, чтобы закрыть окно Выберите папки.
  4. Чтобы изменить размер блока и перекрытие блоков, нажмите Параметры > Время выполнения.
  5. Чтобы изменить название индекса, нажмите Параметры > Настройки базы данных векторов.

    Для получения дополнительной информации см. раздел Имя индекса.

  6. Нажмите Значок «Действия» справа > Подготовить.
  7. По завершении подготовки нажмите Запустить. Документы будут встраиваться и передаваться.

    Передача выполняется, когда кнопка Запустить активна.

  8. При первой полной загрузке проверьте состояние каждого файла:
    1. Выберите в меню Мониторинг.
    2. Выберите в нижней части страницы Состояние полной загрузки.

      Состояние полной загрузки в виде мониторинга

    3. Если с некоторыми файлами произошел сбой, исправьте ошибки или удалите файлы, прежде чем запускать все заново. Если сохранить файлы с ошибками, следующие запуски будут неудачными.
    Примечание к информацииПерезагрузка всех файлов может привести к дополнительным расходам.

Когда файлы будут в порядке, можно будет задавать вопросы о данных. Для получения дополнительной информации см. раздел Использование помощника по проведению тестов.

Полная загрузка и захват изменений данных (CDC)

Поддерживаются полная загрузка и CDC.

Полная загрузка. Для каждого экземпляра документа создается документ, который отправляется в цель.

CDC. Документ создается заново после любого изменения.

При изменении или добавлении файла документы считываются из этого файла. Файл разбивается на документы, состоящие из блоков, в соответствии с размером блока и перекрытием.

При первой полной загрузке проверьте состояние каждого файла:

  1. Выберите в меню Мониторинг.
  2. Выберите в нижней части страницы Состояние полной загрузки.

    Состояние полной загрузки в виде мониторинга

  3. Если с некоторыми файлами произошел сбой, исправьте ошибки или удалите файлы, прежде чем запускать все заново. Если сохранить файлы с ошибками, следующие запуски будут неудачными.
Примечание к информацииПерезагрузка всех файлов может привести к дополнительным расходам.

Обновление ввода данных

При обновлении ввода данных необходимо запустить задачу данных, чтобы передать изменения в базу данных векторов или на платформу данных.

Поскольку старые блоки удаляются, а новые вставляются, поле hdr__operation соответствует операции вставки, а не операции обновления. Для получения дополнительной информации см. раздел Архитектура базы данных в облачном хранилище данных.

Имя индекса

Каждый киоск базы знаний имеет имя индекса, которое используется для семантического поиска.

При настройке задач для записи в один и тот же индекс необходимо настроить одинаковые параметры БЯМ для этих задач.

Если вы хотите, чтобы ваши документы находились в одном индексе, они должны иметь одинаковое имя индекса.

Чтобы изменить имя индекса:

  1. На странице задачи данных нажмите Настройки.
  2. Выберите вкладку Настройки векторной базы данных.
  3. Измените Имя индекса.
  4. Нажмите кнопку ОК.

После изменения имя индекса необходимо подготовить задачу. В противном случае изменения не будут применяться в следующих запусках.

Параметры

Можно просматривать и изменять параметры киоска базы знаний.

На странице Задача данных нажмите > Параметры.

Примечание к информацииПоскольку параметры зависят от хранилища (Databricks, Snowflake и т. п.), в следующих таблицах описаны параметры, которые всегда доступны. Могут быть доступны и другие параметры.
В этой таблице описаны параметры вкладки Подключения.
ПараметрыОписание
Подключение к источнику

Подключение к источнику.

Хранить векторы в

В раскрывающемся списке выберите:

  • Внешняя база данных векторов
  • Платформа проектов данных
Подключение к базе данных векторов

Этот параметр доступен, если для параметра Хранить векторы в выбрано значение Внешняя база данных векторов.

Подключение к базе данных векторов.

Для получения дополнительной информации см. раздел Подключение к базам данных векторов.

Подключение БЯМПодключение БЯМ.

Для получения дополнительной информации см. раздел Подключение к подключениям LLM.

Если в качестве подключения БЯМ необходимо использовать Databricks, настройте конечную точку обслуживания модели встраивания и конечную точку обслуживания модели завершения при создании киоска базы знаний. Для получения дополнительной информации см. документацию по Databricks.

В этой таблице описаны параметры вкладки Параметры платформы.
ПараметрыОписание
Схема задачи данныхИмя схемы задачи данных.
Внутренняя схемаИмя внутренней схемы.
Префикс для всех таблиц и видовПрефикс для разрешения конфликтов между несколькими задачами данных.
В этой таблице описаны параметры вкладки Настройки базы данных векторов.
ПараметрыОписание
Схема индекса

Этот параметр недоступен, если для параметра Хранить векторы в выбрано значение Внешняя база данных векторов.

Имя схемы индекса.
Имя индексаИмя индекса.
Если индекс уже существуетЕсли несколько задач записывают данные в один и тот же индекс, выберите, нужно ли удалять индекс:
  • Использовать существующий индекс: индекс не удаляется.
  • Отбросить и создать индекс. Индекс удаляется.
В этой таблице описаны параметры вкладки Время выполнения.
ПараметрыОписание
Параллельное выполнение

Максимальное количество подключений к базе данных. 

Введите значение от 1 до 50.

Массовый размерДля киосков баз знаний массовый размер — это количество документов, загружаемых в каждом массовом запросе.

Для киосков файловых баз знаний массовый размер — это количество файлов, загружаемых в каждом массовом запросе.

В Snowflake массовый размер не требуется, поскольку все загружается в одном запросе.

Максимальное количество записей для загрузки«0» означает, что все записи загружены.
В этой таблице описаны параметры вкладки Виды.
Параметры Описание
Стандартные виды Используйте стандартные виды для отображения результатов запроса в формате таблицы.
Защищенные виды Snowflake Используйте защищенные виды Snowflake для представления конфиденциальных данных или защищенной информации. В частности, такие виды могут создаваться, если требуется ограничить доступ к конфиденциальным данным и данные не должны быть видны пользователям, имеющим доступ к базовым таблицам.

Защищенные виды Snowflake могут выполняться медленнее, чем стандартные представления.

В этой таблице описаны параметры вкладки Помощник по тестированию.
ПараметрыОписание
Количество документов в контекстеКоличество релевантных документов, которые будут переданы в модель в качестве контекста.
Шаблон запросаВведите шаблон, которому ИИ должен следовать для фильтрации включаемых документов.
ФильтрВведите выражение для фильтрации включаемых документов.

Поскольку фильтр основан на метаданных, а файловые хранилища знаний не имеют метаданных, тщательно продумайте настраиваемый фильтр. Возможно, более целесообразно исключать данные, а не включать их.

Для получения дополнительной информации см. раздел Использование помощника по проведению тестов.

Получение документовВыберите параметр в раскрывающемся списке:
  • Показать извлеченный контекст: Помощник по тестированию предоставляет документы, на основе которых он генерирует ответ.
  • Не показывать извлеченный контекст: Помощник по тестированию генерирует ответ, но не предоставляет документы.
Создание ответовВыберите параметр в раскрывающемся списке:
  • Генерировать ответы: Помощник по тестированию генерирует ответ на основе документов.
  • Не генерировать ответы: Тестовый помощник отвечает только с помощью документов.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!