Создание витрины знаний
Создавая витрины знаний, можно преобразовывать структурированные и неструктурированные данные в векторный формат и сохранять их в векторных базах данных. Это позволяет извлекать расширенный контекст с помощью функциональности семантического поиска для использования в качестве контекста для приложений генерации с дополненной выборкой (RAG).
RAG оптимизирует вывод большой языковой модели (LLM), предоставляя модели LLM вместе с запросом дополнительный контекст.
Требования
-
Вам нужна подписка Qlik Talend Cloud Enterprise.
-
Поддерживается на платформах Snowflake и Databricks. Snowflake Iceberg не поддерживается.
-
Требуется управляемый клиентом шлюз данных.
Для Databricks требуется Шлюз данных Qlik — движение данных версия 2024.11.95 или выше.
Установка Шлюз данных Qlik — движение данных
Чтобы использовать витрины знаний, необходимо подключиться к векторным базам данных и подключениям к LLM, для чего требуется специальная установка Шлюз данных Qlik — движение данных. Для получения дополнительной информации см. раздел Настройка Шлюз данных Qlik — движение данных для киосков баз знаний.
Просмотр и загрузка файлов журналов
Вы можете просматривать и загружать файлы журналов для витрин знаний. Для получения дополнительной информации см. раздел Поиск и устранение неисправностей Шлюз движения данных.
Необходимые условия
В качестве источника для витрин знаний можно использовать задачи данных следующих типов:
-
Хранение
-
Преобразование
Перед созданием витрин знаний необходимо выполнить в задачах, поставляющих данные, следующее:
- Заполните наборы данных данными, которые вы хотите использовать в своей витрине знаний. Для получения дополнительной информации см. раздел Ввод данных в хранилище данных.
-
создать реляционную модель набора данных для определения отношений между исходными наборами данных. Для получения дополнительной информации см. раздел Создание модели данных.
Примечание к предупреждениюВсе исходные наборы данных должны иметь ключи.
Настройка Databricks для витрин знаний
Если в качестве платформы данных используется Databricks, для создания витрин знаний необходимо настроить Databricks.
-
Создайте хранилище SQL в Databricks. Рекомендуется использовать бессерверные вычисления.
Вы также должны настроить Безопасность данных для хранилищ SQL и бессерверных вычислений, чтобы включить интеграцию хранилища.
-
Создайте конечную точку в Векторном поиске. Вы ссылаетесь на имя этой конечной точки в настройках векторной базы данных в задаче витрин знаний.
Выберите Тип в зависимости от требований к производительности, Стандартный подходит для большинства вариантов использования.
При необходимости определите политику использования бессерверных ресурсов для связывания тегов с целью распределения затрат.
-
Настройте модели Databricks в Serving.
В разделе Конечные точки обслуживания вы можете использовать встраивания LLM и модели чата, доступные в Databricks. Убедитесь, что вы подтвердили модели, которые планируете использовать в своем конвейере данных.
Вы также можете создать конечную точку обслуживания для пользовательской модели или использовать базовую модель, например, OpenAI или Azure OpenAI.
Примеры:
Модель встраивания: databricks-gte-large-en
Модель чата/завершения: databricks-meta-llama-3-1-405b-instruct
Ограничения
Исходные наборы данных можно использовать с ограничениями, если:
-
они созданы преобразованием SQL или потоком преобразования
-
являются нематерилизованными
-
хранилище исторических данных (тип 2) отключено
Считается, что эти наборы данных обновляются при каждом запуске, что может повлиять на эффективность и стоимость. Эти ограничения можно обойти следующим образом:
-
Изменить исходные наборы данных на наборы, которые должны быть материализованы.
-
Использовать прямые преобразования наборов данных.
-
Создать глобальные правила, преобразующие множество наборов данных.
Поддерживаемый формат кодирования
Файлы должны иметь формат UTF-8. Другие форматы могут интерпретироваться неверно.
Поддерживаемые символы
В именах файлов и папок могут содержаться следующие символы:
- [0-9], [a-Z], [A-Z]
- ! - _ . * ' ()
Могут поддерживаться и другие специальные символы, но специальные символы требуют значительной обработки, поэтому рекомендуется использовать только символы из приведенного выше списка.
Отношения
-
Невозможно связать данные из двух наборов данных. Создайте задачу преобразования, в ней определите отношение в модели данных и используйте это преобразование как источник для другой задачи.
-
Если два набора данных связаны в модели данных отношением, в задании будут доступны оба набора данных, даже если выбран только один из них.
Изменение подключений или шлюза данных
Если вы измените векторное подключение или векторный шлюз данных, вы должны подготовить задачу снова.
Поиск и устранение неисправностей
Файлы, перемещенные в OneDrive, не распознаются File knowledge mart
Возможная причина
Если файлы перемещаются или синхронизируются с OneDrive с использованием параметров, сохраняющих старую дату создания и изменения файла, файл не распознается как новый файл.
Предлагаемые меры
Измените дату изменения файла на текущую дату.
Ошибка выполнения при использовании Pinecone
Возможная причина
Значения NULL в столбцах метаданных не поддерживаются Pinecone. Результатом будет ошибка выполнения.
Предлагаемые меры
-
Преобразуйте значения NULL в другие значения, например, в пустую строку или слово NULL, при преобразовании перед хранилищем знаний.
-
Используйте другую векторную базу данных.
-
Не используйте столбец в качестве метаданных.