Criando datamarts de conhecimento

A criação de datamarts de conhecimento permite incorporar e armazenar seus dados estruturados e não estruturados em um banco de dados vetorial. Isso permite que o contexto aumentado seja recuperado com recursos de pesquisa semântica para ser usado como um contexto para aplicativos de geração aumentada de recuperação (RAG, Retrieval Augmented Generation).

A RAG otimiza a saída do LLM fornecendo contexto adicional ao LLM com a consulta.

Requisitos

Você precisa de uma assinatura do Qlik Talend Cloud Enterprise.
Compatível com as plataformas Snowflake e Databricks. O Snowflake Iceberg não é compatível.
É necessário um gateway de dados gerenciado pelo cliente.

O Databricks requer o Qlik Data Gateway - Movimentação de dados versão 2024.11.95 ou superior.

Instalando o Qlik Data Gateway - Movimentação de dados

Para usar os datamarts de conhecimento, você precisa se conectar a bancos de dados vetoriais e conexões LLM, o que requer a instalação de um Qlik Data Gateway - Movimentação de dados específico. Para obter mais informações, consulte Configurando o Qlik Data Gateway - Movimentação de dados para datamarts de conhecimento.

Visualizando e baixando os logs

Você pode visualizar e baixar os logs dos datamarts de conhecimento. Para obter mais informações, consulte Solução de problemas Gateway Data Movement.

Pré-requisitos

Você pode usar tarefas de dados dos seguintes tipos como origem para um datamart de conhecimento:

Armazenamento
Transformação

Antes de criar um datamart de conhecimento, você precisa fazer o seguinte nas tarefas de fonte de dados:

Preencha os conjuntos de dados com os dados que deseja usar no seu datamart de conhecimento. Para obter mais informações, consulte Integrando dados em um armazém de dados.
Criar um modelo relacional de conjunto de dados para definir as relações entre os conjuntos de dados de origem. Para obter mais informações, consulte Criando um modelo de dados.

Nota de advertênciaTodos os conjuntos de dados de origem devem ter chaves.

Configurando o Databricks para datamarts de conhecimento

Se você usa o Databricks como plataforma de dados, deve realizar algumas configurações no Databricks para poder criar datamarts de conhecimento.

Crie um armazém SQL no Databricks. É recomendado usar Computação sem Servidor.

Você também deve configurar Segurança dos Dados para Armazém SQL e Computação sem Servidor para habilitar a integração de armazenamento.
Crie um endpoint em Pesquisa Vetorial. Você se refere ao nome deste endpoint em Configurações do banco de dados vetorial na tarefa do datamart de conhecimento.

Escolha o Tipo com base nos seus requisitos de desempenho, Padrão é adequado para a maioria dos casos de uso.

Se necessário, defina uma Política de Uso sem Servidor para associar tags para atribuição de custos.
Configure modelos do Databricks em Servindo.

Em Endpoints de Serviço, você pode usar as Incorporações LLM e os Modelos de Chat disponíveis no Databricks. Certifique-se de verificar os modelos que você planeja usar em seu pipeline de dados.

Você também pode criar um Endpoint de Serviço para um modelo personalizado, ou usar um Modelo de Base, por exemplo, OpenAI ou Azure OpenAI.

Exemplos:

Modelo de incorporação: databricks-gte-large-en

Modelo de chat/conclusão: databricks-meta-llama-3-1-405b-instruct

Limitações

Há limitações quando você usa conjuntos de dados de origem que atendem a todas essas condições:

Criado por uma transformação SQL ou por um fluxo de transformação
Não materializado
Armazenamento de dados históricos (Tipo 2) desativado

Esses conjuntos de dados são considerados atualizados em cada execução, o que pode afetar a eficiência e o custo. Você pode atenuar isso ao:

Alterar os conjuntos de dados de origem a serem materializados.
Usar transformações explícitas de conjuntos de dados.
Criando regras globais que transformam vários conjuntos de dados.

Formato de codificação com suporte

Seus arquivos devem ser codificados corretamente em UTF-8. Outros formatos podem ser interpretados erroneamente.

O Qlik adiciona 2 regras de transformação que removem todo o conteúdo binário da saída: QLIK__REMOVE_BLOB_COLUMNS e QLIK__REMOVE_BYTES_COLUMNS.

Caracteres compatíveis

Os nomes de arquivos e pastas podem conter os seguintes caracteres:

[0-9], [a-Z], [A-Z]
! - _ . * ' ()

Outros caracteres especiais podem ser compatíveis, mas, devido ao manuseio significativo de caracteres especiais, recomenda-se usar apenas os caracteres da lista acima.

Relacionamentos

Não é possível relacionar dados de dois conjuntos de dados. Crie uma tarefa de transformação na qual você define a relação no modelo de dados e use a tarefa de transformação como fonte de dados para a tarefa.
Quando dois conjuntos de dados estão relacionados no modelo de dados, ambos os conjuntos de dados estarão disponíveis na tarefa, mesmo que você tenha selecionado apenas um dos conjuntos de dados.

Alterando as conexões ou o gateway de dados

Se você alterar a conexão do vetor ou o gateway de dados do vetor, será necessário preparar a tarefa novamente.

Solução de problemas

Os arquivos movidos para o OneDrive não são reconhecidos pelo datamart de conhecimento de arquivos

Possível causa

Se os arquivos forem movidos ou sincronizados com o OneDrive usando opções que preservam a data de criação e modificação do arquivo antigo, o arquivo não será reconhecido como um novo arquivo.

Ação proposta

Altere a data de modificação do arquivo para a data atual.

Erro de tempo de execução ao usar o Pinecone

Possível causa

Os valores NULL em colunas de metadados não são compatíveis com o Pinecone. O resultado seria um erro de tempo de execução.

Ação proposta

Transforme os valores NULL em outros valores, por exemplo, uma cadeia de caracteres vazia ou a palavra NULL, em uma transformação antes do datamart de conhecimento.
Use outro banco de dados vetorial.
Não use a coluna como metadados.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui