Criando datamarts de conhecimento
A criação de datamarts de conhecimento permite incorporar e armazenar seus dados estruturados e não estruturados em um banco de dados vetorial. Isso permite que o contexto aumentado seja recuperado com recursos de pesquisa semântica para ser usado como um contexto para aplicativos de geração aumentada de recuperação (RAG, Retrieval Augmented Generation).
A RAG otimiza a saída do LLM fornecendo contexto adicional ao LLM com a consulta.
Requisitos
-
Você precisa de uma assinatura do Qlik Talend Cloud Enterprise.
-
Compatível com as plataformas Snowflake e Databricks. O Snowflake Iceberg não é compatível.
-
É necessário um gateway de dados gerenciado pelo cliente.
O Databricks requer o Qlik Data Gateway - Movimentação de dados versão 2024.11.95 ou superior.
Instalando o Qlik Data Gateway - Movimentação de dados
Para usar os datamarts de conhecimento, você precisa se conectar a bancos de dados vetoriais e conexões LLM, o que requer a instalação de um Qlik Data Gateway - Movimentação de dados específico. Para obter mais informações, consulte Configurando o Qlik Data Gateway - Movimentação de dados para datamarts de conhecimento.
Visualizando e baixando os logs
Você pode visualizar e baixar os logs dos datamarts de conhecimento. Para obter mais informações, consulte Solução de problemas Gateway Data Movement.
Pré-requisitos
Você pode usar tarefas de dados dos seguintes tipos como origem para um datamart de conhecimento:
-
Armazenamento
-
Transformação
Antes de criar um datamart de conhecimento, você precisa fazer o seguinte nas tarefas de fonte de dados:
- Preencha os conjuntos de dados com os dados que deseja usar no seu datamart de conhecimento. Para obter mais informações, consulte Integrando dados em um armazém de dados.
-
Criar um modelo relacional de conjunto de dados para definir as relações entre os conjuntos de dados de origem. Para obter mais informações, consulte Criando um modelo de dados.
Nota de advertênciaTodos os conjuntos de dados de origem devem ter chaves.
Configurando o Databricks para datamarts de conhecimento
Se você usa o Databricks como plataforma de dados, deve realizar algumas configurações no Databricks para poder criar datamarts de conhecimento.
-
Crie um armazém SQL no Databricks. É recomendado usar Computação sem Servidor.
Você também deve configurar Segurança dos Dados para Armazém SQL e Computação sem Servidor para habilitar a integração de armazenamento.
-
Crie um endpoint em Pesquisa Vetorial. Você se refere ao nome deste endpoint em Configurações do banco de dados vetorial na tarefa do datamart de conhecimento.
Escolha o Tipo com base nos seus requisitos de desempenho, Padrão é adequado para a maioria dos casos de uso.
Se necessário, defina uma Política de Uso sem Servidor para associar tags para atribuição de custos.
-
Configure modelos do Databricks em Servindo.
Em Endpoints de Serviço, você pode usar as Incorporações LLM e os Modelos de Chat disponíveis no Databricks. Certifique-se de verificar os modelos que você planeja usar em seu pipeline de dados.
Você também pode criar um Endpoint de Serviço para um modelo personalizado, ou usar um Modelo de Base, por exemplo, OpenAI ou Azure OpenAI.
Exemplos:
Modelo de incorporação: databricks-gte-large-en
Modelo de chat/conclusão: databricks-meta-llama-3-1-405b-instruct
Limitações
Há limitações quando você usa conjuntos de dados de origem que atendem a todas essas condições:
-
Criado por uma transformação SQL ou por um fluxo de transformação
-
Não materializado
-
Armazenamento de dados históricos (Tipo 2) desativado
Esses conjuntos de dados são considerados atualizados em cada execução, o que pode afetar a eficiência e o custo. Você pode atenuar isso ao:
-
Alterar os conjuntos de dados de origem a serem materializados.
-
Usar transformações explícitas de conjuntos de dados.
-
Criando regras globais que transformam vários conjuntos de dados.
Formato de codificação com suporte
Seus arquivos devem ser codificados corretamente em UTF-8. Outros formatos podem ser interpretados erroneamente.
Caracteres compatíveis
Os nomes de arquivos e pastas podem conter os seguintes caracteres:
- [0-9], [a-Z], [A-Z]
- ! - _ . * ' ()
Outros caracteres especiais podem ser compatíveis, mas, devido ao manuseio significativo de caracteres especiais, recomenda-se usar apenas os caracteres da lista acima.
Relacionamentos
-
Não é possível relacionar dados de dois conjuntos de dados. Crie uma tarefa de transformação na qual você define a relação no modelo de dados e use a tarefa de transformação como fonte de dados para a tarefa.
-
Quando dois conjuntos de dados estão relacionados no modelo de dados, ambos os conjuntos de dados estarão disponíveis na tarefa, mesmo que você tenha selecionado apenas um dos conjuntos de dados.
Alterando as conexões ou o gateway de dados
Se você alterar a conexão do vetor ou o gateway de dados do vetor, será necessário preparar a tarefa novamente.
Solução de problemas
Os arquivos movidos para o OneDrive não são reconhecidos pelo datamart de conhecimento de arquivos
Possível causa
Se os arquivos forem movidos ou sincronizados com o OneDrive usando opções que preservam a data de criação e modificação do arquivo antigo, o arquivo não será reconhecido como um novo arquivo.
Ação proposta
Altere a data de modificação do arquivo para a data atual.
Erro de tempo de execução ao usar o Pinecone
Possível causa
Os valores NULL em colunas de metadados não são compatíveis com o Pinecone. O resultado seria um erro de tempo de execução.
Ação proposta
-
Transforme os valores NULL em outros valores, por exemplo, uma cadeia de caracteres vazia ou a palavra NULL, em uma transformação antes do datamart de conhecimento.
-
Use outro banco de dados vetorial.
-
Não use a coluna como metadados.