Criando um datamart de conhecimento baseado em arquivo

Datamarts de conhecimento baseados em arquivos permitem que você incorpore e armazene seus dados não estruturados em um banco de dados vetorial. Isso permite que o contexto aumentado seja recuperado com recursos de pesquisa semântica para ser usado como um contexto para aplicativos de geração aumentada de recuperação (RAG, Retrieval Augmented Generation).

Os formatos de entrada compatíveis são: PDF, TXT e Word DOCX.

Requisitos

Você precisa de uma assinatura do Qlik Talend Cloud Enterprise.
Compatível com as plataformas Snowflake e Databricks. O Snowflake Iceberg não é compatível.
É necessário um gateway de dados gerenciado pelo cliente.

O Databricks requer o Qlik Data Gateway - Movimentação de dados versão 2024.11.95 ou superior.

Instalando o Qlik Data Gateway - Movimentação de dados

Antes de criar datamarts de conhecimento baseados em arquivos, você deve instalar um Qlik Data Gateway - Movimentação de dados específico. Para obter mais informações, consulte Configurando o Qlik Data Gateway - Movimentação de dados para datamarts de conhecimento.

Conexões com suporte

Para obter informações sobre o suporte:

Bancos de dados vetoriais, consulte Conectando-se a bancos de dados vetoriais.
Conexões LLM; consulte Conectando-se a conexões LLM.
Armazenamento de arquivo; consulte Conectando ao armazenamento de arquivos.
Armazenamento em nuvem (Amazon S3, Google Cloud Storage, Azure Data Lake Storage), consulte Conectando ao armazenamento na nuvem.

Criando os arquivos

Clique em Projetos de pipeline no menu esquerdo e abra um projeto.
Na página Projeto de pipeline, você pode criar um datamart de conhecimento baseado em arquivo. Fazendo o seguinte:
- Clique em Criar novo > Datamart de conhecimento baseado em arquivo.
- Clique em da tarefa de dados > Datamart de conhecimento baseado em arquivo.
A janela de configuração é exibida.
Insira um nome.
Insira uma descrição. Isso é opcional.
Crie ou selecione uma Conexão de origem.
Selecione onde armazenar os documentos na lista suspensa Armazenar vetores em. Para armazenar os documentos com o projeto, selecione Plataforma do projeto de dados.
Se você selecionou Banco de dados vetorial externo, crie ou selecione uma Conexão de banco de dados vetorial. Os documentos e os vetores serão armazenados nesse banco de dados de vetores.
Crie ou selecione uma Conexão LLM. Essa conexão é necessária para usar a pesquisa semântica.
Clique em Criar.
Quando o datamart de conhecimento for criado, adicione documentos.

Adicionando arquivos

Somente texto é gravado em documentos. Textos de diagramas ou imagens não são extraídos.

Na guia Pastas da página Tarefa de dados, selecione uma pasta ou clique em Selecionar pastas para selecionar uma nova pasta.
Navegue até a pasta e marque a caixa de seleção da pasta.
Todos os arquivos nas pastas serão lidos se estiverem em um dos formatos compatíveis, independentemente de quando forem adicionados à pasta.
Quando você exclui de uma pasta um arquivo que já existe no índice, os dados continuam no índice. Para remover os dados do índice, use o mesmo arquivo, mas vazio.
Para exibir a lista de arquivos na pasta, clique com o botão direito do mouse nela.
Clique em Salvar para fechar a janela Selecionar pastas.
Para editar o tamanho do bloco, a sobreposição do bloco, clique em Configurações > Tempo de execução.
Para editar o nome do índice, clique em Configurações > Configurações do banco de dados vetorial.
Para obter mais informações, consulte Nome do índice.
Clique em à direita > Preparar.
Quando a preparação estiver concluída, clique em Executar. Os documentos estão sendo incorporados e transferidos.
A transferência é concluída quando o botão Executar estiver ativo.
Quando for o primeiro carregamento total, verifique o status de cada arquivo:
1. Selecione Monitor no menu.
2. Selecione Status do carregamento total na parte inferior da página.
3. Quando alguns arquivos falharem e antes de executar tudo novamente, corrija os erros ou exclua os arquivos. Se você mantiver os arquivos com erro, as próximas execuções falharão.
Nota informativaA recarga de todos os arquivos pode resultar em custos adicionais.

Quando os arquivos estiverem corretos, você poderá fazer perguntas sobre os dados. Para obter mais informações, consulte Usando o assistente de teste.

Carregamento total e Captura de dados alterados (CDC)

Há suporte para carregamento total e CDC.

Carregamento total: um documento é gerado para cada instância de documento e será enviado ao destino.

CDC: um documento é regenerado após qualquer alteração.

Quando um arquivo é alterado ou adicionado, os documentos são lidos a partir desse arquivo. O arquivo será dividido em documentos de pedaços de acordo com o tamanho do bloco e a sobreposição.

Quando for o primeiro carregamento total, verifique o status de cada arquivo:

Selecione Monitor no menu.
Selecione Status do carregamento total na parte inferior da página.
Quando alguns arquivos falharem e antes de executar tudo novamente, corrija os erros ou exclua os arquivos. Se você mantiver os arquivos com erro, as próximas execuções falharão.

A recarga de todos os arquivos pode resultar em custos adicionais.

Atualizando os dados de entrada

Ao atualizar os dados de entrada, você deve executar a tarefa de dados para transferir as alterações para o banco de dados vetorial ou para a plataforma de dados.

Como os blocos antigos são excluídos e os novos blocos são inseridos, o campo hdr__operation corresponde a uma operação de inserção, não a uma operação de atualização. Para obter mais informações, consulte Arquitetura de conjuntos de dados em um armazém de dados na nuvem.

Nome do índice

Cada datamart de conhecimento tem um nome de índice que é usado para a pesquisa semântica.

Ao configurar tarefas para gravar no mesmo índice, você deve configurar os mesmos parâmetros LLM para as tarefas.

Se você quiser que seus documentos estejam no mesmo índice, eles devem ter o mesmo nome de índice.

Para editar o nome do índice:

Na página Tarefa de dados, clique em Configurações.
Selecione a guia Configurações do banco de dados vetorial.
Edite o Nome do índice.
Clique em OK.

Depois de editar o nome do índice, você deve preparar a tarefa. Caso contrário, suas alterações não serão aplicadas nas próximas execuções.

Exibindo informações da tarefa

Clique em na barra de menu para visualizar informações da tarefa, como:

Proprietário
Espaço
Plataforma de dados
ID do projeto
ID de tempo de execução da tarefa de dados

Configurações

Você pode visualizar e editar as configurações de um datamart de conhecimento.

Na página Tarefa de dados, clique em > Configurações.

Como as configurações dependem do armazenamento (Databricks, Snowflake, etc.), as tabelas a seguir descrevem as configurações que estão sempre disponíveis. Mais configurações podem estar disponíveis.

Esta tabela descreve as configurações da guia Conexões.
Configurações	Descrição
Conexão de origem	A conexão de origem.
Armazenar vetores em	Na lista suspensa, selecione: Banco de dados de vetores externo Plataforma de projeto de dados
Conexão de banco de dados vetorial Essa configuração está disponível quando Banco de dados vetorial externo é selecionado para Armazenar vetores em.	A conexão de banco de dados vetorial. Para obter mais informações, consulte Conectando-se a bancos de dados vetoriais.
Conexão LLM	A conexão LLM. Para obter mais informações, consulte Conectando-se a conexões LLM. Quando você quiser usar o Databricks como uma conexão LLM, configure o Endpoint de serviço do modelo de incorporação e o Endpoint de serviço do modelo de conclusão ao criar o datamart de conhecimento. Para obter mais informações, consulte a Documentação do Databricks.

Esta tabela descreve as configurações da guia Configurações da plataforma.
Configurações	Descrição
Esquema da tarefa de dados	O nome do esquema da tarefa de dados.
Esquema interno	O nome do esquema interno.
Prefixo para todas as tabelas e visualizações	O prefixo para resolver conflitos entre múltiplas tarefas de dados.

Esta tabela descreve as configurações da guia Configurações do banco de dados vetorial.
Configurações	Descrição
Indexar esquema Esta configuração não estará disponível quando a opção Banco de dados vetorial externo estiver selecionada para Armazenar vetores em.	O nome do esquema de índice.
Nome do índice	O nome do índice.
Se o índice já existir	Quando várias tarefas estiverem gravando no mesmo índice, selecione se o índice deve ser excluído ou não: Usar o índice existente: o índice não é excluído. Eliminar e criar o índice: o índice é excluído.
Endpoint de pesquisa vetorial do Databricks	O nome do endpoint de pesquisa vetorial criado no Databricks. Para obter mais informações, consulte Configurando o Databricks para datamarts de conhecimento . Nota informativaAplicável apenas a projetos que usam o Databricks como plataforma de dados.

Esta tabela descreve as configurações da guia Tempo de execução.
Configurações	Descrição
Execução paralela	O número máximo de conexões com o banco de dados. Digite um valor de 1 a 50.
Tamanho em massa	Para datamarts de conhecimento, o tamanho do volume é o número de documentos carregados em cada solicitação de volume. Para datamarts de conhecimento baseados em arquivos, o tamanho do lote é o número de arquivos carregados em cada solicitação em massa. No Snowflake e no Databricks, o tamanho do lote não é necessário, pois tudo é carregado em uma única consulta.
Número máximo de registros para carregar	0 significa que todos os registros são carregados.

Esta tabela descreve as configurações da guia Exibições para o Snowflake
Configurações	Descrição
Visualizações padrão	Use exibições padrão para exibir os resultados de uma consulta como se fosse uma tabela.
Exibições seguras do Snowflake	Use as visualizações seguras do Snowflake para visualizações designadas para privacidade de dados ou proteção de informações confidenciais, como visualizações criadas para limitar o acesso a dados confidenciais que não devem ser expostos a todos os usuários das tabelas subjacentes. As visualizações seguras do Snowflake podem ser executadas mais lentamente do que as visualizações padrão.

Esta tabela descreve as configurações da guia Assistente de teste.
Configurações	Descrição
Número de documentos no contexto	O número de documentos relevantes que serão passados para o modelo como contexto.
Modelo de prompt	Digite o modelo que a IA deve seguir para filtrar os documentos a serem incluídos.
Filtrar	Digite a expressão para filtrar os documentos a serem incluídos. Como o filtro se baseia nos metadados e os datamarts de conhecimento baseados em arquivos não têm metadados, pense cuidadosamente no filtro que você está configurando. Pode ser mais relevante excluir dados em vez de incluí-los. Para obter mais informações, consulte Usando o assistente de teste.
Recuperação do documento	Selecione a opção na lista suspensa: Mostrar o contexto recuperado: o assistente de teste fornece os documentos a partir dos quais gera a resposta. Não mostrar o contexto recuperado: o assistente de teste gera uma resposta, mas não fornece os documentos.
Geração de respostas	Selecione a opção na lista suspensa: Gerar respostas: o assistente de teste gera uma resposta com base nos documentos. Não gere respostas: o assistente de teste responde apenas com documentos.

Alterando as conexões ou o gateway de dados

Se você alterar a conexão de origem, a conexão vetorial ou o gateway de dados vetoriais, será necessário preparar a tarefa novamente.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui