Ir para conteúdo principal Pular para conteúdo complementar

Criando um datamart de conhecimento baseado em arquivo

Datamarts de conhecimento baseados em arquivos permitem que você incorpore e armazene seus dados não estruturados em um banco de dados vetorial. Isso permite que o contexto aumentado seja recuperado com recursos de pesquisa semântica para ser usado como um contexto para aplicativos de geração aumentada de recuperação (RAG, Retrieval Augmented Generation).

Os formatos de entrada compatíveis são: PDF, TXT e Word DOCX.

Nota informativaVocê precisa de uma assinatura do Qlik Talend Cloud Enterprise.
Nota informativaEsse recurso só é compatível com as plataformas Snowflake e com um gateway de dados gerenciado pelo cliente.

Instalando o Qlik Data Gateway - Data Movement

Antes de criar datamarts de conhecimento baseados em arquivos, você deve instalar um Qlik Data Gateway - Data Movement específico. Para obter mais informações, consulte Configurando o Qlik Data Gateway - Data Movement para datamarts de conhecimento.

Conexões com suporte

Para obter informações sobre o suporte:

Criando os arquivos

  1. Clique em Projetos no menu esquerdo e abra um projeto.
  2. Na página Projeto, você pode criar um datamart de conhecimento baseado em arquivo. Fazendo o seguinte:
    • Clique em Criar novo > Datamart de conhecimento baseado em arquivo.
    • Clique em Ícone de ações da tarefa de dados > Datamart de conhecimento baseado em arquivo.

    A janela de configuração é exibida.

  3. Insira um nome.
  4. Insira uma descrição. Isso é opcional.
  5. Crie ou selecione uma Conexão de origem.
  6. Selecione onde armazenar os documentos na lista suspensa Armazenar vetores em. Para armazenar os documentos com o projeto, selecione Plataforma do projeto de dados.

  7. Se você selecionou Banco de dados vetorial externo, crie ou selecione uma Conexão de banco de dados vetorial. Os documentos e os vetores serão armazenados nesse banco de dados de vetores.
  8. Crie ou selecione uma Conexão LLM. Essa conexão é necessária para usar a pesquisa semântica.
  9. Clique em Criar.
  10. Quando o datamart de conhecimento for criado, adicione documentos.

Adicionando arquivos

Nota informativaSomente texto é gravado em documentos. Textos de diagramas ou imagens não são extraídos.
  1. Na guia Pastas da página Tarefa de dados, selecione uma pasta ou clique em Selecionar pastas para selecionar uma nova pasta.
  2. Navegue até a pasta e marque a caixa de seleção da pasta.

    Todos os arquivos nas pastas serão lidos se estiverem em um dos formatos compatíveis, independentemente de quando forem adicionados à pasta.

    Quando você exclui de uma pasta um arquivo que já existe no índice, os dados continuam no índice. Para remover os dados do índice, use o mesmo arquivo, mas vazio.

    Para exibir a lista de arquivos na pasta, clique com o botão direito do mouse nela.

  3. Clique em Salvar para fechar a janela Selecionar pastas.
  4. Para editar o tamanho do bloco, a sobreposição do bloco, clique em Configurações > Tempo de execução.
  5. Para editar o nome do índice, clique em Configurações > Configurações do banco de dados vetorial.

    Para obter mais informações, consulte Nome do índice.

  6. Clique em Ícone de ações à direita > Preparar.
  7. Quando a preparação estiver concluída, clique em Executar. Os documentos estão sendo incorporados e transferidos.

    A transferência é concluída quando o botão Executar estiver ativo.

  8. Quando for o primeiro carregamento total, verifique o status de cada arquivo:
    1. Selecione Monitor no menu.
    2. Selecione Status do carregamento total na parte inferior da página.

      Status do carregamento total no Monitor

    3. Quando alguns arquivos falharem e antes de executar tudo novamente, corrija os erros ou exclua os arquivos. Se você mantiver os arquivos com erro, as próximas execuções falharão.
    Nota informativaA recarga de todos os arquivos pode resultar em custos adicionais.

Quando os arquivos estiverem corretos, você poderá fazer perguntas sobre os dados. Para obter mais informações, consulte Usando o assistente de teste.

Carregamento total e Captura de dados alterados (CDC)

Há suporte para carregamento total e CDC.

Carregamento total: um documento é gerado para cada instância de documento e será enviado ao destino.

CDC: um documento é regenerado após qualquer alteração.

Quando um arquivo é alterado ou adicionado, os documentos são lidos a partir desse arquivo. O arquivo será dividido em documentos de pedaços de acordo com o tamanho do bloco e a sobreposição.

Quando for o primeiro carregamento total, verifique o status de cada arquivo:

  1. Selecione Monitor no menu.
  2. Selecione Status do carregamento total na parte inferior da página.

    Status do carregamento total no Monitor

  3. Quando alguns arquivos falharem e antes de executar tudo novamente, corrija os erros ou exclua os arquivos. Se você mantiver os arquivos com erro, as próximas execuções falharão.
Nota informativaA recarga de todos os arquivos pode resultar em custos adicionais.

Atualizando os dados de entrada

Ao atualizar os dados de entrada, você deve executar a tarefa de dados para transferir as alterações para o banco de dados vetorial ou para a plataforma de dados.

Como os blocos antigos são excluídos e os novos blocos são inseridos, o campo hdr__operation corresponde a uma operação de inserção, não a uma operação de atualização. Para obter mais informações, consulte Arquitetura de conjuntos de dados em um armazém de dados na nuvem.

Nome do índice

Cada datamart de conhecimento tem um nome de índice que é usado para a pesquisa semântica.

Ao configurar tarefas para gravar no mesmo índice, você deve configurar os mesmos parâmetros LLM para as tarefas.

Se você quiser que seus documentos estejam no mesmo índice, eles devem ter o mesmo nome de índice.

Para editar o nome do índice:

  1. Na página Tarefa de dados, clique em Configurações.
  2. Selecione a guia Configurações do banco de dados vetorial.
  3. Edite o Nome do índice.
  4. Clique em OK.

Depois de editar o nome do índice, você deve preparar a tarefa. Caso contrário, suas alterações não serão aplicadas nas próximas execuções.

Configurações

Você pode visualizar e editar as configurações de um datamart de conhecimento.

Na página Tarefa de dados, clique em > Configurações.

Nota informativaComo as configurações dependem do armazenamento (Databricks, Snowflake, etc.), as tabelas a seguir descrevem as configurações que estão sempre disponíveis. Mais configurações podem estar disponíveis.
Esta tabela descreve as configurações da guia Conexões.
ConfiguraçõesDescrição
Conexão de origem

A conexão de origem.

Armazenar vetores em

Na lista suspensa, selecione:

  • Banco de dados de vetores externo
  • Plataforma de projeto de dados
Conexão de banco de dados vetorial

Essa configuração está disponível quando Banco de dados vetorial externo é selecionado para Armazenar vetores em.

A conexão de banco de dados vetorial.

Para obter mais informações, consulte Conectando-se a bancos de dados vetoriais.

Conexão LLMA conexão LLM.

Para obter mais informações, consulte Conectando-se a conexões LLM.

Quando você quiser usar o Databricks como uma conexão LLM, configure o Endpoint de serviço do modelo de incorporação e o Endpoint de serviço do modelo de conclusão ao criar o datamart de conhecimento. Para obter mais informações, consulte a Documentação do Databricks.

Esta tabela descreve as configurações da guia Configurações da plataforma.
ConfiguraçõesDescrição
Esquema da tarefa de dadosO nome do esquema da tarefa de dados.
Esquema internoO nome do esquema interno.
Prefixo para todas as tabelas e visualizaçõesO prefixo para resolver conflitos entre múltiplas tarefas de dados.
Esta tabela descreve as configurações da guia Configurações do banco de dados vetorial.
ConfiguraçõesDescrição
Indexar esquema

Esta configuração não estará disponível quando a opção Banco de dados vetorial externo estiver selecionada para Armazenar vetores em.

O nome do esquema de índice.
Nome do índiceO nome do índice.
Se o índice já existirQuando várias tarefas estiverem gravando no mesmo índice, selecione se o índice deve ser excluído ou não:
  • Usar o índice existente: o índice não é excluído.
  • Eliminar e criar o índice: o índice é excluído.
Esta tabela descreve as configurações da guia Tempo de execução.
ConfiguraçõesDescrição
Execução paralela

O número máximo de conexões com o banco de dados. 

Digite um valor de 1 a 50.

Tamanho em massaPara datamarts de conhecimento, o tamanho do volume é o número de documentos carregados em cada solicitação de volume.

Para datamarts de conhecimento baseados em arquivos, o tamanho do lote é o número de arquivos carregados em cada solicitação em massa.

No Snowflake, o tamanho em massa não é necessário, pois tudo é carregado em uma única consulta.

Número máximo de registros para carregar0 significa que todos os registros são carregados.
Esta tabela descreve as configurações da guia Exibições.
Configurações Descrição
Visualizações padrão Use exibições padrão para exibir os resultados de uma consulta como se fosse uma tabela.
Exibições seguras do Snowflake Use as visualizações seguras do Snowflake para visualizações designadas para privacidade de dados ou proteção de informações confidenciais, como visualizações criadas para limitar o acesso a dados confidenciais que não devem ser expostos a todos os usuários das tabelas subjacentes.

As visualizações seguras do Snowflake podem ser executadas mais lentamente do que as visualizações padrão.

Esta tabela descreve as configurações da guia Assistente de teste.
ConfiguraçõesDescrição
Número de documentos no contextoO número de documentos relevantes que serão passados para o modelo como contexto.
Modelo de promptDigite o modelo que a IA deve seguir para filtrar os documentos a serem incluídos.
FiltrarDigite a expressão para filtrar os documentos a serem incluídos.

Como o filtro se baseia nos metadados e os datamarts de conhecimento baseados em arquivos não têm metadados, pense cuidadosamente no filtro que você está configurando. Pode ser mais relevante excluir dados em vez de incluí-los.

Para obter mais informações, consulte Usando o assistente de teste.

Recuperação do documentoSelecione a opção na lista suspensa:
  • Mostrar o contexto recuperado: o assistente de teste fornece os documentos a partir dos quais gera a resposta.
  • Não mostrar o contexto recuperado: o assistente de teste gera uma resposta, mas não fornece os documentos.
Geração de respostasSelecione a opção na lista suspensa:
  • Gerar respostas: o assistente de teste gera uma resposta com base nos documentos.
  • Não gere respostas: o assistente de teste responde apenas com documentos.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!