Criando um datamart de conhecimento baseado em arquivo
Datamarts de conhecimento baseados em arquivos permitem que você incorpore e armazene seus dados não estruturados em um banco de dados vetorial. Isso permite que o contexto aumentado seja recuperado com recursos de pesquisa semântica para ser usado como um contexto para aplicativos de geração aumentada de recuperação (RAG, Retrieval Augmented Generation).
Os formatos de entrada compatíveis são: PDF
, TXT
e Word DOCX
.
Instalando o Qlik Data Gateway - Data Movement
Antes de criar datamarts de conhecimento baseados em arquivos, você deve instalar um Qlik Data Gateway - Data Movement específico. Para obter mais informações, consulte Configurando o Qlik Data Gateway - Data Movement para datamarts de conhecimento.
Conexões com suporte
Para obter informações sobre o suporte:
- Bancos de dados vetoriais, consulte Conectando-se a bancos de dados vetoriais.
- Conexões LLM; consulte Conectando-se a conexões LLM.
- Armazenamento de arquivo; consulte Conectando ao armazenamento de arquivos.
Criando os arquivos
- Clique em Projetos no menu esquerdo e abra um projeto.
- Na página Projeto, você pode criar um datamart de conhecimento baseado em arquivo. Fazendo o seguinte:
- Clique em Criar novo > Datamart de conhecimento baseado em arquivo.
- Clique em
da tarefa de dados > Datamart de conhecimento baseado em arquivo.
A janela de configuração é exibida.
- Insira um nome.
- Insira uma descrição. Isso é opcional.
- Crie ou selecione uma Conexão de origem.
-
Selecione onde armazenar os documentos na lista suspensa Armazenar vetores em. Para armazenar os documentos com o projeto, selecione Plataforma do projeto de dados.
- Se você selecionou Banco de dados vetorial externo, crie ou selecione uma Conexão de banco de dados vetorial. Os documentos e os vetores serão armazenados nesse banco de dados de vetores.
- Crie ou selecione uma Conexão LLM. Essa conexão é necessária para usar a pesquisa semântica.
- Clique em Criar.
- Quando o datamart de conhecimento for criado, adicione documentos.
Adicionando arquivos
- Na guia Pastas da página Tarefa de dados, selecione uma pasta ou clique em Selecionar pastas para selecionar uma nova pasta.
- Navegue até a pasta e marque a caixa de seleção da pasta.
Todos os arquivos nas pastas serão lidos se estiverem em um dos formatos compatíveis, independentemente de quando forem adicionados à pasta.
Quando você exclui de uma pasta um arquivo que já existe no índice, os dados continuam no índice. Para remover os dados do índice, use o mesmo arquivo, mas vazio.
Para exibir a lista de arquivos na pasta, clique com o botão direito do mouse nela.
- Clique em Salvar para fechar a janela Selecionar pastas.
- Para editar o tamanho do bloco, a sobreposição do bloco, clique em Configurações > Tempo de execução.
- Para editar o nome do índice, clique em Configurações > Configurações do banco de dados vetorial.
Para obter mais informações, consulte Nome do índice.
- Clique em
à direita > Preparar.
- Quando a preparação estiver concluída, clique em Executar. Os documentos estão sendo incorporados e transferidos.
A transferência é concluída quando o botão Executar estiver ativo.
- Quando for o primeiro carregamento total, verifique o status de cada arquivo:
- Selecione Monitor no menu.
- Selecione Status do carregamento total na parte inferior da página.
- Quando alguns arquivos falharem e antes de executar tudo novamente, corrija os erros ou exclua os arquivos. Se você mantiver os arquivos com erro, as próximas execuções falharão.
Nota informativaA recarga de todos os arquivos pode resultar em custos adicionais.
Quando os arquivos estiverem corretos, você poderá fazer perguntas sobre os dados. Para obter mais informações, consulte Usando o assistente de teste.
Carregamento total e Captura de dados alterados (CDC)
Há suporte para carregamento total e CDC.
Carregamento total: um documento é gerado para cada instância de documento e será enviado ao destino.
CDC: um documento é regenerado após qualquer alteração.
Quando um arquivo é alterado ou adicionado, os documentos são lidos a partir desse arquivo. O arquivo será dividido em documentos de pedaços de acordo com o tamanho do bloco e a sobreposição.
Quando for o primeiro carregamento total, verifique o status de cada arquivo:
- Selecione Monitor no menu.
- Selecione Status do carregamento total na parte inferior da página.
- Quando alguns arquivos falharem e antes de executar tudo novamente, corrija os erros ou exclua os arquivos. Se você mantiver os arquivos com erro, as próximas execuções falharão.
Atualizando os dados de entrada
Ao atualizar os dados de entrada, você deve executar a tarefa de dados para transferir as alterações para o banco de dados vetorial ou para a plataforma de dados.
Como os blocos antigos são excluídos e os novos blocos são inseridos, o campo hdr__operation
corresponde a uma operação de inserção, não a uma operação de atualização. Para obter mais informações, consulte Arquitetura de conjuntos de dados em um armazém de dados na nuvem.
Nome do índice
Cada datamart de conhecimento tem um nome de índice que é usado para a pesquisa semântica.
Ao configurar tarefas para gravar no mesmo índice, você deve configurar os mesmos parâmetros LLM para as tarefas.
Se você quiser que seus documentos estejam no mesmo índice, eles devem ter o mesmo nome de índice.
Para editar o nome do índice:
- Na página Tarefa de dados, clique em Configurações.
- Selecione a guia Configurações do banco de dados vetorial.
- Edite o Nome do índice.
- Clique em OK.
Depois de editar o nome do índice, você deve preparar a tarefa. Caso contrário, suas alterações não serão aplicadas nas próximas execuções.
Configurações
Você pode visualizar e editar as configurações de um datamart de conhecimento.
Na página Tarefa de dados, clique em > Configurações.
Configurações | Descrição |
Conexão de origem | A conexão de origem. |
Armazenar vetores em | Na lista suspensa, selecione:
|
Conexão de banco de dados vetorial Essa configuração está disponível quando Banco de dados vetorial externo é selecionado para Armazenar vetores em. | A conexão de banco de dados vetorial. Para obter mais informações, consulte Conectando-se a bancos de dados vetoriais. |
Conexão LLM | A conexão LLM. Para obter mais informações, consulte Conectando-se a conexões LLM. Quando você quiser usar o Databricks como uma conexão LLM, configure o Endpoint de serviço do modelo de incorporação e o Endpoint de serviço do modelo de conclusão ao criar o datamart de conhecimento. Para obter mais informações, consulte a Documentação do Databricks. |
Configurações | Descrição |
Esquema da tarefa de dados | O nome do esquema da tarefa de dados. |
Esquema interno | O nome do esquema interno. |
Prefixo para todas as tabelas e visualizações | O prefixo para resolver conflitos entre múltiplas tarefas de dados. |
Configurações | Descrição |
Indexar esquema Esta configuração não estará disponível quando a opção Banco de dados vetorial externo estiver selecionada para Armazenar vetores em. | O nome do esquema de índice. |
Nome do índice | O nome do índice. |
Se o índice já existir | Quando várias tarefas estiverem gravando no mesmo índice, selecione se o índice deve ser excluído ou não:
|
Configurações | Descrição |
Execução paralela | O número máximo de conexões com o banco de dados. Digite um valor de 1 a 50. |
Tamanho em massa | Para datamarts de conhecimento, o tamanho do volume é o número de documentos carregados em cada solicitação de volume. Para datamarts de conhecimento baseados em arquivos, o tamanho do lote é o número de arquivos carregados em cada solicitação em massa. No Snowflake, o tamanho em massa não é necessário, pois tudo é carregado em uma única consulta. |
Número máximo de registros para carregar | 0 significa que todos os registros são carregados. |
Configurações | Descrição |
Visualizações padrão | Use exibições padrão para exibir os resultados de uma consulta como se fosse uma tabela. |
Exibições seguras do Snowflake | Use as visualizações seguras do Snowflake para visualizações designadas para privacidade de dados ou proteção de informações confidenciais, como visualizações criadas para limitar o acesso a dados confidenciais que não devem ser expostos a todos os usuários das tabelas subjacentes. As visualizações seguras do Snowflake podem ser executadas mais lentamente do que as visualizações padrão. |
Configurações | Descrição |
Número de documentos no contexto | O número de documentos relevantes que serão passados para o modelo como contexto. |
Modelo de prompt | Digite o modelo que a IA deve seguir para filtrar os documentos a serem incluídos. |
Filtrar | Digite a expressão para filtrar os documentos a serem incluídos. Como o filtro se baseia nos metadados e os datamarts de conhecimento baseados em arquivos não têm metadados, pense cuidadosamente no filtro que você está configurando. Pode ser mais relevante excluir dados em vez de incluí-los. Para obter mais informações, consulte Usando o assistente de teste. |
Recuperação do documento | Selecione a opção na lista suspensa:
|
Geração de respostas | Selecione a opção na lista suspensa:
|