Criando um datamart de conhecimento
Datamarts de conhecimento permitem incorporar e armazenar seus dados estruturados em um banco de dados vetorial. Isso permite que o contexto aumentado seja recuperado com recursos de pesquisa semântica para ser usado como um contexto para aplicativos de geração aumentada de recuperação (RAG, Retrieval Augmented Generation).
A saída está no formato JSON.
Requisitos
-
Você precisa de uma assinatura do Qlik Talend Cloud Enterprise.
-
Compatível com as plataformas Snowflake e Databricks. O Snowflake Iceberg não é compatível.
-
É necessário um gateway de dados gerenciado pelo cliente.
O Databricks requer o Qlik Data Gateway - Movimentação de dados versão 2024.11.95 ou superior.
Instalando o Qlik Data Gateway - Movimentação de dados
Antes de criar um datamart de conhecimento, você deve instalar um Qlik Data Gateway - Movimentação de dados específico. Para obter mais informações, consulte Configurando o Qlik Data Gateway - Movimentação de dados para datamarts de conhecimento.
Conexões com suporte
Para obter informações sobre o suporte:
- Bancos de dados vetoriais, consulte Conectando-se a bancos de dados vetoriais.
- Conexões LLM; consulte Conectando-se a conexões LLM.
- Armazenamento de arquivo; consulte Conectando ao armazenamento de arquivos.
Criando os dados
- Clique em Projetos no menu esquerdo e abra um projeto.
- Na página Projeto, você pode gerar e publicar documentos em um banco de dados vetorial. Fazendo o seguinte:
- Clique em Criar novo > Datamart de conhecimento.
- Clique em
da tarefa de dados > Datamart de conhecimento.
A janela de configuração é exibida.
- Insira um nome.
- Insira uma descrição. Isso é opcional.
- Selecione onde armazenar os documentos na lista suspensa Armazenar vetores em. Para armazenar os documentos com o projeto, selecione Plataforma do projeto de dados.
- Se você selecionou Banco de dados vetorial externo, crie ou selecione uma Conexão de banco de dados vetorial. Os documentos e os vetores serão armazenados nesse banco de dados de vetores.
- Crie ou selecione uma Conexão LLM. Essa conexão é necessária para usar a pesquisa semântica.
- Clique em Criar.
- Quando os dados forem criados, adicione documentos.
Adicionando documentos
- Na guia Conjuntos de dados da página Tarefa de dados, clique em Adicionar no painel esquerdo.
- Selecione o conjunto de dados de base a partir do qual o documento será gerado. Será criado um documento para cada registro. Por exemplo, para uma lista de pacientes, será criado um documento para cada paciente.
- O campo Nome do esquema do documento é preenchido previamente com o nome do conjunto de dados base selecionado. Renomeie-o, se necessário.
- Insira uma descrição. Isso é opcional.
- Selecione os dados que você deseja incluir para enriquecer o documento.
- Clique em OK. Você volta à guia Esquemas de documentos.
- Selecione a guia Conjuntos de dados.
- No painel esquerdo, selecione o conjunto de dados que você escolheu como conjunto de dados de base anteriormente.
- Para remover os dados que você não deseja incluir nos documentos, marque a caixa de seleção e clique em Remover.
- Para melhorar a pesquisa semântica realizada pelo LLM, renomeie os dados cujos nomes não estejam suficientemente claros.
Exemplo: Renomear dt para date.
- Quando você tiver removido e renomeado os dados conforme necessário, clique em
à direita > Preparar. Os documentos estão sendo gerados no formato JSON. - Quando os documentos forem gerados:
- Selecione a guia Conjuntos de dados.
- Para verificar seus documentos antes de executar a tarefa, clique em Exibir dados para exibir uma amostra de dados.
- Clique em Executar. Os documentos estão sendo transferidos para o banco de dados vetorial ou para a plataforma de dados, dependendo da configuração.
A transferência é concluída quando o botão Executar estiver ativo.
Para ter certeza de que tudo foi transferido, você pode fazer perguntas sobre seus dados. Para obter mais informações, consulte Usando o assistente de teste.
Carregamento total e Change Data Capture (CDC)
Há suporte para carregamento total e CDC.
Carregamento total: um documento é gerado para cada instância de documento e será enviado ao destino.
CDC: um documento é gerado novamente após qualquer alteração na base ou na entidade relacionada.
Um novo documento é criado quando uma entrada é adicionada à entidade base. Se nenhuma entrada nas entidades relacionadas puder ser conectada a uma entidade de base, elas não aparecerão nos documentos.
Atualizando os dados de entrada
Ao atualizar os dados de entrada, você deve executar a tarefa de dados para transferir as alterações para o banco de dados vetorial ou para a plataforma de dados.
Nome do índice
Cada datamart de conhecimento tem um nome de índice que é usado para a pesquisa semântica.
Ao configurar tarefas para gravar no mesmo índice, você deve configurar os mesmos parâmetros LLM para as tarefas.
Se você quiser que seus documentos estejam no mesmo índice, eles devem ter o mesmo nome de índice.
Para editar o nome do índice:
- Na página Tarefa de dados, clique em Configurações.
- Selecione a guia Configurações do banco de dados vetorial.
- Edite o Nome do índice.
- Clique em OK.
Configurações
Você pode visualizar e editar as configurações de um datamart de conhecimento.
Na página Tarefa de dados, clique em
> Configurações.
| Configurações | Descrição |
| Conexão de origem | A conexão de origem. |
| Armazenar vetores em | Na lista suspensa, selecione:
|
| Conexão de banco de dados vetorial Essa configuração está disponível quando Banco de dados vetorial externo é selecionado para Armazenar vetores em. | A conexão de banco de dados vetorial. Para obter mais informações, consulte Conectando-se a bancos de dados vetoriais. |
| Conexão LLM | A conexão LLM. Para obter mais informações, consulte Conectando-se a conexões LLM. Quando você quiser usar o Databricks como uma conexão LLM, configure o Endpoint de serviço do modelo de incorporação e o Endpoint de serviço do modelo de conclusão ao criar o datamart de conhecimento. Para obter mais informações, consulte a Documentação do Databricks. |
| Configurações | Descrição |
| Esquema da tarefa de dados | O nome do esquema da tarefa de dados. |
| Esquema interno | O nome do esquema interno. |
| Prefixo para todas as tabelas e visualizações | O prefixo para resolver conflitos entre múltiplas tarefas de dados. |
| Configurações | Descrição |
| Indexar esquema Esta configuração não estará disponível quando a opção Banco de dados vetorial externo estiver selecionada para Armazenar vetores em. | O nome do esquema de índice. |
| Nome do índice | O nome do índice. |
| Se o índice já existir | Quando várias tarefas estiverem gravando no mesmo índice, selecione se o índice deve ser excluído ou não:
|
| Endpoint de pesquisa vetorial do Databricks | O nome do endpoint de pesquisa vetorial criado no Databricks. Para obter mais informações, consulte Configurando o Databricks para datamarts de conhecimento . Nota informativaAplicável apenas a projetos que usam o Databricks como plataforma de dados. |
| Configurações | Descrição |
| Execução paralela | O número máximo de conexões com o banco de dados. Digite um valor de 1 a 50. |
| Tamanho em massa | Para datamarts de conhecimento, o tamanho do volume é o número de documentos carregados em cada solicitação de volume. Para datamarts de conhecimento baseados em arquivos, o tamanho do lote é o número de arquivos carregados em cada solicitação em massa. No Snowflake e no Databricks, o tamanho do lote não é necessário, pois tudo é carregado em uma única consulta. |
| Número máximo de registros para carregar | 0 significa que todos os registros são carregados. |
| Configurações | Descrição |
| Visualizações padrão | Use exibições padrão para exibir os resultados de uma consulta como se fosse uma tabela. |
| Exibições seguras do Snowflake | Use as visualizações seguras do Snowflake para visualizações designadas para privacidade de dados ou proteção de informações confidenciais, como visualizações criadas para limitar o acesso a dados confidenciais que não devem ser expostos a todos os usuários das tabelas subjacentes. As visualizações seguras do Snowflake podem ser executadas mais lentamente do que as visualizações padrão. |
| Configurações | Descrição |
| Número de documentos no contexto | O número de documentos relevantes que serão passados para o modelo como contexto. |
| Modelo de prompt | Digite o modelo que a IA deve seguir para filtrar os documentos a serem incluídos. |
| Filtrar | Digite a expressão para filtrar os documentos a serem incluídos. Como o filtro se baseia nos metadados e os datamarts de conhecimento baseados em arquivos não têm metadados, pense cuidadosamente no filtro que você está configurando. Pode ser mais relevante excluir dados em vez de incluí-los. Para obter mais informações, consulte Usando o assistente de teste. |
| Recuperação do documento | Selecione a opção na lista suspensa:
|
| Geração de respostas | Selecione a opção na lista suspensa:
|