Integrando dados

A primeira etapa da criação de um pipeline de dados em um projeto do Qlik Open Lakehouse é a integração dos dados. Esse processo envolve a transferência de dados da fonte e o armazenamento de conjuntos de dados em tabelas do Iceberg otimizadas. As alterações das fontes de dados são continuamente aplicadas às tabelas de armazenamento em minilotes eficientes.

A integração é criada em uma única operação, mas realizada em duas etapas.

Aterrisando os dados

Isso envolve a transferência de dados continuamente da fonte de dados local para uma área de aterrissagem usando uma tarefa de dados de aterrissagem.

Aterrissagem de dados de fontes de dados

Você também pode armazenar dados em um lakehouse, onde eles são armazenados em um armazenamento de arquivos S3.

Aterrisando dados para o Qlik Open Lakehouse
Armazenando conjuntos de dados

Isso envolve a leitura da carga inicial de dados de aterrissagem ou cargas incrementais e a aplicação dos dados em formato otimizado para leitura usando uma tarefa de armazenamento de dados.

Armazenando conjuntos de dados

Depois de integrar os dados, você poderá usar os conjuntos de dados armazenados de várias maneiras.

Você pode usar os conjuntos de dados em um aplicativo de análise.
Você pode espelhar dados no Redshift ou Snowflake adicionando uma tarefa de espelhamento de dados diretamente à tarefa de armazenamento de dados.
Você pode transformar dados no Redshift ou Snowflake criando um pipeline entre projetos que consome dados do seu projeto de integração.

Integrar dados

Você inicia a integração de dados em um projeto. Os conjuntos de dados são armazenados no local S3 definido no projeto. Para obter mais informações sobre projetos, consulte Criando um projeto de pipeline de dados.

No seu projeto, clique em Criar e depois em Integrar dados.

Nota de dicaVocê também pode clicar em em uma fonte existente no projeto e, em seguida, clicar em Integrar dados.
Adicione Nome e Descrição para a integração.

Clique em Próximo.
Selecione a conexão de origem.

Você pode selecionar uma conexão de origem existente ou criar uma nova conexão com a origem.

Para obter mais informações, consulte Configurando conexões com fontes de dados.

Clique em Próximo.
Selecionar dados para carregar.

Para obter mais informações, consulte Selecionando dados.

Clique em Próximo.

A opção Configurações é exibida, na qual você pode selecionar o método de atualização e as configurações do histórico.
Selecione qual método usar para atualizar dados em Método de atualização:
- Captura de dados de alteração (CDC)
  
  Se seus dados contiverem tabelas que não oferecem suporte a CDC ou exibições, dois pipelines de dados serão criados: um pipeline com todas as tabelas que oferecem suporte a CDC e outro pipeline com todas as outras tabelas e exibições usando Recarregar e comparar.
- Recarregar e comparar
Selecione se deseja replicar o histórico de dados anteriores além dos dados atuais no Histórico.
Clique em Avançar quando estiver pronto.
Visualize as tarefas de dados criadas para integrar dados e renomeie-as, se preferir.

Nota de dicaOs nomes são usados ao nomear esquemas de banco de dados na tarefa de armazenamento de dados. Considere usar nomes exclusivos para evitar conflitos com tarefas de dados em outros projetos que usam a mesma plataforma de dados.
Selecione se deseja abrir qualquer uma das tarefas de dados criadas ou retornar ao projeto.

Quando estiver pronto, clique em Concluir.
As tarefas de dados de integração foram criadas agora. Para começar a replicar dados, você precisa:
Preparar e executar a tarefa de aterrisagem de dados.

Para obter mais informações, consulte Aterrissagem de dados de fontes de dados.
Preparar e executar a tarefa de armazenamento de dados.

Para obter mais informações, consulte Armazenando conjuntos de dados.

Selecionando dados

Você pode selecionar tabelas ou exibições específicas ou usar regras de seleção para incluir ou excluir grupos de tabelas.

Se a seleção incluir exibições, o CDC não terá suporte.

Use % como curinga para definir um critério de seleção para esquemas e tabelas.

%.% define todas as tabelas em todos os esquemas.
Public.% define todas as tabelas no esquema Público.

Critérios de seleção fornece uma visualização com base em suas seleções.

Agora você pode:

Crie uma regra para incluir ou excluir um grupo de tabelas com base nos critérios de seleção.

Clique em Adicionar regra dos critérios de seleção para criar uma regra e selecione Incluir ou Excluir.

Você pode ver a regra em Regras de seleção.
Selecione um ou mais conjuntos de dados e clique em Adicionar conjuntos de dados selecionados.

Você pode ver os conjuntos de dados adicionados em Conjuntos de dados explicitamente selecionados.

As regras de seleção se aplicam apenas ao conjunto atual de tabelas e exibições, não a tabelas e exibições que são adicionadas no futuro.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui