Dados CDC
O processo de integração transfere dados de uma fonte CDC ou SaaS e os armazena em tabelas do Iceberg. As alterações das fontes de dados são continuamente aplicadas às tabelas de armazenamento em minilotes eficientes.
Integrar dados
Você inicia a integração de dados em um projeto. Os conjuntos de dados são armazenados no local S3 definido no projeto. Para obter mais informações sobre projetos, consulte Criando um projeto de pipeline de dados.
-
No seu projeto, clique em Criar e depois em Integrar dados.
Nota de dicaVocê também pode clicar emem uma fonte existente no projeto e, em seguida, clicar em Integrar dados.
-
Adicione Nome e Descrição para a integração.
Clique em Próximo.
-
Selecione a conexão de origem.
Você pode selecionar uma conexão de origem existente ou criar uma nova conexão com a origem.
Para obter mais informações, consulte Configurando conexões com fontes de dados.
Clique em Próximo.
-
Selecionar dados para carregar.
Para obter mais informações, consulte Selecionando dados.
Clique em Próximo.
A opção Configurações é exibida, na qual você pode selecionar o método de atualização e as configurações do histórico.
-
Selecione qual método usar para atualizar dados em Método de atualização:
-
Captura de dados de alteração (CDC)
Se seus dados contiverem tabelas que não oferecem suporte a CDC ou exibições, dois pipelines de dados serão criados: um pipeline com todas as tabelas que oferecem suporte a CDC e outro pipeline com todas as outras tabelas e exibições usando Recarregar e comparar.
-
Recarregar e comparar
-
-
Selecione se deseja replicar o histórico de dados anteriores além dos dados atuais no Histórico.
-
Clique em Avançar quando estiver pronto.
-
Visualize as tarefas de dados criadas para integrar dados e renomeie-as, se preferir.
Nota de dicaOs nomes são usados ao nomear esquemas de banco de dados na tarefa de armazenamento de dados. Considere usar nomes exclusivos para evitar conflitos com tarefas de dados em outros projetos que usam a mesma plataforma de dados. -
Selecione se deseja abrir qualquer uma das tarefas de dados criadas ou retornar ao projeto.
Quando estiver pronto, clique em Concluir.
-
As tarefas de dados de integração foram criadas agora. Para começar a replicar dados, você precisa:
-
Preparar e executar a tarefa de aterrisagem de dados.
Para obter mais informações, consulte Aterrissagem de dados de fontes de dados.
-
Preparar e executar a tarefa de armazenamento de dados.
Para obter mais informações, consulte Armazenando conjuntos de dados.
Selecionando dados
Você pode selecionar tabelas ou exibições específicas ou usar regras de seleção para incluir ou excluir grupos de tabelas.
Use % como curinga para definir um critério de seleção para esquemas e tabelas.
-
%.% define todas as tabelas em todos os esquemas.
-
Public.% define todas as tabelas no esquema Público.
Critérios de seleção fornece uma visualização com base em suas seleções.
Agora você pode:
-
Crie uma regra para incluir ou excluir um grupo de tabelas com base nos critérios de seleção.
Clique em Adicionar regra dos critérios de seleção para criar uma regra e selecione Incluir ou Excluir.
Você pode ver a regra em Regras de seleção.
-
Selecione um ou mais conjuntos de dados e clique em Adicionar conjuntos de dados selecionados.
Você pode ver os conjuntos de dados adicionados em Conjuntos de dados explicitamente selecionados.
As regras de seleção se aplicam apenas ao conjunto atual de tabelas e exibições, não a tabelas e exibições que são adicionadas no futuro.