Ir para conteúdo principal Pular para conteúdo complementar

Integrando dados

A primeira etapa da criação de um pipeline de dados em um projeto do Qlik Talend Data Integration é a integração dos dados. Isso envolve a transferência de dados da fonte de dados e o armazenamento de conjuntos de dados em formato otimizado para leitura. Você pode atualizar os dados com tratamento contínuo de alterações ou usar carregamentos programados.

Você cria a integração em uma única operação, mas ela é realizada em duas etapas.

  • Aterrisando os dados

    Isso envolve a transferência de dados continuamente da fonte de dados local para uma área de aterrissagem usando uma tarefa de dados de aterrissagem.

    Aterrissagem de dados de fontes de dados

  • Armazenando conjuntos de dados

    Isso envolve a leitura da carga inicial de dados de aterrissagem ou cargas incrementais e a aplicação dos dados em formato otimizado para leitura usando uma tarefa de dados de armazenamento.

    Armazenando conjuntos de dados

Depois de integrar os dados, você poderá usar os conjuntos de dados armazenados de várias maneiras.

  • Você pode usar os conjuntos de dados em um aplicativo de análise.

  • Você pode criar transformações.

  • Você pode criar um datamart.

Integrar dados

Você inicia a integração de dados em um projeto. Os conjuntos de dados serão armazenados no armazém de dados na nuvem definido no projeto. Para obter mais informações sobre projetos, consulte Criando um pipeline de dados.

  1. No seu projeto, clique em Adicionar novo e depois em Integrar dados.

    Nota de dicaVocê também pode clicar em em uma fonte existente no projeto e, em seguida, clicar em Integrar dados.
  2. Adicione Nome e Descrição para a integração.

    Clique em Avançar.

  3. Selecione a conexão de origem.

    Você pode selecionar uma conexão de origem existente ou criar uma nova conexão com a origem.

    Para obter mais informações, consulte Configurando conexões com fontes de dados.

    Clique em Avançar.

  4. Selecionar dados para carregar.

    Para obter mais informações, consulte Selecionando dados.

    Clique em Avançar.

    A opção Configurações é exibida, na qual você pode selecionar o método de atualização e as configurações do histórico.

  5. Selecione qual método usar para atualizar dados em Método de atualização:

    • Captura de dados de alterações (CDC)

      Se os seus dados também contiverem tabelas que não suportam CDC ou visualizações, dois pipelines de dados serão criados. Um pipeline com todas as tabelas compatíveis com CDC e outro pipeline com todas as outras tabelas e exibições usando a opção Recarregar e comparar.

    • Recarregar e comparar

  6. Selecione se deseja replicar o histórico de dados anteriores além dos dados atuais no Histórico.

    Clique em Avançar quando estiver pronto.

  7. Se você não estiver usando o Data Movement gateway para acessar sua fonte de dados, a seguinte seção será exibida nas configurações:

    • Replicar dados a cada: Você pode agendar a frequência de captura de alterações da fonte de dados e definir uma Hora de início e uma Data de início. Se os conjuntos de dados de origem forem compatíveis com CDC (Captura de dados de alterações), apenas as alterações nos dados de origem serão replicadas e aplicadas às tabelas de destino correspondentes. Se os conjuntos de dados de origem não forem compatíveis com CDC (por exemplo, Visualizações), as alterações serão aplicadas recarregando todos os dados de origem nas tabelas de destino correspondentes. Se alguns dos conjuntos de dados de origem forem compatíveis com CDC e outros não, duas subtarefas separadas serão criadas: uma para recarregar os conjuntos de dados que não são compatíveis com CDC e outra para capturar as alterações nos conjuntos de dados que são compatíveis com CDC.

      O assistente de configuração de integração permite agendar um intervalo de hora em hora. Depois de concluir o assistente de integração, você poderá explorar diferentes opções de agendamento, conforme descrito em Agendando tarefas ao trabalhar sem o Data Movement gateway.

    Para obter informações sobre os intervalos mínimos de agendamento de acordo com o tipo de fonte de dados e o nível de assinatura, consulte Intervalos mínimos de agendamento permitidos.

  8. Visualize as tarefas de dados criadas para integrar dados e renomeie-as, se preferir.

    Nota de dicaOs nomes são usados ao nomear esquemas de banco de dados no ativo de dados de armazenamento. Como um esquema só pode ser associado a uma tarefa, considere usar nomes exclusivos para evitar conflitos com ativos de dados em outros projetos usando a mesma plataforma de dados.
  9. Selecione se deseja abrir qualquer uma das tarefas de dados criadas ou retornar ao projeto.

    Quando estiver pronto, clique em Concluir.

As tarefas de dados de integração foram criadas agora. Para começar a replicar dados, você precisa:

Selecionando dados

Você pode selecionar tabelas ou exibições específicas ou usar regras de seleção para incluir ou excluir grupos de tabelas.

Nota informativaSe a seleção incluir exibições, o CDC não terá suporte.

Use % como curinga para definir um critério de seleção para esquemas e tabelas.

  • %.% define todas as tabelas em todos os esquemas.

  • Public.% define todas as tabelas no esquema Público.

Critérios de seleção fornece uma visualização com base em suas seleções.

Agora você pode:

  • Crie uma regra para incluir ou excluir um grupo de tabelas com base nos critérios de seleção.

    Clique em Adicionar regra dos critérios de seleção para criar uma regra e selecione Incluir ou Excluir.

    Você pode ver a regra em Regras de seleção.

  • Selecione um ou mais conjuntos de dados e clique em Adicionar conjuntos de dados selecionados.

    Você pode ver os conjuntos de dados adicionados em Conjuntos de dados explicitamente selecionados.

As regras de seleção se aplicam apenas ao conjunto atual de tabelas e exibições, não a tabelas e exibições que são adicionadas no futuro.

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!