Ir para conteúdo principal Pular para conteúdo complementar

Criando um pipeline de dados

Você pode criar um pipeline de dados para realizar toda a integração de dados em um projeto usando tarefas de dados. A integração move dados para o projeto a partir de fontes de dados que estão no local ou na nuvem e armazena os dados em conjuntos de dados prontos para consumo. Você também pode realizar transformações e criar datamarts para aproveitar seus ativos de dados gerados e transformados. O pipeline de dados pode ser simples e linear, ou pode ser um pipeline complexo que consome várias fontes de dados e gera muitas saídas.

Todas as tarefas de dados serão criadas no mesmo espaço do projeto ao qual pertencem.

Você também pode visualizar a linhagem para rastrear dados e transformações de dados de trás para frente até a fonte original e realizar análises de impacto que mostram a visão prospectiva e de downstream da tarefa de dados, conjunto de dados ou dependências de campo. Para obter mais informações, consulte Trabalhando com a análise de linhagem e de impacto no Integração de dados.

Integrando dados

Isso inclui aterrisar os dados em uma área de teste e, em seguida, armazenar os conjuntos de dados em um armazém de dados na nuvem. As tarefas de dados de aterrissagem e de armazenamento são criadas em uma única etapa. Se precisar, você também pode realizar a aterrisagem e o armazenamento com tarefas separadas.

Registrando dados que já estão na plataforma de dados

Registre dados que já existem na plataforma de dados para selecionar e transformar dados e criar datamarts. Isso permite que você use dados integrados a outras ferramentas além do Qlik Talend Data Integration, por exemplo, Qlik Replicate ou Stitch.

Transformando dados

Crie transformações reutilizáveis em nível de linha nos dados integrados com base em regras e SQL personalizado. Isso cria uma tarefa de transformação de dados.

Criando e gerenciando datamarts

Crie um datamart para aproveitar seus conjuntos de dados. Isso cria uma tarefa de dados de Datamart.

Plataformas de dados de destino

O projeto está associado a uma plataforma de dados usada como destino para todas as saídas.

Para obter mais informações sobre plataformas de dados compatíveis, consulte Configurando conexões com destinos.

Introdução em vídeo a projetos

Exemplo de criação de um projeto

O exemplo a seguir realiza a integração de dados, a transformação dos dados e a criação de um datamart. Isso criará um pipeline de dados linear simples que você poderá expandir integrando mais fontes de dados, criando mais transformações e adicionando as tarefas de dados geradas ao datamart.

Exemplo de um pipeline de dados linear em um projeto

  1. Em Integração de Dados > Projetos, clique em Criar projeto.

    1. Insira um nome e uma descrição para o projeto e selecione um espaço no qual criar o projeto. Todas as tarefas de dados serão criadas no espaço do projeto ao qual pertencem.

    2. Selecione Pipeline de dados em Caso de uso.
    3. Selecione qual plataforma de dados usar no projeto.

    4. Selecione uma conexão com o armazém de dados na nuvem que você deseja usar no projeto. Isso será usado para acessar arquivos de dados e armazenar conjuntos de dados e exibições. Se você ainda não preparou uma conexão, crie uma com Adicionar conexão.

      Se você selecionou o Google BigQuery, o Databricks ou o Microsoft Azure Synapse Analytics como plataforma de dados, também precisará se conectar a uma área de teste.

    5. Se você selecionou o Qlik Cloud como plataforma de dados:

      Você pode armazenar dados no armazenamento gerenciado da Qlik ou em seu próprio compartimento gerenciado do Amazon S3. Se você quiser usar seu próprio compartimento do Amazon S3, precisará selecionar uma conexão com esse compartimento.

      Em ambos os casos, você também precisa selecionar uma conexão com uma área de preparação do Amazon S3. Se você usar o mesmo compartimento que definiu na etapa anterior, certifique-se de usar outra pasta no compartimento para teste.

    6. Clique em Criar.

      O projeto é criado, e você pode criar seu pipeline de dados adicionando tarefas de dados.

  2. No projeto, clique em Adicionar novo e depois em Integrar dados.

    Para obter mais informações, consulte Integrando dados.

    Isso criará uma tarefa de dados de aterrisagem e uma tarefa de dados de armazenamento. Para começar a replicar dados, você precisa:

  3. Quando a tarefa de dados de armazenamento for criada, volte para o projeto. Agora, você pode realizar transformações nos conjuntos de dados criados.

    Clique em ... na tarefa de dados de armazenamento e selecione Transformar dados para criar uma tarefa de dados de transformação com base nessa tarefa de dados de armazenamento. Para obter instruções sobre transformações, consulte Transformando dados.

  4. Você pode criar um datamart com base em uma tarefa de dados de armazenamento ou em uma tarefa de dados de transformação.

    Clique em ... na tarefa de dados e selecione Criar datamart para criar uma tarefa de dados de datamart. Para obter instruções sobre como criar um datamart, consulte:

    Criando e gerenciando datamarts

Depois de realizar o primeiro carregamento total dos conjuntos de dados e datamarts armazenados e transformados, você pode usá-los em um aplicativo analítico, por exemplo. Para obter mais informações sobre a criação de aplicativos de análise, consulte Criando um aplicativo de análise com o uso de conjuntos de dados gerados pelo Qlik Talend Data Integration.

Você também pode expandir o pipeline de dados integrando mais fontes de dados e combiná-las na transformação ou no datamart.

Operações em um projeto

Você pode executar as mesmas operações que estão disponíveis para uma tarefa de dados como operações de projeto. Isso permite que você orquestre as operações no pipeline de dados.

Nota informativaVocê só pode executar uma operação de projeto por vez por projeto.
  • Ative e desative agendamentos

  • Executar operações de design

  • Iniciar e parar a execução de tarefas de dados

  • Excluir tarefas de dados

Clique em Operações para visualizar o status de uma operação em andamento ou a última operação executada.

Você pode interromper uma operação em andamento clicando em Parar operação. As tarefas de dados em andamento não serão interrompidas, mas cancelarão qualquer tarefa que ainda não tenha sido iniciada.

Ativando e desativando agendamentos

Você pode controlar os agendamentos para tarefas de dados no nível do projeto.

  • Clique em ... e em Agendar.

    Você pode ativar ou desativar o agendamento para todas as tarefas de dados ou para uma seleção de tarefas. Somente as tarefas com agendamento definido são exibidas.

    Nota informativaEsta opção não está disponível para projetos com o Qlik Cloud como plataforma de dados.

Para obter mais informações sobre como agendar tarefas de dados individuais, consulte:

Executando operações de design

Você pode executar operações de design em todas as tarefas de dados no projeto ou em uma seleção de tarefas. Isso facilita o controle das tarefas do conjunto de dados no projeto, em vez de executar as operações de design individualmente em cada tarefa.

  • Validar

    Clique em Validar para validar todas as tarefas ou uma seleção de tarefas. As tarefas de dados que foram alteradas desde a última operação de validação são pré-selecionadas.

    As tarefas de dados são validadas na ordem do pipeline.

  • Preparar

    Clique em Preparar para preparar todas as tarefas ou uma seleção de tarefas. As tarefas de dados que foram alteradas desde a última operação de preparação são pré-selecionadas.

    Você pode optar por recriar conjuntos de dados que requerem uma alteração de estrutura não suportada pela plataforma de dados. Isso pode levar a perda de dados.

  • Recriar

    Clique em ... e em Recriar para recriar os conjuntos de dados da origem para todas as tarefas ou para uma seleção de tarefas.

Executando tarefas de dados

Você pode iniciar a execução de todas as tarefas de dados no projeto ou em uma seleção de tarefas, em vez de executar tarefas individualmente. Por exemplo, você pode executar todas as tarefas com uma programação baseada em tempo. Isso iniciará tarefas downstream com uma programação baseada em eventos.

  • Executar

    Clique em Executar para iniciar a execução de todas as tarefas, ou uma seleção de tarefas. Isso inicia a execução de todas as tarefas selecionadas e é concluída assim que elas começam a ser executadas.

    Você pode selecionar todas as tarefas que estão prontas para serem executadas. Tarefas com agendamento baseado em tempo e tarefas que usam CDC são pré-selecionadas. As tarefas com programação baseada em eventos não são pré-selecionadas, pois serão executadas quando tiverem dados para processar.

    Em um projeto com o Qlik Cloud como plataforma de dados, todas as tarefas de pouso e armazenamento são pré-selecionadas.

    Nota informativaTodas as tarefas de dados são executadas em paralelo. Isso significa que as verificações de dependência podem impedir a execução de algumas tarefas.
  • Interromper

    Clique em Parar para interromper todas as tarefas ou uma seleção de tarefas.

    Você pode selecionar entre as tarefas que estão em execução.

Excluindo tarefas de dados

  • Clique em Excluir para excluir todas as tarefas de dados no projeto ou uma seleção de tarefas.

Alterando a exibição de um projeto

Há duas exibições diferentes de projetos. Você pode alternar entre essas exibições clicando em Exibição do pipeline.

  • A exibição do pipeline mostra o fluxo de dados das tarefas de dados.

    Você pode escolher a quantidade de informações a serem mostradas para as tarefas de dados clicando em Camadas. Ative ou desative as seguintes informações:

    • Status

    • Atualização de dados

    • Programação

  • A exibição de cartão mostra uma exibição de cartão com informações sobre a tarefa de dados.

    Você pode filtrar por tipo de ativo e proprietário.

Exibição de dados

Você pode visualizar uma amostra dos dados para ver e validar a forma dos seus dados enquanto projeta seu pipeline de dados.

As seguintes permissões são necessárias:

  • A visualização de dados está habilitada no nível do locatário no Administração.

    Ative Configurações > Controle de recursos > Visualizando dados no Integração de dados.

  • Você recebeu a função Pode visualizar dados no espaço onde reside a conexão.

  • Você recebeu a função Pode visualizar no espaço onde reside o projeto.

Para visualizar dados de amostra na exibição do pipeline de dados:

  1. Clique em Para cima no banner de visualização na parte inferior da exibição do pipeline.

  2. Selecione para qual tarefa de dados visualizar os dados.

Uma amostra dos dados é exibida. Você pode definir quantas linhas de dados incluir na amostra com Número de linhas.

Exportando e importando projetos

Você pode exportar um projeto para um arquivo JSON que contém tudo o que é necessário para reconstruir esse projeto. O arquivo JSON exportado pode ser importado no mesmo locatário ou em outro locatário. Você pode usar isso, por exemplo, para mover projetos de um locatário para outro ou para fazer cópias de backup de projetos.

Para obter mais informações, consulte Exportando e importando pipelines de dados.

Configurações do projeto

Você pode definir propriedades que são comuns ao projeto e a todas as tarefas de dados incluídas.

  • Clique em Configurações.

Para obter mais informações, consulte Configurações do projeto de pipeline de dados.

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!