Ir para conteúdo principal Pular para conteúdo complementar

Criando um pipeline de dados

Você pode criar um pipeline de dados para realizar toda a integração de dados em um projeto de dados usando tarefas de dados. A integração move dados para o projeto a partir de fontes de dados que estão no local ou na nuvem e armazena os dados em conjuntos de dados prontos para consumo. Você também pode realizar transformações e criar datamarts para aproveitar seus ativos de dados gerados e transformados. O pipeline de dados pode ser simples e linear, ou pode ser um pipeline complexo que consome várias fontes de dados e gera muitas saídas.

Todas as tarefas de dados serão criadas no mesmo espaço do projeto de dados ao qual pertencem.

Você também pode visualizar a linhagem para rastrear dados e transformações de dados de trás para frente até a fonte original e realizar análises de impacto que mostram a visão prospectiva e de downstream da tarefa de dados, conjunto de dados ou dependências de campo. Para obter mais informações, consulte Trabalhando com a análise de linhagem e de impacto no Integração de dados.

Integrando dados

Isso inclui aterrisar os dados em uma área de teste e, em seguida, armazenar os conjuntos de dados em um armazém de dados na nuvem. As tarefas de dados de aterrissagem e de armazenamento são criadas em uma única etapa. Se precisar, você também pode realizar a aterrisagem e o armazenamento com tarefas separadas.

Registrando dados que já estão na plataforma de dados

Registre dados que já existem na plataforma de dados para selecionar e transformar dados e criar datamarts. Isso permite que você use dados integrados a outras ferramentas além do Qlik Cloud Data Integration, por exemplo, Qlik Replicate ou Stitch.

Transformando dados

Crie transformações reutilizáveis em nível de linha nos dados integrados com base em regras e SQL personalizado. Isso cria uma tarefa de transformação de dados.

Criando e gerenciando datamarts

Crie um datamart para aproveitar seus conjuntos de dados. Isso cria uma tarefa de dados de Datamart.

Plataformas de dados de destino

O projeto de dados está associado a uma plataforma de dados usada como destino para todas as saídas.

Para obter mais informações sobre plataformas de dados compatíveis, consulte Conectando a alvos.

Introdução em vídeo a projetos de dados

Exemplo de criação de um projeto de dados

O exemplo a seguir realiza a integração de dados, a transformação dos dados e a criação de um datamart. Isso criará um pipeline de dados linear simples que você poderá expandir integrando mais fontes de dados, criando mais transformações e adicionando as tarefas de dados geradas ao datamart.

Exemplo de um pipeline de dados linear em um projeto de dados

  1. Clique em Adicionar novo e depois em Criar projeto de dados na Página inicial do Qlik Cloud Data Integration.

    1. Insira um nome e uma descrição para o projeto de dados e selecione um espaço no qual criar o projeto de dados. Todas as tarefas de dados serão criadas no espaço do projeto de dados ao qual pertencem.

    2. Selecione Pipeline de dados em Caso de uso.
    3. Selecione qual plataforma de dados usar no projeto.

    4. Selecione uma conexão de dados com o armazém de dados na nuvem que você deseja usar no projeto. Isso será usado para acessar arquivos de dados e armazenar conjuntos de dados e exibições. Se você ainda não preparou uma conexão de dados, crie uma com Adicionar conexão.

      Se você selecionou o Google BigQuery, o Databricks ou o Microsoft Azure Synapse Analytics como plataforma de dados, também precisará se conectar a uma área de teste.

    5. Se você selecionou o Qlik Cloud como plataforma de dados:

      Você pode armazenar dados no armazenamento gerenciado da Qlik ou em seu próprio compartimento gerenciado do Amazon S3. Se você quiser usar seu próprio compartimento do Amazon S3, precisará selecionar uma conexão de dados com esse compartimento.

      Em ambos os casos, você também precisa selecionar uma conexão de dados com uma área de preparação do Amazon S3. Se você usar o mesmo compartimento que definiu na etapa anterior, certifique-se de usar outra pasta no compartimento para teste.

    6. Clique em Criar.

      O projeto de dados é criado, e você pode criar seu pipeline de dados adicionando tarefas de dados.

  2. Clique em Adicionar novo e depois em Integrar dados.

    Para obter mais informações, consulte Integrando dados.

    Isso criará uma tarefa de dados de aterrisagem e uma tarefa de dados de armazenamento. Para começar a replicar dados, você precisa:

  3. Quando a tarefa de dados de armazenamento for criada, volte para o projeto de dados. Agora, você pode realizar transformações nos conjuntos de dados criados.

    Clique em ... na tarefa de dados de armazenamento e selecione Transformar dados para criar uma tarefa de dados de transformação com base nessa tarefa de dados de armazenamento. Para obter instruções sobre transformações, consulte Transformando dados.

  4. Você pode criar um datamart com base em uma tarefa de dados de armazenamento ou em uma tarefa de dados de transformação.

    Clique em ... na tarefa de dados e selecione Criar datamart para criar uma tarefa de dados de datamart. Para obter instruções sobre como criar um datamart, consulte:

    Criando e gerenciando datamarts

Depois de realizar o primeiro carregamento total dos conjuntos de dados e datamarts armazenados e transformados, você pode usá-los em um aplicativo analítico, por exemplo. Para obter mais informações sobre a criação de aplicativos de análise, consulte Criando um aplicativo de análise com o uso de conjuntos de dados gerados pelo Qlik Cloud Data Integration.

Você também pode expandir o pipeline de dados integrando mais fontes de dados e combiná-las na transformação ou no datamart.

Operações em um projeto de dados

Você pode executar as mesmas operações que estão disponíveis para uma tarefa de dados como operações de projeto de dados. Isso permite que você orquestre as operações no pipeline de dados.

Nota informativaVocê só pode executar uma operação de projeto de dados por vez por projeto de dados.
  • Ative e desative agendamentos

  • Executar operações de design

  • Iniciar e parar a execução de tarefas de dados

  • Excluir tarefas de dados

Clique em Operações para visualizar o status de uma operação em andamento ou a última operação executada.

Você pode interromper uma operação em andamento clicando em Parar operação. As tarefas de dados em andamento não serão interrompidas, mas cancelarão qualquer tarefa que ainda não tenha sido iniciada.

Ativando e desativando agendamentos

Você pode controlar os agendamentos para tarefas de dados no nível do projeto.

  • Clique em ... e em Agendar.

    Você pode ativar ou desativar o agendamento para todas as tarefas de dados ou para uma seleção de tarefas. Somente as tarefas com agendamento definido são exibidas.

    Nota informativaEsta opção não está disponível para projetos de dados com o Qlik Cloud como plataforma de dados.

Para obter mais informações sobre como agendar tarefas de dados individuais, consulte:

Executando operações de design

Você pode executar operações de design em todas as tarefas de dados no projeto de dados ou em uma seleção de tarefas. Isso facilita o controle das tarefas do conjunto de dados no projeto de dados, em vez de executar as operações de design individualmente em cada tarefa.

  • Validar

    Clique em Validar para validar todas as tarefas ou uma seleção de tarefas. As tarefas de dados que foram alteradas desde a última operação de validação são pré-selecionadas.

    As tarefas de dados são validadas na ordem do pipeline.

  • Preparar

    Clique em Preparar para preparar todas as tarefas ou uma seleção de tarefas. As tarefas de dados que foram alteradas desde a última operação de preparação são pré-selecionadas.

    Você pode optar por recriar conjuntos de dados que requerem uma alteração de estrutura não suportada pela plataforma de dados. Isso pode levar a perda de dados.

  • Recriar

    Clique em ... e em Recriar para recriar os conjuntos de dados da origem para todas as tarefas ou para uma seleção de tarefas.

Executando tarefas de dados

Você pode iniciar a execução de todas as tarefas de dados no projeto de dados ou em uma seleção de tarefas, em vez de executar tarefas individualmente. Por exemplo, você pode executar todas as tarefas com uma programação baseada em tempo. Isso iniciará tarefas downstream com uma programação baseada em eventos.

  • Executar

    Clique em Executar para iniciar a execução de todas as tarefas, ou uma seleção de tarefas. Isso inicia a execução de todas as tarefas selecionadas e é concluída assim que elas começam a ser executadas.

    Você pode selecionar todas as tarefas que estão prontas para serem executadas. Tarefas com agendamento baseado em tempo e tarefas que usam CDC são pré-selecionadas. As tarefas com programação baseada em eventos não são pré-selecionadas, pois serão executadas quando tiverem dados para processar.

    Em um projeto com o Qlik Cloud como plataforma de dados, todas as tarefas de pouso e armazenamento são pré-selecionadas.

    Nota informativaTodas as tarefas de dados são executadas em paralelo. Isso significa que as verificações de dependência podem impedir a execução de algumas tarefas.
  • Interromper

    Clique em Parar para interromper todas as tarefas ou uma seleção de tarefas.

    Você pode selecionar entre as tarefas que estão em execução.

Excluindo tarefas de dados

  • Clique em Excluir para excluir todas as tarefas de dados no projeto de dados ou uma seleção de tarefas.

Alterando a exibição de um projeto de dados

Há duas exibições diferentes de projetos de dados. Você pode alternar entre essas exibições clicando em Exibição do pipeline.

  • A exibição do pipeline mostra o fluxo de dados das tarefas de dados.

    Você pode escolher a quantidade de informações a serem mostradas para as tarefas de dados clicando em Camadas. Ative ou desative as seguintes informações:

    • Status

    • Atualização de dados

    • Programação

  • A exibição de cartão mostra uma exibição de cartão com informações sobre a tarefa de dados.

    Você pode filtrar por tipo de ativo e proprietário.

Exportando e importando projetos de dados

Você pode exportar um projeto de dados para um arquivo JSON que contém tudo o que é necessário para reconstruir esse projeto. O arquivo JSON exportado pode ser importado no mesmo locatário ou em outro locatário. Você pode usar isso, por exemplo, para mover projetos de dados de um locatário para outro ou para fazer cópias de backup de projetos de dados.

Para obter mais informações, consulte Exportando e importando pipelines de dados.

Configurações do projeto de dados

Você pode definir propriedades que são comuns ao projeto e a todas as tarefas de dados incluídas.

  • Clique em Configurações.

Para obter mais informações, consulte Configurações do projeto de dados.

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!