Criação de um pipeline de dados em um projeto de dados
Você pode criar um pipeline de dados para realizar toda a integração de dados em um projeto de dados usando tarefas de dados. A integração move dados para o projeto a partir de fontes de dados que estão no local ou na nuvem e armazena os dados em conjuntos de dados prontos para consumo. Você também pode realizar transformações e criar datamarts para aproveitar seus ativos de dados gerados e transformados. O pipeline de dados pode ser simples e linear, ou pode ser um pipeline complexo que consome várias fontes de dados e gera muitas saídas.
Essas são as principais tarefas que você pode realizar em um projeto de dados. Você pode combiná-las como achar melhor.
-
Integrar os dados.
Isso inclui aterrisar os dados em uma área de teste e, em seguida, armazenar os conjuntos de dados em um armazém de dados na nuvem. As tarefas de dados de aterrissagem e de armazenamento são criadas em uma única etapa. Se precisar, você também pode realizar a aterrisagem e o armazenamento com tarefas separadas.
-
Registrar dados
Registre dados que já existem na plataforma de dados e gere conjuntos de dados em formato otimizado para leitura. Isso permite que você use dados integrados a outras ferramentas além do Qlik Cloud Data Integration, por exemplo, Qlik Replicate.
-
Transformar os dados integrados.
Crie transformações reutilizáveis em nível de linha com base em regras e SQL personalizado. Isso cria uma tarefa de transformação de dados.
-
Crie um datamart para aproveitar seus conjuntos de dados. Isso cria uma tarefa de dados de Datamart.
O projeto de dados está associado a uma plataforma de dados usada como destino para todas as saídas. As seguintes plataformas têm suporte:
-
Google BigQuery
-
Snowflake
-
Microsoft Azure Synapse Analytics
-
Databricks
-
Amazon Redshift
-
Qlik Cloud
O uso dessa plataforma requer dados de aterrisagem em um compartimento do Amazon S3. Você pode gerar tabelas QVD no armazenamento gerenciado do Qlik Cloud ou no armazenamento do Amazon S3 gerenciado por você.
Para obter mais informações sobre como se conectar a plataformas de dados, consulte Conectando-se a plataformas de dados em nuvem em seus projetos de dados
Todas as tarefas de dados serão criadas no mesmo espaço do projeto de dados ao qual pertencem.

Exemplo de criação de um projeto de dados
O exemplo a seguir realiza a integração de dados, a transformação dos dados e a criação de um datamart. Isso criará um pipeline de dados linear simples que você poderá expandir integrando mais fontes de dados, criando mais transformações e adicionando as tarefas de dados geradas ao datamart.
Exemplo de um pipeline de dados linear em um projeto de dados
-
Crie um novo projeto de dados.
Clique em Adicionar novo e depois em Criar projeto de dados na Página inicial do Qlik Cloud Data Integration.
-
Insira um nome e uma descrição para o projeto de dados e selecione um espaço no qual criar o projeto de dados. Todas as tarefas de dados serão criadas no espaço do projeto de dados ao qual pertencem.
-
Selecione qual plataforma de dados usar no projeto.
-
Selecione uma conexão de dados com o armazém de dados na nuvem que você deseja usar no projeto. Isso será usado para acessar arquivos de dados e armazenar conjuntos de dados e exibições. Se você ainda não preparou uma conexão de dados, crie uma com Adicionar conexão.
Se você selecionou o Google BigQuery, o Databricks ou o Microsoft Azure Synapse Analytics como plataforma de dados, também precisará se conectar a uma área de teste.
-
Se você selecionou o Qlik Cloud como plataforma de dados:
Você pode armazenar dados no armazenamento gerenciado da Qlik ou em seu próprio compartimento gerenciado do Amazon S3. Se você quiser usar seu próprio compartimento do Amazon S3, precisará selecionar uma conexão de dados com esse compartimento.
Em ambos os casos, você também precisa selecionar uma conexão de dados com uma área de preparação do Amazon S3. Se você usar o mesmo compartimento que definiu na etapa anterior, certifique-se de usar outra pasta no compartimento para teste.
-
Clique em Criar.
O projeto de dados é criado, e você pode criar seu pipeline de dados adicionando tarefas de dados.
-
-
Integrar os dados
Clique em Adicionar novo e depois em Integrar dados.
Para obter mais informações, consulte Integrando dados.
Isso criará uma tarefa de dados de aterrisagem e uma tarefa de dados de armazenamento. Para começar a replicar dados, você precisa:
-
Preparar e executar a tarefa de dados de aterrisagem.
Para obter mais informações, consulte Aterrissagem de dados de fontes de dados.
-
Preparar e executar a tarefa de dados de armazenamento.
Para obter mais informações, consulte Gerando e armazenando conjuntos de dados
-
-
Transformando os dados
Quando a tarefa de dados de armazenamento for criada, volte para o projeto de dados. Agora, você pode realizar transformações nos conjuntos de dados criados.
Clique em ... na tarefa de dados de armazenamento e selecione Transformar dados para criar uma tarefa de dados de transformação com base nessa tarefa de dados de armazenamento. Para obter instruções sobre transformações, consulte Transformando dados.
-
Criando um datamart
Você pode criar um datamart com base em uma tarefa de dados de armazenamento ou em uma tarefa de dados de transformação.
Clique em ... na tarefa de dados e selecione Criar datamart para criar uma tarefa de dados de datamart. Para obter instruções sobre como criar um datamart, consulte:
Depois de realizar o primeiro carregamento total dos conjuntos de dados e datamarts armazenados e transformados, você pode usá-los em um aplicativo analítico, por exemplo. Para obter mais informações sobre a criação de aplicativos de análise, consulte Criando um aplicativo de análise com o uso de conjuntos de dados gerados pelo Qlik Cloud Data Integration.
Você também pode expandir o pipeline de dados integrando mais fontes de dados e combiná-las na transformação ou no datamart.
Agendando tarefas de dados em um projeto de dados
É possível programar tarefas de dados para orquestrar o pipeline de dados. Você pode usar uma programação baseada no tempo ou usar a programação baseada em eventos para permitir que os dados fluam pelo pipeline de dados à medida que se tornam disponíveis.
Para obter mais informações sobre como agendar tarefas de dados individuais, consulte:
Alterando a exibição de um projeto de dados
Há duas exibições diferentes de projetos de dados. Você pode alternar entre essas exibições clicando em Exibição do pipeline.
-
A exibição do pipeline mostra o fluxo de dados das tarefas de dados.
Você pode escolher a quantidade de informações a serem mostradas para as tarefas de dados clicando em Camadas. Ative ou desative as seguintes informações:
-
Status
-
Atualização de dados
-
Programação
-
-
A exibição de cartão mostra uma exibição de cartão com informações sobre a tarefa de dados.
Você pode filtrar por tipo de ativo e proprietário.
Exportando e importando projetos de dados
Você pode exportar um projeto de dados para um arquivo JSON que contém tudo o que é necessário para reconstruir esse projeto. O arquivo JSON exportado pode ser importado no mesmo locatário ou em outro locatário. Você pode usar isso, por exemplo, para mover projetos de dados de um locatário para outro ou para fazer cópias de backup de projetos de dados.
Para obter mais informações, consulte Exportando e importando projetos de dados.
Configurações do projeto de dados
Você pode definir propriedades que são comuns ao projeto e a todas as tarefas de dados incluídas.
-
Clique em Configurações.
Para obter mais informações, consulte Configurações do projeto de dados.