Ir para conteúdo principal Pular para conteúdo complementar

Transformando dados

Você pode criar transformações de dados reutilizáveis e baseadas em regras como parte de seu pipeline de dados. Você pode realizar transformações como parte de sua integração de dados ou criar tarefas de dados de transformação reutilizáveis. Você pode realizar transformações em nível de linha e criar conjuntos de dados que são materializados como tabelas ou criados como exibições que realizam transformações em tempo real.

  • Você pode realizar transformações explícitas por conjunto de dados ou criar regras globais que transformam vários conjuntos de dados. Você também pode filtrar um conjunto de dados para criar um subconjunto de linhas.

  • Você pode adicionar transformações SQL.

Nota informativaAs tarefas de dados operam no contexto de seu proprietário. Para obter mais informações sobre funções e permissões necessárias, consulte Funções e permissões do espaço de dados.

Criando uma tarefa de dados de transformação

A maneira mais fácil de criar uma tarefa de dados de transformação é clicar em ... em uma tarefa de armazenamento de dados e, em seguida, selecionar Transformar dados.

Você também pode clicar em Adicionar novo em um projeto de dados e selecionar Transformar dados. Nesse caso, você precisa definir qual tarefa de dados de origem usar.

  1. Defina seus dados de origem em Transformar conjunto de dados.

    Selecione os conjuntos de dados de origem e clique em Adicionar para adicioná-los a Destino.

    Você pode adicionar uma transformação SQL selecionando um conjunto de dados e clicando em Adicionar conjunto de dados baseado em SQL.

    Adicionando transformações SQL

    Nota de dicaVocê também pode adicionar mais conjuntos de dados de outros ativos de dados de armazenamento clicando em Selecionar dados de origem.
  2. Faça todas as alterações necessárias nos conjuntos de dados incluídos, como transformações, filtragem de dados ou adição de colunas.

    Para obter mais informações, consulte Gerenciando conjuntos de dados.

  3. Depois de adicionar as transformações desejadas, valide os conjuntos de dados clicando em Validar conjuntos de dados. Se a validação encontrar erros, corrija os erros antes de continuar.

    Para obter mais informações, consulte Validando e ajustando os conjuntos de dados.

  4. Criar um modelo de dados

    Clique em Modelo para definir os relacionamentos entre os conjuntos de dados incluídos.

    Para obter mais informações, consulte Criando um modelo de dados.

  5. Clique em Preparar para preparar a tarefa de dados e todos os artefatos necessários. Isso pode demorar um pouco.

    Você pode acompanhar o progresso em Progresso da preparação na parte inferior da tela.

  6. Quando o status exibir Preparado, você pode executar a tarefa de dados.

    Clique em ... e, em seguida, em Executar.

A tarefa de dados agora começará a criar conjuntos de dados para transformar os dados.

Nota informativaNão é possível alterar quais conjuntos de dados são incluídos quando você começa a gerar conjuntos de dados.

Adicionando transformações SQL

Você pode incluir transformações SQL em tarefas de transformação. Uma transformação SQL permite inserir uma consulta SQL SELECT em um pipeline para definir transformações complexas ou simples.

  • Em Transformar conjunto de dados, selecione os conjuntos de dados a serem incluídos na consulta e clique em Adicionar transformação SQL.

Para obter mais informações, consulte Adicionando transformações SQL.

Programando uma tarefa de transformação

É possível programar uma tarefa de transformação para ser atualizada periodicamente. Você pode definir uma programação com base no horário ou definir a tarefa a ser executada quando a execução de tarefas de entrada de dados tiver sido concluída.

Clique em ... em uma tarefa de dados e selecione Programação para criar uma programação. A configuração de programação padrão é herdada das configurações no projeto de dados. Para obter mais informações sobre as configurações padrão, consulte Transformar os valores padrão.

Você sempre precisa definir Programação como Ativada para ativar a programação.

Nota informativaSe todos os conjuntos de dados na tarefa forem não materializados, não haverá nada para executar, pois a transformação é realizada em tempo real com exibições. Você ainda pode criar uma programação para que uma solicitação de transformação não materializada seja executada quando a condição da programação for atendida. A tarefa será concluída imediatamente, o que pode acionar uma tarefa posterior, por exemplo, um datamart. Isso permite criar uma programação de pipeline baseada em eventos que inclui transformações não materializadas sem interromper o fluxo do pipeline.

Programações baseadas no tempo

Você pode usar uma programação baseada no tempo para executar a tarefa independentemente de quando as diferentes fontes de entrada são atualizadas.

  • Selecione Em momento específico em Executar a tarefa de dados.

Você pode definir uma programação por hora, dia, semana ou mês.

Programações baseadas em eventos

Você pode usar uma programação baseada em eventos para executar a tarefa quando a execução de tarefas de entrada de dados tiver sido concluída.

  • Selecione Em um evento específico em Executar a tarefa de dados.

É possível selecionar se você deseja executar a tarefa quando qualquer uma das tarefas de entrada for concluída com êxito ou quando qualquer uma de uma seleção de tarefas de entrada tiver sido concluída com êxito.

Nota informativaA tarefa não será executada se alguma tarefa de entrada ou posterior estiver em execução quando a programação for acionada. A tarefa será ignorada até a próxima execução programada.

Monitorando uma tarefa de transformação

Você pode monitorar o status e o progresso de uma tarefa de transformação clicando em Monitorar.

Para obter mais informações, consulte Monitorando uma tarefa de dados individual.

Carregando dados

Você poderá executar um recarregamento manual de tabelas se os dados forem materializados como tabelas físicas. Isso é útil quando há problemas com uma ou mais tabelas. Se os conjuntos de dados não forem materializados, você deverá recarregar os conjuntos de dados de origem na tarefa de dados upstream para atualizar os dados.

  1. Abra a tarefa de dados e selecione a guia Monitor.

  2. Selecione as tabelas que deseja carregar.

  3. Clique em Carregar tabelas.

O recarregamento ocorrerá na próxima vez que a tarefa for executada. O processo de recarregamento se comporta de forma diferente, dependendo da configuração do histórico e do tipo de transformação de cada conjunto de dados. Isso significa que o processo de recarregamento pode diferir entre os conjuntos de dados em uma tarefa de dados.

Você pode cancelar o recarregamento das tabelas que estão pendentes de recarregamento clicando em Cancelar recarregamento. Isso não afetará as tabelas que já foram recarregadas, e os recarregamentos que estiverem em andamento serão concluídos.

As tarefas downstream serão recarregadas para aplicar as alterações e para evitar retrocessos. Isso é executado fazendo o seguinte:

  1. Comparando com a carga total e aplicando as alterações.

  2. Aplicando as alterações após o recarregamento.

Recarregando um conjunto de dados sem histórico

Nesse caso, não há histórico a ser considerado. Para reduzir o processamento no destino, o recarregamento é realizado por meio das seguintes ações:

  1. Truncamento das tabelas.

  2. Carregamento de dados atuais da tarefa de dados upstream.

As tarefas downstream serão recarregadas para aplicar as alterações.

Recarregando um conjunto de dados com o histórico habilitado

O recarregamento é realizado por:

  1. Truncamento de tabelas atuais, anteriores e de alterações.

  2. Carregamento de dados da tarefa de dados upstream, incluindo tabelas anteriores.

Recarregamento de um conjunto de dados com base na transformação SQL

  • Truncar e recarregar

    Nota informativaEssa opção pode causar perda de histórico.
    1. Truncamento das tabelas atual e de alterações.

    2. Execução da consulta e seu carregamento nas tabelas atuais.

  • Recarregar e comparar

    1. Execução da consulta e comparação com as tabelas atuais.

    2. Adição de alterações.

Nota informativaQuando um conjunto de dados baseado na transformação SQL é recarregado devido a uma recarga de tarefa upstream, ele é sempre recarregado por comparação e aplicação. Se quiser truncá-lo e recarregá-lo, você deverá emitir um recarregamento específico para essas tabelas. Nesse caso, você também deve considerar o efeito nas tabelas downstream.

Configurações de transformação

Você pode definir propriedades para a tarefa de transformação de dados.

  • Clique em Configurações.

Nota de advertênciaSe a tarefa já tiver sido executada, alterar uma configuração diferente das configurações de Tempo de Execução exigirá que você recrie os conjuntos de dados.

Configurações gerais

  • Banco de dados

    Banco de dados a ser usado na fonte de dados.

  • Esquema da tarefa de dados

    Você pode alterar o nome do esquema da tarefa de dados de armazenamento. O nome padrão é store.

  • Esquema interno

    Você pode alterar o nome do esquema de armazenamento interno. O nome padrão é store__internal.

  • Prefixo para todas as tabelas e visualizações

    Você pode definir um prefixo para todas as tabelas e exibições criadas com essa tarefa.

    Nota informativaVocê deve usar um prefixo exclusivo quando quiser usar um esquema de banco de dados em várias tarefas de dados.
  • Materializado

    Você pode optar por criar apenas visualizações que executam transformações dinamicamente (Não materializadas) ou criar tabelas e visualizações (Materializadas).

  • Histórico

    Você pode manter os dados históricos de alterações para permitir que você recrie facilmente os dados conforme eles foram observados em um momento específico. Você pode usar exibições de histórico e exibições de histórico ao vivo para ver dados históricos.

Configurações de tempo de execução

  • Execução paralela

    Você pode definir o número máximo de conexões de dados para carregamento totais para um número de 1 a 5.

  • Armazém

    O nome do armazém de dados na nuvem.

Limitações

  • Não é possível alterar os tipos de dados em uma tarefa de dados de transformação quando a opção Não materializado está selecionada.

  • Conjuntos de dados não materializados baseados em SQL fornecem apenas o conjunto de resultados completo; a filtragem incremental não tem suporte. Os conjuntos de dados não materializados baseados em SQL também fornecem apenas dados atuais e não mantêm registros históricos.

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!