Transformando dados
Você pode criar transformações de dados reutilizáveis e baseadas em regras como parte de seu pipeline de dados. Você pode realizar transformações como parte de sua integração de dados ou criar tarefas de dados de transformação reutilizáveis. Você pode realizar transformações em nível de linha e criar conjuntos de dados que são materializados como tabelas ou criados como exibições que realizam transformações em tempo real.
-
Você pode realizar transformações explícitas de conjuntos de dados ou criar regras globais que transformem vários conjuntos de dados. Você também pode filtrar um conjunto de dados para criar um subconjunto de linhas.
-
Você pode adicionar transformações SQL. Uma transformação SQL permite inserir uma consulta SQL SELECT em um pipeline para definir transformações complexas ou simples.
-
Você pode adicionar fluxos de transformação visual com origens, processadores e destinos para definir transformações complexas ou simples.
Uma tarefa de transformação de dados contém três visualizações:
-
Transformar
Essa visualização exibe todas as transformações para visualizar o fluxo do conjunto de dados de origem para o conjunto de dados de destino.
-
Conjuntos de dados
Essa visualização exibe todas as transformações básicas nos conjuntos de dados, como filtragem de dados ou adição de colunas, bem como regras para executar transformações globais.
-
Modelo
Essa visualização permite que você crie um modelo de dados com os relacionamentos entre os conjuntos de dados incluídos.
Criando uma tarefa de dados de transformação
A maneira mais fácil de criar uma tarefa de dados de transformação é clicar em ... em uma tarefa de armazenamento de dados e, em seguida, selecionar Transformar dados.
Você também pode clicar em Adicionar novo em um projeto e selecionar Transformar dados. Nesse caso, você precisa definir qual tarefa de dados de origem usar.
-
Defina seus dados de origem e destinos em Transformar.
Você pode:
-
Executar transformações do conjunto de dados
Selecione os conjuntos de dados de origem e clique em Adicionar ao destino para adicioná-los a Destino.
Você pode então realizar transformações básicas nos conjuntos de dados, como filtrar dados ou adicionar colunas em Conjuntos de dados.
Para obter mais informações, consulte Gerenciando conjuntos de dados.
-
Adicionar uma transformação SQL
Selecione conjuntos de dados de origem e clique em Adicionar transformação SQL.
Uma transformação SQL permite inserir uma consulta SQL SELECT em um pipeline para definir transformações complexas ou simples.
Para obter mais informações, consulte Adicionando transformações SQL.
-
Adicionar um fluxo de transformação
Selecione conjuntos de dados de origem e clique em Adicionar fluxo de transformação.
O designer de fluxo permite criar um fluxo de transformação com origens, processadores e destinos para definir transformações complexas ou simples.
Para obter mais informações, consulte Adicionando fluxos de transformação.
Nota de dicaVocê também pode adicionar mais conjuntos de dados de outras tarefas de dados de armazenamento clicando em Selecionar dados de origem. -
-
Depois de adicionar as transformações desejadas, valide os conjuntos de dados clicando em Validar conjuntos de dados. Se a validação encontrar erros, corrija os erros antes de continuar.
Para obter mais informações, consulte Validando e ajustando os conjuntos de dados.
-
Criar um modelo de dados
Clique em Modelo para definir os relacionamentos entre os conjuntos de dados incluídos.
Para obter mais informações, consulte Criando um modelo de dados.
-
Clique em Preparar para preparar a tarefa de dados e todos os artefatos necessários. Isso pode demorar um pouco.
Você pode acompanhar o progresso em Progresso da preparação na parte inferior da tela.
-
Quando o status exibir Preparado, você pode executar a tarefa de dados.
Clique em ... e, em seguida, em Executar.
A tarefa de dados agora começará a criar conjuntos de dados para transformar os dados.
Usando a visualização Transformar
Em Transformar, todas as transformações são exibidas para visualizar o fluxo do conjunto de dados de origem para o conjunto de dados de destino.
-
Selecione uma transformação para ver quais conjuntos de dados de origem são usados e quais conjuntos de dados de destino são criados.
-
Selecione uma origem para ver todas as transformações em que ela é usada e todos os destinos resultantes.
-
Selecione um destino para ver quais são os conjuntos de dados de origem e qual transformação criou esse conjunto de dados de destino.
Você pode alterar as seguintes configurações clicando em Opções de exibição:
-
Filtrar por tipo de transformação
Exibir somente transformações de um ou dois tipos de transformação.
-
Filtrar
Exibir todas as transformações ou apenas a transformação selecionada. Você deve selecionar uma transformação para ativar essa opção.
-
Densidade
Selecione se deseja exibir transformações com um layout compacto ou um layout amplo usando mais espaço.
Usando a exibição Conjuntos de dados
Em Conjuntos de dados, você pode visualizar e editar todos os conjuntos de dados de destino na tarefa de transformação.
Consulte também Gerenciando conjuntos de dados para obter mais informações.
Adicionando um conjunto de dados de destino
Você pode adicionar mais conjuntos de dados de destino à tarefa de transformação.
-
Clique em Adicionar conjunto de dados.
-
Forneça um Nome e, opcionalmente, uma Descrição para o conjunto de dados.
-
Selecione um conjunto de dados de origem entre os conjuntos de dados disponíveis na tarefa em Conjunto de dados de origem.
Nota de dicaVocê pode selecionar Nenhum conjunto de dados de origem para criar um conjunto de dados vazio, não conectado a nenhuma origem. Você pode adicionar colunas ao conjunto de dados durante o design, mas deve se conectar ao conjunto de dados de origem antes de preparar a tarefa.
O conjunto de dados de destino agora foi adicionado.
Alterando o conjunto de dados de origem
Você pode alterar o conjunto de dados de origem de um conjunto de dados de destino.
-
Clique em após Origem: [nome do conjunto de dados de origem].
-
Selecione outro conjunto de dados de origem entre os conjuntos de dados disponíveis na tarefa em Conjunto de dados de origem.
Nota de dicaVocê pode selecionar Nenhum conjunto de dados de origem para desconectar o conjunto de dados de destino da origem. Você pode editar o conjunto de dados durante o design, mas deve se conectar ao conjunto de dados de origem antes de preparar a tarefa.
Adicionando novas colunas
Você pode adicionar novas colunas ao conjunto de dados de destino.
-
Adicionando uma nova coluna desde o começo
Clique em + Adicionar.
Forneça um nome para a coluna e defina uma expressão para definir os dados da coluna.
Para obter mais informações, consulte Adicionando colunas a um conjunto de dados.
-
Adicionando uma coluna da origem
Clique em ao lado de Adicionar e selecione Adicionar coluna da origem.
Selecione uma coluna do conjunto de dados de origem.
Reordenando colunas
Você pode alterar a posição ordinal de uma coluna.
-
Selecione uma coluna.
-
Clique em e, em seguida, em Reordenar.
-
Use as setas para mover a coluna para cima ou para baixo.
-
Fechae Alterar ordinal quando estiver pronto.
Criando regras de transformação
Você pode criar regras de transformação reutilizáveis para executar transformações globais em conjuntos de dados.
Para obter mais informações sobre como criar regras, consulte Criando regras para transformar conjuntos de dados.
Filtrando um conjunto de dados
Você pode filtrar dados para criar um subconjunto de linhas, se necessário.
-
Clique em e, em seguida, em Filtrar.
Para obter mais informações sobre filtragem, consulte Filtrando um conjunto de dados.
Programando uma tarefa de transformação
É possível programar uma tarefa de transformação para ser atualizada periodicamente. Você pode definir uma programação com base no horário ou definir a tarefa a ser executada quando a execução de tarefas de entrada de dados tiver sido concluída.
Clique em ... em uma tarefa de dados e selecione Programação para criar uma programação. A configuração de programação padrão é herdada das configurações no projeto. Para obter mais informações sobre as configurações padrão, consulte Transformar os valores padrão.
Você sempre precisa definir Programação como Ativada para ativar a programação.
Programações baseadas no tempo
Você pode usar uma programação baseada no tempo para executar a tarefa independentemente de quando as diferentes fontes de entrada são atualizadas.
-
Selecione Em momento específico em Executar a tarefa de dados.
Você pode definir uma programação por hora, dia, semana ou mês.
Programações baseadas em eventos
Você pode usar uma programação baseada em eventos para executar a tarefa quando a execução de tarefas de entrada de dados tiver sido concluída.
-
Selecione Em um evento específico em Executar a tarefa de dados.
É possível selecionar se você deseja executar a tarefa quando qualquer uma das tarefas de entrada for concluída com êxito ou quando qualquer uma de uma seleção de tarefas de entrada tiver sido concluída com êxito.
Monitorando uma tarefa de transformação
Você pode monitorar o status e o progresso de uma tarefa de transformação clicando em Monitorar.
Para obter mais informações, consulte Monitorando uma tarefa de dados individual.
Carregando dados
Você poderá executar um recarregamento manual de tabelas se os dados forem materializados como tabelas físicas. Isso é útil quando há problemas com uma ou mais tabelas.
-
Abra a tarefa de dados e selecione a guia Monitor.
-
Selecione as tabelas que deseja carregar.
-
Clique em Carregar tabelas.
O recarregamento ocorrerá na próxima vez que a tarefa for executada. O processo de recarregamento se comporta de forma diferente, dependendo da configuração do histórico e do tipo de transformação de cada conjunto de dados. Isso significa que o processo de recarregamento pode diferir entre os conjuntos de dados em uma tarefa de dados.
-
As transformações do conjunto de dados são recarregadas truncando e carregando.
-
As transformações SQL e os transformation flows podem ser recarregados truncando e carregando ou comparando e aplicando. É uma prática recomendada comparar e aplicar.
Recarregando um conjunto de dados com base na transformação SQL ou transformation flow
Você pode cancelar o recarregamento das tabelas que estão pendentes de recarregamento clicando em Cancelar recarregamento. Isso não afetará as tabelas que já foram recarregadas, e os recarregamentos que estiverem em andamento serão concluídos.
As tarefas downstream serão recarregadas para aplicar as alterações e para evitar retrocessos.
O impacto downstream depende do tipo de operação de recarga executada e do tipo de conjunto de dados downstream imediato. O processamento padrão significa que o conjunto de dados reagirá e processará os dados usando o método configurado para o conjunto de dados específico.
Exemplo: Recarregando um conjunto de dados via truncar e carregar
-
Se o próximo conjunto de dados usar transformações de conjunto de dados, ele será recarregado na próxima execução por meio de truncar e carregar.
-
Se o próximo conjunto de dados for uma transformação SQL ou um transformation flow, ele será recarregado usando comparar e aplicar.
Recarregando um conjunto de dados sem histórico
Nesse caso, não há histórico a ser considerado. Para reduzir o processamento no destino, o recarregamento é realizado por meio das seguintes ações:
-
Truncamento das tabelas.
-
Carregamento de dados atuais da tarefa de dados upstream.
As tarefas downstream serão recarregadas para aplicar as alterações.
Recarregando um conjunto de dados com o histórico habilitado
O recarregamento é realizado por:
-
Truncamento de tabelas atuais, anteriores e de alterações.
-
Carregamento de dados da tarefa de dados upstream, incluindo tabelas anteriores.
Recarregando um conjunto de dados com base na transformação SQL ou transformation flow
-
Truncar e recarregar
Nota informativaEssa opção pode causar perda de histórico.-
Truncamento das tabelas atual e de alterações.
-
Execução da consulta e seu carregamento nas tabelas atuais.
-
-
Recarregar e comparar
-
Execução da consulta e comparação com as tabelas atuais.
-
Adição de alterações.
-
Configurações de transformação
Você pode definir propriedades para a tarefa de transformação de dados.
-
Clique em Configurações.
Configurações gerais
-
Banco de dados
Banco de dados a ser usado na fonte de dados.
-
Esquema de tarefa
Você pode alterar o nome do esquema da tarefa de dados. O nome padrão é o nome da tarefa.
-
Esquema interno
Você pode alterar o nome do esquema de armazenamento interno. O nome padrão é o nome da tarefa acrescentado com "__internal".
- Prefixo para todas as tabelas e visualizações
Você pode definir um prefixo para todas as tabelas e exibições criadas com essa tarefa.
Nota informativaVocê deve usar um prefixo exclusivo quando quiser usar um esquema de banco de dados em várias tarefas de dados. -
Materializado
Você pode optar por criar apenas visualizações que executam transformações dinamicamente (Não materializadas) ou criar tabelas e visualizações (Materializadas).
-
Histórico
Você pode manter os dados históricos de alterações para permitir que você recrie facilmente os dados conforme eles foram observados em um momento específico. Você pode usar exibições de histórico e exibições de histórico ao vivo para ver dados históricos.
Configurações de tempo de execução
-
Execução paralela
Você pode definir o número máximo de conexões para carregamento totais para um número de 1 a 5.
-
Armazém
O nome do armazém de dados na nuvem.
Configurações do catálogo
-
Publicar no catálogo
Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.
Para obter mais informações sobre o Catálogo, consulte Compreendendo seus dados com ferramentas de catálogo.
Limitações
-
Não é possível alterar os tipos de dados em uma tarefa de dados de transformação quando a opção Não materializado está selecionada.
-