Adicionando fluxos de transformação
Você pode incluir fluxos em tarefas de transformação. O designer de fluxo permite criar um fluxo de transformação usando origens, processadores e destinos para definir transformações complexas ou simples.
Fluxos de transformação e processadores são representações lógicas. Isso significa que nas tarefas ELT, apenas uma tabela é criada para cada destino e que todos os processadores são compilados em um único comando SQL por destino.
Plataformas de destino compatíveis
As seguintes plataformas são compatíveis com fluxos de transformação:
-
Snowflake
-
Databricks
-
Google BigQuery
-
Azure Synapse Analytics
-
Microsoft Fabric
-
Microsoft SQL Server
-
Amazon Redshift
Nota informativaAs seguintes funções do Amazon Redshift não estão disponíveis: geração de string UUID e Editar Distância.
Pré-requisitos
Antes de criar um fluxo de transformação, você deve:
- Preencher a tarefa de armazenamento com dados integrados que você deseja usar no fluxo de transformação ou registre dados existentes. Para obter mais informações sobre como integrar e registrar dados, consulte Integrando dados e Registrando dados que já estão na plataforma de dados.
- Prepare e execute a tarefa de armazenamento ou transformação usada como origem em seu fluxo de transformação. A execução da tarefa de armazenamento não é obrigatória, mas é recomendável poder exibir a visualização dos dados em cada etapa do fluxo.
Criando um fluxo de transformação
Para criar um fluxo de transformação válido, você precisa de pelo menos um conjunto de dados de origem e um destino nomeado com chaves definidas.
- Abra a tarefa Transformar dados em seu pipeline de dados.
- Em Transformar, selecione os conjuntos de dados de origem a serem incluídos no fluxo de transformação e clique em Adicionar fluxo de transformação.
Adicionar fluxo de transformação é exibido onde você pode fornecer configurações para a transformação.
-
Insira um nome para o conjunto de dados de destino em Nome.
Você também pode adicionar uma descrição mais longa em Descrição.
-
Em Materialização, selecione se a saída transformada deve ser materializada ou não. Você pode optar por herdar a configuração das configurações da tarefa de dados.
-
On criará tabelas e tratará do processamento ELT associado.
-
Off criará visualizações que realizam transformações dinamicamente.
-
-
A carga incremental permite ajustar a consulta para uma carga de dados incremental aplicando filtros ou outras condições para reduzir o conjunto de dados que está sendo processado usando macros. A carga incremental só estará disponível se os dados forem materializados como tabelas.
-
Quando a Carga incremental está Ativada
A primeira execução da tarefa realizará um carregamento inicial, inserindo todos os resultados da consulta em sua tabela de destino. As execuções subsequentes executarão cargas incrementais aproveitando filtros ou condições específicas que você definiu para processamento incremental. Durante o carregamento incremental, a tarefa processará dados apenas como uma atualização ou inserção; as exclusões não são gerenciadas.
-
Quando a Carga incremental está Desativada
A primeira execução da tarefa realizará um carregamento inicial, inserindo todos os resultados da consulta em sua tabela de destino. As execuções subsequentes processarão todos os resultados da consulta comparando com sua tabela de destino e processando registros novos, alterados ou excluídos.
Nota informativase a consulta selecionar todos os registros que deveriam existir no destino, desative a Carga incremental. Os registros que não forem selecionados serão excluídos do alvo. -
-
Clique em Adicionar quando estiver pronto para criar o fluxo de transformação.
O designer de fluxo é aberto, o destino é criado e exibido em seu fluxo como um componente de destino.
Nota informativaÉ obrigatório fornecer um nome exclusivo para seu destino de fluxo. Se desejar renomear o destino do fluxo posteriormente, selecione o destino e insira o novo nome em Nome do conjunto de dados. - Se nenhuma chave estiver definida para seu destino, clique em Editar próximo ao campo Chave(s) e valores anuláveis. A janela de configuração é exibida. Nota informativaAs chaves não são herdadas dos conjuntos de dados de origem e devem ser definidas manualmente. Os valores anuláveis são herdados dos conjuntos de dados de origem e podem ser modificados.
- Em Configurar chaves e valores anuláveis, selecione Chave na coluna que deseja definir como chave primária e selecione Valores anuláveis na coluna ou colunas que deseja definir como valores anuláveis.
- Clique em Confirmar para salvar suas alterações e fechar a janela de configuração.
Se o status do seu fluxo de transformação for válido, você poderá fechar o fluxo e preparar seus dados.
Você pode alterar as configurações de Materialização e Carga incremental posteriormente nas Configurações de destino.
-
Selecione o destino e clique em Editar próximo a Configurações na configuração de destino.
Adicionando um processador
Você pode adicionar processadores aos seus fluxos.
Processadores são componentes que você pode adicionar aos seus fluxos para transformar os dados recebidos e retornar os dados transformados para a próxima etapa do fluxo.
- No designer de fluxo, selecione o componente de fluxo após o qual você deseja adicionar um processador.
- Clique em no componente de fluxo, em Adicionar processador e selecione qual processador adicionar. Você também pode arrastar o processador do painel esquerdo para a tela.
- Configure seu processador de acordo com suas necessidades e clique em Salvar para salvar suas alterações e atualizar a visualização dos dados. Nota informativaVocê pode visualizar uma amostra dos seus dados usando SQL e Visualização de dados. Para obter mais informações, consulte Visualizando dados.
Processadores disponíveis
Caso de uso: união, agregação e filtragem de dados no Snowflake
Neste caso de uso, os dados do cliente Snowflake precisam ser transformados com processadores. Como as informações do cliente vêm de dois conjuntos de dados, você deseja adicionar primeiro um processador Join para combinar os registros. Você também deseja usar um processador Aggregate para calcular o preço médio dos pedidos e um processador Filter para filtrar o tipo de registros de cliente que deseja manter em seus conjuntos de dados de saída.
O primeiro conjunto de dados é baseado em uma tabela do Snowflake chamada CUSTOMER_ACCOUNT e seu esquema é semelhante a este:
O segundo conjunto de dados é baseado em uma tabela do Snowflake chamada CUSTOMER_ORDER e seu esquema é semelhante a este:
- Arraste um processador Join do painel esquerdo Processadores na tela.
- Vincule a segunda fonte ao processador Join para que os dados de ambos os conjuntos de dados possam ser combinados.
- Configure o processador Join para unir os dois conjuntos de dados de origem nas chaves de ID do cliente (CUSTOMER_ID).
- Arraste um processador Aggregate após o processador Join.
- Configure o processador Aggregate para calcular o valor médio de compra do cliente (ORDER_TOTAL_PRICE) e armazene-o em uma nova coluna que você pode nomear avg_order_price, enquanto agrupa registros por tipo de segmento de cliente (LEFT_CUSTOMER_SEGMENT).
- Arraste e solte um processador Filter do painel esquerdo Processadores na tela.
- Configure o processador Filter para filtrar os tipos de clientes de negócios (Negócios).
- Selecione no processador Filter para abrir o menu e clique em Adicionar destino não correspondente para adicionar um segundo destino ao seu fluxo.
Este destino conterá os registros que não atenderam aos critérios de filtro, os tipos de clientes individuais (Individual).
- Insira um nome para o novo conjunto de dados de destino, individual_cust por exemplo.
- Verifique a visualização da saída em ambos os destinos:
O destino business_cust mostra o preço médio do pedido para tipos de clientes empresariais, aqui 157,463687151.
O destino individual_cust mostra o preço médio do pedido para tipos de clientes individuais, aqui 153,576530612.
- Certifique-se de que seu fluxo de transformação tenha um status válido e feche-o.
- Na janela Transformar, clique em Preparar para preparar seus dados.
Prática recomendada
Ao adicionar conjuntos de dados de origem ou de destino aos seus fluxos, você deve definir as chaves e os valores anuláveis no painel de configuração dos conjuntos de dados de destino.