Transformando dados
Você pode criar transformações de dados reutilizáveis e baseadas em regras como parte de seu pipeline de dados. Você pode realizar transformações como parte de sua integração de dados ou criar tarefas de dados de transformação reutilizáveis. Você pode realizar transformações em nível de linha e criar conjuntos de dados que são materializados como tabelas ou criados como exibições que realizam transformações em tempo real.
-
Você pode realizar transformações explícitas de conjuntos de dados ou criar regras globais que transformem vários conjuntos de dados. Você também pode filtrar um conjunto de dados para criar um subconjunto de linhas.
-
Você pode adicionar transformações SQL. Uma transformação SQL permite inserir uma consulta SQL SELECT em um pipeline para definir transformações complexas ou simples.
-
Você pode adicionar fluxos de transformação visual com origens, processadores e destinos para definir transformações complexas ou simples.
Uma tarefa de transformação de dados contém três visualizações:
-
Transformar
Essa visualização exibe todas as transformações para visualizar o fluxo do conjunto de dados de origem para o conjunto de dados de destino.
-
Conjuntos de dados
Essa visualização exibe todas as transformações básicas nos conjuntos de dados, como filtragem de dados ou adição de colunas, bem como regras para executar transformações globais.
-
Modelo
Essa visualização permite que você crie um modelo de dados com os relacionamentos entre os conjuntos de dados incluídos.
Além de armazenar tabelas no armazém de dados, você também pode armazenar tabelas como tabelas Iceberg que são gerenciadas pela plataforma de dados. No momento, essa opção está disponível apenas para projetos do Snowflake. Isso é possível selecionando Tabelas Iceberg gerenciadas pelo Snowflake em Tipo de tabela nas configurações da tarefa.
Criando uma tarefa de dados de transformação
A maneira mais fácil de criar uma tarefa de dados de transformação é clicar em ... em uma tarefa de armazenamento de dados e, em seguida, selecionar Transformar dados.
Você também pode clicar em Criar em um projeto e selecionar Transformar dados. Nesse caso, você precisa definir qual tarefa de dados de origem usar.
-
Defina seus dados de origem e destinos em Transformar.
Você pode:
-
Executar transformações do conjunto de dados
Selecione os conjuntos de dados de origem e clique em Adicionar ao destino para adicioná-los a Destino.
Você pode então realizar transformações básicas nos conjuntos de dados, como filtrar dados ou adicionar colunas em Conjuntos de dados.
Para obter mais informações, consulte Gerenciando conjuntos de dados.
-
Adicionar uma transformação SQL
Selecione conjuntos de dados de origem e clique em Adicionar transformação SQL.
Uma transformação SQL permite inserir uma consulta SQL SELECT em um pipeline para definir transformações complexas ou simples.
Para obter mais informações, consulte Adicionando transformações SQL.
-
Adicionar um fluxo de transformação
Selecione conjuntos de dados de origem e clique em Adicionar fluxo de transformação.
O designer de fluxo permite criar um fluxo de transformação com origens, processadores e destinos para definir transformações complexas ou simples.
Para obter mais informações, consulte Adicionando fluxos de transformação.
-
-
Você também pode adicionar mais conjuntos de dados de outras tarefas de dados de armazenamento clicando em Selecionar dados de origem.
Você pode adicionar conjuntos de dados do projeto atual ou de outro projeto. Para adicionar conjuntos de dados de outro projeto:
-
Você deve ter pelo menos a função Pode consumir no espaço do projeto consumido.
-
Ambos os projetos devem estar na mesma plataforma de dados.
Para obter mais informações sobre pipelines entre projetos, consulte Construindo pipelines entre projetos.
-
-
Depois de adicionar as transformações desejadas, valide os conjuntos de dados clicando em Validar conjuntos de dados. Se a validação encontrar erros, corrija os erros antes de continuar.
Para obter mais informações, consulte Validando e ajustando os conjuntos de dados.
-
Criar um modelo de dados
Clique em Modelo para definir os relacionamentos entre os conjuntos de dados incluídos.
Para obter mais informações, consulte Criando um modelo de dados.
-
Clique em Preparar para preparar a tarefa de dados e todos os artefatos necessários. Isso pode demorar um pouco.
Você pode acompanhar o progresso em Progresso da preparação na parte inferior da tela.
-
Quando o status exibir Preparado, você pode executar a tarefa de dados.
Clique em ... e, em seguida, em Executar.
A tarefa de dados agora começará a criar conjuntos de dados para transformar os dados.
Usando a visualização Transformar
Em Transformar, todas as transformações são exibidas para visualizar o fluxo do conjunto de dados de origem para o conjunto de dados de destino.
-
Selecione uma transformação para ver quais conjuntos de dados de origem são usados e quais conjuntos de dados de destino são criados.
-
Selecione uma origem para ver todas as transformações em que ela é usada e todos os destinos resultantes.
-
Selecione um destino para ver quais são os conjuntos de dados de origem e qual transformação criou esse conjunto de dados de destino.
Visualização Transformar em uma transformação
![Clique para ver em tamanho grande Exibição de transformação em Transformação](../../../Resources/Images/qcdi_transform.png)
Você pode alterar as seguintes configurações clicando em Opções de exibição:
-
Filtrar por tipo de transformação
Exibir somente transformações de um ou dois tipos de transformação.
-
Filtrar
Exibir todas as transformações ou apenas a transformação selecionada. Você deve selecionar uma transformação para ativar essa opção.
-
Densidade
Selecione se deseja exibir transformações com um layout compacto ou um layout amplo usando mais espaço.
Usando a exibição Conjuntos de dados
Em Conjuntos de dados, você pode visualizar e editar todos os conjuntos de dados de destino na tarefa de transformação.
Consulte também Gerenciando conjuntos de dados para obter mais informações.
Adicionando um conjunto de dados de destino
Você pode adicionar mais conjuntos de dados de destino à tarefa de transformação.
-
Clique em
.
-
Forneça um Nome e, opcionalmente, uma Descrição para o conjunto de dados.
-
Selecione um conjunto de dados de origem entre os conjuntos de dados disponíveis na tarefa em Conjunto de dados de origem.
Nota de dicaVocê pode selecionar Nenhum conjunto de dados de origem para criar um conjunto de dados vazio, não conectado a nenhuma origem. Você pode adicionar colunas ao conjunto de dados durante o design, mas deve se conectar ao conjunto de dados de origem antes de preparar a tarefa.
O conjunto de dados de destino agora foi adicionado.
Alterando o conjunto de dados de origem
Você pode alterar o conjunto de dados de origem de um conjunto de dados de destino.
-
Clique em
após Origem: [nome do conjunto de dados de origem].
-
Selecione outro conjunto de dados de origem entre os conjuntos de dados disponíveis na tarefa em Conjunto de dados de origem.
Nota de dicaVocê pode selecionar Nenhum conjunto de dados de origem para desconectar o conjunto de dados de destino da origem. Você pode editar o conjunto de dados durante o design, mas deve se conectar ao conjunto de dados de origem antes de preparar a tarefa.
Adicionando novas colunas
Você pode adicionar novas colunas ao conjunto de dados de destino.
-
Adicionando uma nova coluna desde o começo
Clique em + Adicionar.
Forneça um nome para a coluna e defina uma expressão para definir os dados da coluna.
Para obter mais informações, consulte Adicionando colunas a um conjunto de dados.
-
Adicionando uma coluna da origem
Clique em
ao lado de Adicionar e selecione Adicionar coluna da origem.
Selecione uma coluna do conjunto de dados de origem.
Reordenando colunas
Você pode alterar a posição ordinal de uma coluna.
-
Selecione uma coluna.
-
Clique em
e, em seguida, em Reordenar.
-
Use as setas para mover a coluna para cima ou para baixo.
-
Fechae Alterar ordinal quando estiver pronto.
Criando regras de transformação
Você pode criar regras de transformação reutilizáveis para executar transformações globais em conjuntos de dados.
Para obter mais informações sobre como criar regras, consulte Criando regras para transformar conjuntos de dados.
Filtrando um conjunto de dados
Você pode filtrar dados para criar um subconjunto de linhas, se necessário.
-
Clique em
e, em seguida, em Filtrar.
Para obter mais informações sobre filtragem, consulte Filtrando um conjunto de dados.
Programando uma tarefa de transformação
É possível programar uma tarefa de transformação para ser atualizada periodicamente. Você pode definir uma programação com base no horário ou definir a tarefa a ser executada quando a execução de tarefas de entrada de dados tiver sido concluída.
Clique em ... em uma tarefa de dados e selecione Programação para criar uma programação. A configuração de programação padrão é herdada das configurações no projeto. Para obter mais informações sobre as configurações padrão, consulte Transformar os valores padrão.
Você sempre precisa definir Programação como Ativada para ativar a programação.
Programações baseadas no tempo
Você pode usar uma programação baseada no tempo para executar a tarefa independentemente de quando as diferentes fontes de entrada são atualizadas.
-
Selecione Em momento específico em Executar a tarefa de dados.
Você pode definir uma programação por hora, dia, semana ou mês.
Programações baseadas em eventos
Você pode usar uma programação baseada em eventos para executar a tarefa quando a execução de tarefas de entrada de dados tiver sido concluída.
-
Selecione Em um evento específico em Executar a tarefa de dados.
É possível selecionar se você deseja executar a tarefa quando qualquer uma das tarefas de entrada for concluída com êxito ou quando qualquer uma de uma seleção de tarefas de entrada tiver sido concluída com êxito.
Monitorando uma tarefa de transformação
Você pode monitorar o status e o progresso de uma tarefa de transformação clicando em Monitorar.
Para obter mais informações, consulte Monitorando uma tarefa de dados individual.
Carregando dados
Você poderá executar um recarregamento manual de tabelas se os dados forem materializados como tabelas físicas. Isso é útil quando há problemas com uma ou mais tabelas.
-
Abra a tarefa de dados e selecione a guia Monitor.
-
Selecione as tabelas que deseja carregar.
-
Clique em Carregar tabelas.
O recarregamento ocorrerá na próxima vez que a tarefa for executada. O processo de recarregamento se comporta de forma diferente, dependendo da configuração do histórico e do tipo de transformação de cada conjunto de dados. Isso significa que o processo de recarregamento pode diferir entre os conjuntos de dados em uma tarefa de dados.
-
As transformações do conjunto de dados são recarregadas truncando e carregando.
-
As transformações SQL e os transformation flows podem ser recarregados truncando e carregando ou comparando e aplicando. É uma prática recomendada comparar e aplicar.
Recarregando um conjunto de dados com base na transformação SQL ou transformation flow
Você pode cancelar o recarregamento das tabelas que estão pendentes de recarregamento clicando em Cancelar recarregamento. Isso não afetará as tabelas que já foram recarregadas, e os recarregamentos que estiverem em andamento serão concluídos.
As tarefas downstream serão recarregadas para aplicar as alterações e para evitar retrocessos.
Impacto downstream após recarregar uma tarefa Transformar dados
![Clique para ver em tamanho grande Efeitos downstream de recarga de transformação](../../../Resources/Images/qcdi_reload_downstream_transform.png)
O impacto downstream depende do tipo de operação de recarga executada e do tipo de conjunto de dados downstream imediato. O processamento padrão significa que o conjunto de dados reagirá e processará os dados usando o método configurado para o conjunto de dados específico.
Exemplo: Recarregando um conjunto de dados via truncar e carregar
-
Se o próximo conjunto de dados usar transformações de conjunto de dados, ele será recarregado na próxima execução por meio de truncar e carregar.
-
Se o próximo conjunto de dados for uma transformação SQL ou um transformation flow, ele será recarregado usando comparar e aplicar.
Recarregando um conjunto de dados sem histórico
Nesse caso, não há histórico a ser considerado. Para reduzir o processamento no destino, o recarregamento é realizado por meio das seguintes ações:
-
Truncamento das tabelas.
-
Carregamento de dados atuais da tarefa de dados upstream.
As tarefas downstream serão recarregadas para aplicar as alterações.
Recarregando um conjunto de dados com o histórico habilitado
O recarregamento é realizado por:
-
Truncamento de tabelas atuais, anteriores e de alterações.
-
Carregamento de dados da tarefa de dados upstream, incluindo tabelas anteriores.
Recarregando um conjunto de dados com base na transformação SQL ou transformation flow
-
Truncar e recarregar
Nota informativaEssa opção pode causar perda de histórico.-
Truncamento das tabelas atual e de alterações.
-
Execução da consulta e seu carregamento nas tabelas atuais.
-
-
Recarregar e comparar
-
Execução da consulta e comparação com as tabelas atuais.
-
Adição de alterações.
-
Configurações de transformação
Você pode definir propriedades para a tarefa de transformação de dados.
-
Clique em Configurações.
Configurações gerais
-
Banco de dados
Banco de dados a ser usado na fonte de dados.
-
Esquema de tarefa
Você pode alterar o nome do esquema da tarefa de dados. O nome padrão é o nome da tarefa.
-
Esquema interno
Você pode alterar o nome do esquema de armazenamento interno. O nome padrão é o nome da tarefa acrescentado com "__internal".
-
Capitalização padrão do nome do esquema
Você pode definir a capitalização padrão para todos os nomes de esquemas. Se seu banco de dados estiver configurado para forçar a capitalização, essa opção não terá efeito.
- Prefixo para todas as tabelas e visualizações
Você pode definir um prefixo para todas as tabelas e exibições criadas com essa tarefa.
Nota informativaVocê deve usar um prefixo exclusivo quando quiser usar um esquema de banco de dados em várias tarefas de dados. -
Materializado
Você pode optar por criar apenas visualizações que executam transformações dinamicamente (Não materializadas) ou criar tabelas e visualizações (Materializadas).
-
Armazenamento de dados históricos (Tipo 2)
Você pode manter os dados históricos de alterações para permitir que você recrie facilmente os dados conforme eles foram observados em um momento específico. Você pode usar exibições de histórico e exibições de histórico ao vivo para ver dados históricos.
Configurações de tempo de execução
-
Execução paralela
Você pode definir o número máximo de conexões para carregamento totais para um número de 1 a 5.
-
Armazém
O nome do armazém de dados na nuvem.
Configurações do catálogo
-
Publicar no catálogo
Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.
Para obter mais informações sobre o Catálogo, consulte Compreendendo seus dados com ferramentas de catálogo.
Configurações de tipo de tabela
Essas configurações estão disponíveis apenas em projetos com Snowflake como plataforma de dados.
-
Tipo de tabela
Você pode selecionar qual tipo de tabela usar:
-
Tabelas do Snowflake
-
Tabelas Iceberg gerenciadas pelo Snowflake
Você deve definir o nome padrão do volume externo no Volume externo do Snowflake.
-
-
Pasta de armazenamento na nuvem para usar
Selecione qual pasta usar ao aterrissar dados na área de preparação.
-
Pasta padrão
Isso cria uma pasta com o nome padrão: <nome do projeto>/<nome da tarefa de dados>.
-
Pasta raiz
Armazene dados na pasta raiz do armazenamento.
-
Pasta
Especifique um nome de pasta a ser usado.
-
-
Sincronizar com o Snowflake Open Catalog
Habilite isso para permitir que o Snowflake Open Catalog gerencie os arquivos no armazenamento de arquivos em nuvem.
Limitações
-
Não é possível alterar os tipos de dados em uma tarefa de dados de transformação quando a opção Não materializado está selecionada.
-
A linhagem em nível de campo não está disponível para conjuntos de dados criados em transformações SQL ou fluxos de transformação.