Ir para conteúdo principal Pular para conteúdo complementar

Gerenciando conjuntos de dados

Você pode gerenciar os conjuntos de dados incluídos em tarefas de dados de Aterrissagem, Armazenamento, Transformação, Datamart e Replicação para criar transformações, filtrar os dados e adicionar colunas.

Os conjuntos de dados incluídos estão listados em Conjuntos de dados na exibição Design. Você pode selecionar quais colunas serão exibidas com o seletor de coluna (Seletor de coluna).

Conjuntos de dados na exibição Design de uma tarefa de dados

Conjuntos de dados na exibição Design de uma tarefa de dados

Regras de transformação e transformações explícitas

Você pode realizar transformações globais e explícitas.

Regras de transformação

Você pode realizar transformações globais criando uma regra de transformação que usa % como curinga no escopo a ser aplicada a todos os conjuntos de dados correspondentes.

As regras de transformação são indicadas por um canto roxo escuro no atributo afetado.

Transformações explícitas

Transformações explícitas são criadas:

  • Quando você usa Editar para alterar um atributo de coluna

  • Quando você usa Renomear em um conjunto de dados.

  • Quando você adiciona uma coluna.

Transformações explícitas substituem transformações globais e são indicadas por um canto roxo claro no atributo afetado.

Modelos de conjunto de dados

Os conjuntos de dados podem ser baseados na origem ou no destino, dependendo do tipo de tarefa e das operações na tarefa. O modelo de conjunto de dados usado afeta o comportamento do pipeline nas alterações de origem e as operações que você pode executar.

  • O conjunto de dados se baseia em conjuntos de dados de origem e conterá apenas alterações nos metadados. Uma alteração nos dados de origem é aplicada automaticamente, o que pode causar alterações em todas as tarefas posteriores. Não é possível alterar a ordem das colunas ou alterar o conjunto de dados de origem.

    Os seguintes tipos de tarefas sempre usam um modelo de conjunto de dados de origem: aterrisagem, armazenamento, dados registrados, replicação e aterrisagem em um data lake.

  • O conjunto de dados é baseado nos metadados de destino. Se uma coluna for adicionada da origem ou removida, ela não será aplicada automaticamente para a próxima tarefa downstream. Você pode alterar a ordem das colunas e alterar o conjunto de dados de origem. Isso significa que a tarefa é mais autocontida e permite que você controle o efeito das alterações de origem.

    Os seguintes tipos de tarefas podem usar um modelo de conjunto de dados baseado em destino: transformar, datamart. Há alguns casos em que um modelo baseado em origem é usado para tarefas Transformar com base na operação.

    • Se uma transformação SQL ou um fluxo de transformação executar uma seleção de coluna, o conjunto de dados será baseado no destino. Por exemplo, se você usar SELECT A, B, C from XYZ em uma transformação SQL, ou usar o processador Selecionar colunas em um fluxo de transformação.

    • Se as colunas padrão forem mantidas, o conjunto de dados será baseado na origem. Por exemplo, se você usar SELECT * from XYZ em uma transformação SQL.

Atualizando projetos de um modelo baseado na origem para um modelo baseado no destino

Os projetos existentes são atualizados para o modelo de conjunto de dados baseado no destino quando aplicável. Você será guiado pelo processo de atualização ao abrir um projeto pela primeira vez. Há algumas considerações ao importar e exportar projetos com diferentes modelos de conjunto de dados.

  • Não é possível importar um projeto com um modelo baseado em origem para um projeto com um modelo baseado no destino.

    Importe o projeto com um modelo baseado na origem para um novo projeto, atualize o novo projeto e exporte o projeto resultante. Agora você pode reimportar este projeto para o projeto com um modelo baseado no destino.

  • Não é possível importar um projeto com um modelo baseado em destino para um projeto com um modelo baseado na origem.

    Atualize o projeto para um modelo baseado em destino antes de importar um projeto com um modelo baseado no destino.

Filtrando um conjunto de dados

Nota informativaA capacidade de filtrar um conjunto de dados está disponível para tarefas de dados de Aterrissagem que transportam dados por meio do Qlik Data Gateway - Data Movement, tarefas de dados de Armazenamento e Transformação.

Você pode filtrar dados para criar um subconjunto de linhas, se necessário.

  • Clique em Filtrar.

Para obter mais informações, consulte Filtrando um conjunto de dados.

Renomeando um conjunto de dados

Você pode renomear um conjunto de dados.

  • Clique em em um conjunto de dados e depois em Renomear.

Adicionando colunas

É possível adicionar colunas com transformações em nível de linha, se necessário.

  • Clique em Adicionar coluna

Para obter mais informações, consulte Adicionando colunas a um conjunto de dados.

Editando uma coluna

Você pode editar as propriedades da coluna selecionando uma coluna e clicando em Editar.

  • Nome

  • Chave

    Defina uma coluna como chave primária. Você também pode definir teclas selecionando ou desmarcando na coluna Chave.

  • Anulável

  • Tipo de dados

    Defina o tipo de dados da coluna. Para alguns tipos de dados, você pode definir uma propriedade adicional, por exemplo, Comprimento.

Entendendo o impacto da alteração de um tipo de dados

Há dois casos de uso comuns para alterar o tamanho do tipo de dados ou alternar para um tipo de dados diferente:

  • Ingerir dados que não se encaixam no tipo de dados atual.
  • Um requisito para maior acurácia numérica. Por exemplo, alterar SMALLINT para DECIMAL (p,s).

Na maioria dos casos, alterar um tipo de dados resultará em uma operação ALTER TABLE, evitando assim a perda de dados. Por exemplo, se o tipo de dados anterior era STRING (25) e o novo tipo de dados é STRING (50), os dados na coluna com o novo tipo de dados serão atualizados sem problemas. No entanto, em alguns casos, alterar um tipo de dados resultará na exclusão e recriação da tabela. Por exemplo, se o tipo de dados da coluna anterior for NUMBER e você alterá-lo para DATE, a tabela será descartada e recriada, pois não é possível converter números em datas. Da mesma forma, se a plataforma de destino não suportar operações de tabela ALTER (como Databricks), a tabela será descartada e recriada.

Há alguns casos em que é teoricamente possível alterar uma tabela, mas devido à complexidade subjacente, a tarefa de dados descartará e recriará a tabela. Finalmente, há casos em que a perda potencial de dados, em vez da perda real de dados, acionará uma operação de descarte e recriação. Por exemplo, se você alterar STRING(25) para STRING(1), a perda de dados ocorrerá se os dados ingeridos não couberem em STRING(1). No entanto, é possível que STRING(25) sempre contenha apenas um caractere, então, na prática, nenhuma perda de dados ocorrerá, mas a tabela ainda será descartada e recriada devido à potencial perda de dados.

Alterações em tipos de dados que exigem que a tabela seja descartada e recriada, independentemente da plataforma de destino

Alterar os seguintes tipos de dados resultará na exclusão e recriação da tabela:

  • BYTES
  • BLOB
  • CLOB
  • NCLOB

Plataformas de destino que suportam alterações no tamanho do tipo de dados sem descartar e recriar a tabela

Ao trabalhar com Snowflake, Google BigQuery, Amazon Redshift, Microsoft SQL Server e Azure Synapse Analytics, você pode alterar o tamanho de certos tipos de dados sem que a tabela seja descartada e recriada. A tabela a seguir lista quais tipos de dados são suportados para cada uma das plataformas mencionadas acima.

Tipo de dados Snowflake Google BigQuery Azure Synapse Analytics Microsoft SQL Server Amazon Redshift

INT1

Não

Sim

Sim

Sim

Não

INT2

Não

Sim

Sim

Sim

Não

INT4

Não

Sim

Sim

Sim

Não

INT8

Não

Sim

Sim

Sim

Não

REAL4

Não

Não

Sim

Sim

Não

REAL8

Não

Não

Sim

Sim

Não

UINT1

Não

Sim

Sim

Sim

Não

UINT2

Não

Sim

Sim

Sim

Não

UNIT4

Não

Sim

Sim

Sim

Não

UNIT8

Não

Sim

Sim

Sim

Não

NUMERIC

Sim

Sim

Sim

Sim

Não

STRING

Sim

Sim

Sim

Sim

Sim

WSTRING

Não

Sim

Sim

Sim

Não

Plataformas de destino que suportam a alteração de tipos de dados para STRING sem que a tabela seja excluída e recriada

Ao mover dados para o Microsoft SQL Server e o Azure Synapse Analytics, você pode alterar os seguintes tipos de dados para STRING, sem que a tabela seja descartada e recriada:

  • BOOLEAN
  • DATE
  • TIME
  • DATETIME
  • INT1
  • INT2
  • INT4
  • INT8
  • REAL4
  • REAL8
  • UINT1
  • UINT2
  • UNIT4
  • UNIT8
  • NUMERIC
  • WSTRING (com suporte apenas com o Azure Synapse Analytics)

Removendo colunas

Você pode remover uma ou mais colunas de um conjunto de dados.

  • Selecione as colunas a serem removidas e clique em Remover.

Se quiser ver as colunas removidas, clique em Mostrar colunas removidas. As colunas removidas são indicadas com texto riscado. Você pode recuperar uma coluna removida selecionando-a e clicando em Reverter.

Nota de dicaPara remover uma coluna adicionada, selecione-a e clique em Reverter.

Revertendo alterações explícitas em colunas

Você pode reverter todas as alterações explícitas em uma ou mais colunas.

  • Selecione as colunas para as quais reverter as alterações e clique em Reverter.

As alterações nas regras de transformação global não serão revertidas.

Se você reverter uma coluna adicionada, ela será removida.

Configurações do conjunto de dados

É possível alterar as configurações do conjunto de dados. A configuração padrão é herdar a configuração do ativo de dados, mas você também pode alterar uma configuração para ser explicitamente Ativada ou Desativada.

  • Clique em em um conjunto de dados e depois em Configurações.

Exibição de dados

Você pode visualizar uma amostra dos dados para ver e validar a forma dos seus dados enquanto projeta seu pipeline de dados.

Os seguintes requisitos devem ser atendidos:

  • A visualização de dados está habilitada no nível do locatário no Administração.

    Ative Configurações > Controle de recursos > Visualizando dados no Integração de dados.

  • Você recebeu a função Pode visualizar dados no espaço onde reside a conexão.

  • Você recebeu a função Pode visualizar no espaço onde reside o projeto.

Nota informativaQuando projetos e conexões são criados em um espaço pessoal, o proprietário sempre pode visualizar os dados.

Para visualizar dados de amostra na guia Conjuntos de dados na exibição Design:

  • Clique em Exibir dados em Objetos físicos.

Uma amostra dos dados é exibida. Você pode definir quantas linhas de dados incluir na amostra com Número de linhas.

Para alternar entre conjuntos de dados e tabelas:

  • Selecione Conjuntos de dados para visualizar a representação lógica dos dados.

  • Selecione Objetos físicos para visualizar a representação física no banco de dados como tabelas e exibições.

    Nota de notíciasEsta opção não está disponível se a representação física ainda não tiver sido criada.

Você pode filtrar os dados de amostra de duas maneiras:

  • Use filtro para filtrar quais dados de amostra serão recuperados.

    Por exemplo, se você usar o filtro ${OrderYear}>2023 e Número de linhas estiver definido como 10, você obterá uma amostra de 10 pedidos de 2024.

  • Filtre os dados de amostra por uma coluna específica.

    Isso afetará apenas os dados de amostra existentes. Se você usava o filtro para incluir apenas pedidos de 2024 e definia o filtro de coluna para mostrar pedidos de 2022, o resultado seria uma amostra vazia.

Você também pode classificar a amostra de dados por uma coluna específica. A classificação afetará apenas os dados de amostra existentes. Se você usava filtro para incluir apenas pedidos de 2024 e inverter a ordem de classificação, os dados de amostra ainda conterão apenas pedidos de 2024.

Você pode ocultar colunas na exibição de dados:

  • Oculte uma única coluna clicando em na coluna e depois em Ocultar coluna.

  • Oculte várias colunas clicando em em qualquer coluna e depois em Exibir colunas. Isso permite controlar a visibilidade de todas as colunas da exibição.

Validando e ajustando os conjuntos de dados

Você pode validar todos os conjuntos de dados incluídos na tarefa de dados.

Expanda Validar e ajustar para ver todos os erros de validação e alterações de design.

Validando os conjuntos de dados

  • Clique em Validar conjuntos de dados para validar os conjuntos de dados.

A validação inclui verificar se:

  • Todas as tabelas têm uma chave primária

  • Não estão faltando atributos.

  • Não há nomes duplicados de tabelas ou colunas.

Você também receberá uma lista de alterações de design em comparação com a origem:

  • Tabelas e colunas adicionadas

  • Tabelas e colunas descartadas

  • Tabelas e colunas renomeadas

  • Chaves primárias e tipos de dados alterados

Expanda Validar e ajustar para ver todos os erros de validação e alterações de design.

  • Corrija os erros de validação e valide os conjuntos de dados novamente.

  • A maioria das alterações de design pode ser ajustada automaticamente, exceto as chaves primárias ou os tipos de dados alterados. Nesse caso, você precisa sincronizar os conjuntos de dados.

Preparando os conjuntos de dados

Você pode preparar conjuntos de dados para ajustar as alterações de design sem perda de dados, se possível. Se houver alterações de design que não possam ser ajustadas sem perda de dados, você terá a opção de recriar tabelas a partir da origem com perda de dados.

Isso requer a interrupção da tarefa.

  • Clique em e em Preparar.

Quando os conjuntos de dados estiverem preparados, valide-os antes de reiniciar a tarefa de armazenamento.

Recriando conjuntos de dados

Você pode recriar os conjuntos de dados a partir da origem. Quando você recriar um conjunto de dados, haverá perda de dados. Desde que você tenha os dados de origem, poderá recarregá-los a partir da origem.

Isso requer a interrupção da tarefa.

  • Clique em e depois em Recriar.

Limitações

  • No Google BigQuery, se você excluir ou renomear uma coluna, isso recriará a tabela e resultará em perda de dados.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!