Ir para conteúdo principal Pular para conteúdo complementar

Configurando a qualidade dos dados

Depois de calcular a qualidade dos dados no seu conjunto de dados pela primeira vez, você tem a possibilidade de atualizar esse cálculo e personalizá-lo de acordo com suas necessidades.

Nota informativaVocê precisa de uma das seguintes assinaturas:
  • Qlik Talend Cloud Enterprise
  • Qlik Talend Cloud Premium
  • Qlik Cloud Analytics Premium
  • Qlik Cloud Analytics Enterprise
  • Qlik Sense Enterprise SaaS

Selecionando o tamanho da amostra e o modo de processamento

Para poder personalizar o tamanho da amostra para o cálculo da qualidade, você precisa ter clicado previamente em Calcular uma vez no seu conjunto de dados.

  1. No Qlik Talend Data Integration > Catálogo, abra seu conjunto de dados.

  2. Dependendo de como você deseja calcular a qualidade dos dados:

    • Clique em Atualizar para recalcular a qualidade dos dados usando os parâmetros aplicados anteriormente.

    • Clique na seta para baixo ao lado do botão Atualizar para expandir o painel Qualidade e perfil e personalizar o recálculo.

  3. Em Tamanho da amostra, insira o tamanho da amostra na qual você deseja calcular a qualidade dos dados:

    • Número de linhas: insira o número de linhas nas quais você deseja calcular a qualidade dos dados. O valor máximo é de 100.000 linhas no modo pull-up; não há valor máximo no modo push-down.

    • Porcentagem do conjunto de dados: como alternativa, insira a porcentagem do conjunto de dados no qual você deseja calcular a qualidade dos dados. Valores decimais não são permitidos. Para conjuntos de dados grandes, se 1% do conjunto de dados for maior que o número máximo de linhas permitidas (100.000 linhas), essa opção não será exibida.

  4. Em Modo de processamento, selecione o modo de processamento a ser usado ao calcular a qualidade dos dados:

    • Push-down: atualmente disponível apenas para conjuntos de dados do Snowflake e Databricks. Isso aciona o cálculo de qualidade no lado do banco de dados, custando créditos Snowflake ou Databricks.

    • Pull-up: disponível para todos os conjuntos de dados. Ele aciona a computação da qualidade no Qlik Cloud.

  5. Clique em Atualizar para recalcular a qualidade dos dados de acordo com suas configurações.

Os indicadores de qualidade dos dados, assim como o tamanho da amostra, são exibidos na Visão geral. O tempo de processamento varia dependendo do tamanho da amostra. Observe que a visualização de dados sempre exibe apenas 100 registros.

Nota informativaA qualidade dos dados não pode ser calculada para conjuntos de dados com mais de 500 colunas.

O cálculo da qualidade dos dados também pode ser acionado e personalizado por meio da API pública da Qlik.

Para o agendamento da qualidade dos dados, o modelo do Qlik Automate Agendar cálculos de qualidade de dados pode ser usado. Consulte All templates para obter mais informações.

Filtrando a pré-visualização do conjunto de dados por status de qualidade

Ao visualizar seu conjunto de dados na guia Pré-visualização de dados, os resultados de qualidade são representados visualmente usando uma barra de cores nos cabeçalhos das colunas, bem como no painel direito para tipos de dados e regras de validação.

Cada segmento da barra de qualidade corresponde a uma das categorias de resultado. No cabeçalho da coluna, você pode ver os seguintes indicadores:

  • Inválido (vermelho): mostra a porcentagem de valores na amostra que são considerados inválidos.

  • Vazio ou nulo (preto): indica a porcentagem de valores na amostra que estão vazios ou nulos.

  • Válido (verde): exibe a porcentagem de valores válidos na amostra. A porcentagem não leva valores vazios em consideração.

Ao clicar em um cabeçalho de coluna, abre-se o painel direito onde você pode ver os mesmos indicadores para os tipos de dados.

Além disso, a barra de qualidade para regras de validação no painel direito exibe:

  • Não executável (vermelho claro): a regra não pode ser executada com base nesses valores.
  • Inválido (vermelho). Fazendo o seguinte:
    • Eles atendem à condição (if), mas não à expressão de validação (then), e nenhuma expressão de validação alternativa (else) foi definida.
    • Eles não atendem à condição (if) nem a expressão de validação alternativa (else).
  • Não aplicável (verde claro): os valores não atendem à condição (if), e nenhuma expressão de validação alternativa (else) foi definida.
  • Válido (verde): os valores atendem a todas as instruções da regra.

Para obter mais informações sobre regras de validação, consulte Trabalhando com regras de validação.

Você pode filtrar a visualização do conjunto de dados clicando em qualquer segmento da barra de qualidade, seja no cabeçalho da coluna ou nas seções de regras e tipos de dados do painel direito. Ao clicar em um segmento colorido:

  • Um filtro é aplicado à visualização atual para exibir apenas as linhas correspondentes a esse resultado de qualidade de dados (para a coluna selecionada ou grupo de colunas) e para isolar problemas de qualidade.
  • O filtro pode ser removido para retornar à visualização completa da amostra. Para remover filtros, clique em Limpar todos os filtros.

Essa filtragem ajuda você a inspecionar rapidamente apenas os valores de interesse em seu conjunto de dados, simplificando a revisão e a investigação de registros por seu status de qualidade de dados.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!