Configurando a qualidade dos dados
Depois de calcular a qualidade dos dados no seu conjunto de dados pela primeira vez, você tem a possibilidade de atualizar esse cálculo e personalizá-lo de acordo com suas necessidades.
- Qlik Talend Cloud Enterprise
- Qlik Talend Cloud Premium
- Qlik Cloud Analytics Premium
- Qlik Cloud Analytics Enterprise
- Qlik Sense Enterprise SaaS
Selecionando o tamanho da amostra e o modo de processamento
Para poder personalizar o tamanho da amostra para o cálculo da qualidade, você precisa ter clicado previamente em Calcular uma vez no seu conjunto de dados.
-
No Qlik Talend Data Integration > Catálogo, abra seu conjunto de dados.
-
Dependendo de como você deseja calcular a qualidade dos dados:
-
Clique em Atualizar para recalcular a qualidade dos dados usando os parâmetros aplicados anteriormente.
-
Clique na seta para baixo ao lado do botão Atualizar para expandir o painel Qualidade e perfil e personalizar o recálculo.
-
-
Em Tamanho da amostra, insira o tamanho da amostra na qual você deseja calcular a qualidade dos dados:
-
Número de linhas: insira o número de linhas nas quais você deseja calcular a qualidade dos dados. O valor máximo é de 100.000 linhas no modo pull-up; não há valor máximo no modo push-down.
-
Porcentagem do conjunto de dados: como alternativa, insira a porcentagem do conjunto de dados no qual você deseja calcular a qualidade dos dados. Valores decimais não são permitidos. Para conjuntos de dados grandes, se 1% do conjunto de dados for maior que o número máximo de linhas permitidas (100.000 linhas), essa opção não será exibida.
-
-
Em Modo de processamento, selecione o modo de processamento a ser usado ao calcular a qualidade dos dados:
-
Push-down: atualmente disponível apenas para conjuntos de dados do Snowflake e Databricks. Isso aciona o cálculo de qualidade no lado do banco de dados, custando créditos Snowflake ou Databricks.
-
Pull-up: disponível para todos os conjuntos de dados. Ele aciona a computação da qualidade no Qlik Cloud.
-
-
Clique em Atualizar para recalcular a qualidade dos dados de acordo com suas configurações.
Os indicadores de qualidade dos dados, assim como o tamanho da amostra, são exibidos na Visão geral. O tempo de processamento varia dependendo do tamanho da amostra. Observe que a visualização de dados sempre exibe apenas 100 registros.
O cálculo da qualidade dos dados também pode ser acionado e personalizado por meio da API pública da Qlik.
Para o agendamento da qualidade dos dados, o modelo do Qlik Automate Agendar cálculos de qualidade de dados pode ser usado. Consulte All templates para obter mais informações.
Filtrando a pré-visualização do conjunto de dados por status de qualidade
Ao visualizar seu conjunto de dados na guia Pré-visualização de dados, os resultados de qualidade são representados visualmente usando uma barra de cores nos cabeçalhos das colunas, bem como no painel direito para tipos de dados e regras de validação.
Cada segmento da barra de qualidade corresponde a uma das categorias de resultado. No cabeçalho da coluna, você pode ver os seguintes indicadores:
-
Inválido (vermelho): mostra a porcentagem de valores na amostra que são considerados inválidos.
-
Vazio ou nulo (preto): indica a porcentagem de valores na amostra que estão vazios ou nulos.
-
Válido (verde): exibe a porcentagem de valores válidos na amostra. A porcentagem não leva valores vazios em consideração.
Ao clicar em um cabeçalho de coluna, abre-se o painel direito onde você pode ver os mesmos indicadores para os tipos de dados.
Além disso, a barra de qualidade para regras de validação no painel direito exibe:
- Não executável (vermelho claro): a regra não pode ser executada com base nesses valores.
- Inválido (vermelho). Fazendo o seguinte:
- Eles atendem à condição (if), mas não à expressão de validação (then), e nenhuma expressão de validação alternativa (else) foi definida.
- Eles não atendem à condição (if) nem a expressão de validação alternativa (else).
- Não aplicável (verde claro): os valores não atendem à condição (if), e nenhuma expressão de validação alternativa (else) foi definida.
- Válido (verde): os valores atendem a todas as instruções da regra.
Para obter mais informações sobre regras de validação, consulte Trabalhando com regras de validação.
Você pode filtrar a visualização do conjunto de dados clicando em qualquer segmento da barra de qualidade, seja no cabeçalho da coluna ou nas seções de regras e tipos de dados do painel direito. Ao clicar em um segmento colorido:
- Um filtro é aplicado à visualização atual para exibir apenas as linhas correspondentes a esse resultado de qualidade de dados (para a coluna selecionada ou grupo de colunas) e para isolar problemas de qualidade.
- O filtro pode ser removido para retornar à visualização completa da amostra. Para remover filtros, clique em Limpar todos os filtros.
Essa filtragem ajuda você a inspecionar rapidamente apenas os valores de interesse em seu conjunto de dados, simplificando a revisão e a investigação de registros por seu status de qualidade de dados.