Ir para conteúdo principal Pular para conteúdo complementar

Qualidade de dados e descoberta de dados

Depois de abrir um conjunto de dados, você pode dar uma olhada em várias partes da visão geral para saber mais sobre sua qualidade geral, seu esquema, as estatísticas de qualidade e os tipos semânticos de cada coluna.

Nota de advertênciaOs recursos de qualidade de dados e tipos semânticos estão disponíveis apenas para conjuntos de dados do Snowflake no momento. Os conjuntos de dados registrados de outras fontes além do Snowflake são perfeitamente utilizáveis para produtos de dados, mas não mostrarão nenhuma métrica de qualidade em sua visão geral.

Indicadores de qualidade do conjunto de dados

Ao abrir a visão geral de um conjunto de dados que acabou de ser registrado, a maior parte das informações fica esmaecida. Para calcular a qualidade dos dados pela primeira vez, clique no botão Calcular. Se a qualidade já foi calculada uma vez, mas você deseja ter certeza de que os dados estão atualizados, clique no botão Atualizar.

Cada computação ou atualização custará créditos do Snowflake. Para obter mais informações, consulte Qualidade de dados para conjuntos de dados do Snowflake.

Existem duas seções principais onde a qualidade é exibida.

  • A área de Qualidade de dados, que inclui:

    • A repartição de valores válidos, inválidos e vazios em todo o conjunto de dados na forma de uma barra de qualidade com três cores e suas respectivas porcentagens.

    • Uma pontuação de Validade, que expressa a porcentagem de valores válidos, sem levar em consideração valores vazios.

    • Uma pontuação de Integridade, que expressa a porcentagem de valores que não estão vazios.

  • A área de Esquema que mostra os diferentes campos do conjunto de dados, qual tipo de dados ou tipo semântico foi aplicado, e uma barra de qualidade para cada campo do conjunto de dados.

Nota de dicaSe o esquema e a qualidade do conjunto de dados não forem recuperados, verifique se a conexão que você configurou no hub do Qlik Analytics Services tem o campo Função preenchido corretamente ou se a própria função concede as permissões necessárias na tabela do banco de dados.

Descoberta de tipos semânticos

Cada campo de um conjunto de dados recebe automaticamente um tipo semântico para descrever melhor seu conteúdo. Nos bastidores, ocorre uma operação de descoberta de dados para determinar qual tipo atribuir.

A descoberta de dados calcula quantos valores em uma coluna correspondem a cada tipo semântico e, se o resultado for maior que 40%, atribui o tipo semântico à coluna.

Como a porcentagem é calculada?

Essa porcentagem é a soma de duas porcentagens:

  • Uma porcentagem representa o número de valores correspondentes ao tipo semântico; até 100% alocado. Para determinar se um valor corresponde a um tipo semântico, a descoberta de dados depende do tipo semântico:

    • Dicionário: o valor corresponde a um valor do dicionário? Pontuação, maiúsculas e minúsculas, espaços e acentos são ignorados.

    • Expressão regular: o valor corresponde à expressão regular?

    • Composto: o valor é descoberto em pelo menos um filho?

      Um tipo composto é um grupo de tipos semânticos existentes, chamados filhos.

    Se a resposta for positiva, o valor é considerado válido.

  • A outra porcentagem representa a semelhança entre o nome da coluna e o nome do tipo semântico; até 10% alocados.

    Para comparar os nomes:

    • O algoritmo Levenshtein é usado. Calcula o número mínimo de edições (inserção, exclusão ou substituição) necessárias para transformar uma string em outra.

    • O caso e os acentos são ignorados.

    • Se as strings contiverem espaços, a ordem das palavras será ignorada. Por exemplo, US Phone e Phone US são considerados idênticos.

    A porcentagem máxima é 100%. Se todos os valores corresponderem a um tipo semântico e o nome da coluna for idêntico ao nome do tipo semântico, o resultado ainda será 100%.

Descoberta de tipos de dados

Em vez de tipos semânticos, também podem ser atribuídos tipos de dados nativos. Se nenhum tipo semântico obtiver mais de 40%, a descoberta de dados atribuirá automaticamente um tipo de dados.

Para determinar de que tipo é um valor, a descoberta de dados segue uma ordem:

  1. O valor está vazio?

  2. O valor do tipo é booleano? verdadeiro e falso são os únicos valores considerados do tipo booleano.

  3. O valor do tipo é inteiro?

  4. O valor do tipo é decimal?

  5. O valor é do tipo data?

  6. Se o valor não for de um dos tipos acima, será considerado um valor de texto.

Como a verificação é incremental, um valor é de apenas um tipo. Por exemplo, o valor 5 é do tipo inteiro. Não será considerado do tipo texto.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!