Qualidade de dados e descoberta de dados
Depois de abrir um conjunto de dados, você pode dar uma olhada em várias partes da visão geral para saber mais sobre sua qualidade geral, seu esquema, as estatísticas de qualidade e os tipos semânticos de cada coluna.
Indicadores de qualidade do conjunto de dados
Ao abrir a visão geral de um conjunto de dados que acabou de ser registrado, a maior parte das informações fica esmaecida. Para calcular a qualidade dos dados pela primeira vez, clique no botão Calcular. Se a qualidade já foi calculada uma vez, mas você deseja ter certeza de que os dados estão atualizados, clique no botão Atualizar.
Cada computação ou atualização no pushdown lhe custará créditos do Snowflake. Para obter mais informações, consulte Data quality for connection-based datasets.
Existem duas seções principais onde a qualidade é exibida.
-
A área de Qualidade de dados, que inclui:
-
A repartição de valores válidos, inválidos e vazios em todo o conjunto de dados na forma de uma barra de qualidade com três cores e suas respectivas porcentagens.
-
Uma pontuação de Validade, que expressa a porcentagem de valores válidos, sem levar em consideração valores vazios.
-
Uma pontuação de Integridade, que expressa a porcentagem de valores que não estão vazios.
-
Um tempo de Originalidade, expressando a última atualização da fonte de dados. Para obter mais informações, consulte Originalidade dos dados.
-
-
A área de Esquema que mostra os diferentes campos do conjunto de dados, qual tipo de dados ou tipo semântico foi aplicado, e uma barra de qualidade para cada campo do conjunto de dados.
Descoberta de tipos semânticos
Cada campo de um conjunto de dados recebe automaticamente um tipo semântico para descrever melhor seu conteúdo. Nos bastidores, ocorre uma operação de descoberta de dados para determinar qual tipo atribuir.
A descoberta de dados calcula quantos valores em uma coluna correspondem a cada tipo semântico e, se o resultado for maior que 40%, atribui o tipo semântico à coluna.
Como a porcentagem é calculada?
Essa porcentagem é a soma de duas porcentagens:
-
Uma porcentagem representa o número de valores correspondentes ao tipo semântico; até 100% alocado. Para determinar se um valor corresponde a um tipo semântico, a descoberta de dados depende do tipo semântico:
-
Dicionário: o valor corresponde a um valor do dicionário? Pontuação, maiúsculas e minúsculas, espaços e acentos são ignorados.
-
Expressão regular: o valor corresponde à expressão regular?
-
Composto: o valor é descoberto em pelo menos um filho?
Um tipo composto é um grupo de tipos semânticos existentes, chamados filhos.
Se a resposta for positiva, o valor é considerado válido.
-
-
A outra porcentagem representa a semelhança entre o nome da coluna e o nome do tipo semântico; até 10% alocados.
Para comparar os nomes:
-
O algoritmo Levenshtein é usado. Calcula o número mínimo de edições (inserção, exclusão ou substituição) necessárias para transformar uma string em outra.
-
O caso e os acentos são ignorados.
-
Se as strings contiverem espaços, a ordem das palavras será ignorada. Por exemplo, US Phone e Phone US são considerados idênticos.
A porcentagem máxima é 100%. Se todos os valores corresponderem a um tipo semântico e o nome da coluna for idêntico ao nome do tipo semântico, o resultado ainda será 100%.
-
Descoberta de tipos de dados
Em vez de tipos semânticos, também podem ser atribuídos tipos de dados nativos. Se nenhum tipo semântico obtiver mais de 40%, a descoberta de dados atribuirá automaticamente um tipo de dados.
Para determinar de que tipo é um valor, a descoberta de dados segue uma ordem:
-
O valor está vazio?
-
O valor do tipo é booleano? true e false são os únicos valores considerados do tipo booleano.
-
O valor do tipo é inteiro?
-
O valor do tipo é decimal?
-
O valor é do tipo data?
-
Se o valor não for de um dos tipos acima, será considerado um valor de texto.
Como a verificação é incremental, um valor é de apenas um tipo. Por exemplo, o valor 5 é do tipo inteiro. Não será considerado do tipo texto.