Ir para conteúdo principal

Definir perfis de dados

Estatísticas de perfil fornecem análises de colunas que medem a incidência, os intervalos e os valores que ocorrem em conjuntos de dados. Essas métricas descrevem relacionamentos entre valores de campos, como:

  • Contagem de valores distintos (cardinalidade)
  • Valores de amostra, valores mais comuns e frequência de valor
  • Redundâncias úteis na identificação de valores padrão ou potencialmente duplicados
  • Contagens de valores nulos, numéricos ou de cadeias
  • Informações sobre intervalos de valores, incluindo mínimo, máximo, média, soma e desvio padrão

Com a definição de perfis, os administradores de dados acessam informações técnicas valiosas sobre seus conjuntos de dados. Essas informações auxiliam na organização e atribuição de recursos e do acesso. Os desenvolvedores de aplicativos usam estatísticas de perfil e amostragem de dados para obter ideias e orientações de criação de aplicativos e planejamento de visualizações. A definição de perfil de campos pode ajudar analistas de dados e usuários de negócios a obter insights com mais rapidez. Eles podem visualizar métricas de perfil de campo valiosas sem a necessidade de criar um aplicativo primeiro.

Catalog provides two different views of field profile data: List view and Tile view. List view is a tabular summary of configurable profile statistics and Tile view is a card-based, visual representation of fields laid out as a grid. Select the Tile Select tile icon for tile view or List Select list icon for list view icon to switch between profile views.

Exibição lado a lado: O perfil dos campos é definido por métricas que são significativas para o tipo de dados contidos nesses campos (por exemplo: texto versus valores numéricos)

Profile tile view

Exibição em lista: Selecione estatísticas de perfil de interesse na lista suspensa Colunas

Profile list view

Exibição Perfil lado a lado

A exibição Perfil lado a lado é um perfil de campo visual projetado para exibir o conteúdo mais informativo para aquele tipo de campo. O tipo de cartão de visualização padrão mostrado é determinado dependendo de o número de valores numéricos ou de texto ser maior ou não para aquele campo. Por exemplo, para campos com texto e valores numéricos, o tipo de cartão Most Common Values (Valores mais comuns) será exibido por padrão se houver mais valores de texto, e o tipo de cartão de distribuição numérico Binned Frequency (Frequência compartimentada) será exibido se houver mais valores numéricos no campo. Uma chave suspensa é fornecida para que você possa alternar para o tipo de cartão Most Common Values Frequency (Frequência de valores mais comuns) para qualquer campo que tenha valores não exclusivos quando A for selecionado. Outra opção é retornar ao cartão de distribuição numérica se #1 estiver selecionado. Observe que todos os tipos de cartão incluem o número de valores nulos, caso o campo tenha valores nulos.

Cartões de exibição lado a lado: Distribuição numérica Binned Frequency (Frequência compartimentada), Sample Values (Valores de amostra) e Most Common Values Frequency (Frequência de valores mais comuns)

Tile view profile cards

Cartão Sample values (Valores de amostra)

O cartão Sample values (Valores de amostra) é mostrado quando todos os valores são únicos e somente texto. Ele listará (até) os três primeiros valores.

Cartão de perfil Sample values (Valores de amostra)
Profile card sample values

Critérios de perfil de Sample values (Valores de amostra): Os perfis dos valores de campo são definidos com esse cartão quando a cardinalidade é alta (todos os valores distintos). No caso em que todos os valores são baseados em texto e exclusivos, alguns valores de amostra fornecem a melhor exibição inicial dos tipos dos dados desse campo.

Cada cartão de perfil Sample values (Valores de amostra) fornece: 

  • Nome do campo
  • Cardinalidade
  • Até três valores de amostra (os campos podem ter menos de três valores)

Cartão Most common values frequency (Frequência de valores mais comuns)

O cartão Most common values frequency (Frequência de valores mais comuns) mostra os dois valores mais comuns e a frequência desses valores e todos os outros valores combinados como Outros, a menos que haja apenas três valores, caso em que todos os três valores são exibidos com a frequência de cada um. Esse cartão de perfil pode ser aplicado a valores de dados de texto, numéricos ou mistos.

Cartão de perfil Most common values frequency (Frequência de valores mais comuns) com valores de texto
Profile card most common values frequency
Cartão de perfil Most common values frequency (Frequência de valores mais comuns) com valores numéricos
Profile card most common values

Critérios de Most common values frequency (Frequência de valores mais comuns): O perfil de campos que têm poucos valores ou uma distribuição assimétrica de valores é definido com base no cartão Most common values frequency (Frequência de valores mais comuns). Essa definição de perfil é aplicada apenas quando há várias instâncias dos mesmos valores. Os usuários podem obter um insight rápido da distribuição dos valores dos campos. Se os dados do campo incluírem texto e valores numéricos e houver mais texto do que valores numéricos, o cartão Most common values frequency (Frequência de valores mais comuns) será mostrado. O botão de alternância Binned frequency (Frequência compartimentada) é fornecido quando há mais de três valores numéricos no campo.

Cada cartão de perfil Most common values frequency (Frequência de valores mais comuns) fornece: 

  • Nome do campo
  • Cardinalidade
  • Valores mais comuns e sua frequência
  • Outra frequência combinada dos valores restantes

Cartão Binned frequency (Frequência compartimentada)

O cartão Binned frequency (Frequência compartimentada) mostra informações de distribuição e definição de perfil que são relevantes para campos numéricos, incluindo valores de dados mínimos, médios e máximos. Se os dados do campo incluírem texto e valores numéricos e houver mais valores numéricos do que de texto, o cartão Binned frequency (Frequência compartimentada) será exibido. O tipo de cartão Most Common Values Frequency (Frequência de valores mais comuns) está disponível para todos os campos que possuem valores não exclusivos.

Cartão de perfil Binned frequency (Frequência compartimentada)
Profile card binned frequency

Cada cartão de perfil Binned frequency (Frequência compartimentada) fornece: 

  • Nome do campo
  • Cardinalidade
  • Histograma mostrando a distribuição de dados numéricos
  • Valor mínimo
  • Valor médio (a soma dos números dividida pelo número total de valores no conjunto de dados)
  • Valor máximo

Exibição em lista de perfis

A exibição em lista de perfis fornece uma tabela com opções de estatísticas de perfil. Os usuários verificam as métricas de interesse que são mais significativas para o conjunto de dados cujo perfil está sendo definido em Columns. As primeiras nove estatísticas são pré-selecionadas por padrão.

Na guia Início do hub, navegue até Seus dados ou, em Catálogo, filtre por TiposDados.

  1. Selecione Abrir conjunto de dados e, em seguida, Dados de perfil. Essa ação abrirá a página Perfil do conjunto de dados. Selecione o botão Colunas e coloque uma marca de seleção ao lado das estatísticas de perfil de seu interesse. Essas estatísticas devem ser selecionadas (com uma marca de seleção ao lado) para que possam definir o perfil do campo (coluna) e aparecer na tabela. A lista a seguir detalha as estatísticas de perfil disponíveis.

    Estatísticas de perfil
    Estatística Descrição
    Nome Nome do campo (exemplo: CategoryID)
    Tipo de dados

    O Qlik Sense registra dados de muitos sistemas diferentes. Um mapeamento de tipos de dados uniformes externos para internos é imposto aos dados do campo (coluna) para fins informativos. Os valores de tipos de dados com suporte incluem:

    • Data: Uma data contendo mês, dia e ano no formato ISO 8601 AAAA-MM-DD

    • Hora: Um valor de tempo contendo horas, minutos e segundos no formato ISO 8601 hh.mm.ss.sss±hh:mm
    • Data e hora: Um valor de data e hora contendo Ano, Mês, Dia, Hora, Minuto, Segundo e frações no formato AAAA-MM-DDThh.mm.ss.sss
    • Carimbo de data e hora: Um valor de carimbo de data/hora contendo Ano, Mês, Dia, Hora, Minuto, Segundo, frações e fuso horário no formato AAAA-MM-DDThh.mm.ss.sssZ
    • Cadeia: Dados de caracteres que representam texto
    • Duplo: Um tipo de dado numérico de ponto flutuante IEEE 754 de 64 bits com dupla precisão
    • Decimal: Um tipo de dado numérico exato definido por sua precisão (número total de dígitos) e escala (número de dígitos à direita da vírgula decimal)
    • Inteiro: Números inteiros positivos ou negativos
    • Booleano: Um valor booleano (TRUE/FALSE)
    • Binário: Dados categóricos que podem assumir exatamente dois valores possíveis, como "1" e "2"
    • Personalizado: Tipo que está fora dos tipos mapeados conhecidos pelo sistema
    Valores distintos Cardinalidade, número de valores distintos presentes para esse campo
    Valores de amostra Valores de amostra (exibição de 3 valores de amostra)
    Soma Soma de todos os valores nesse campo ("0" é exibido para campos de cadeia)
    Mínimo Valor mínimo observado para esse campo (campos numéricos)
    Máximo Valor máximo observado para esse campo (campos numéricos)
    Média Valor médio observado para esse campo
    Tags do sistema Tags de arquivo aplicadas para identificar o conjunto de códigos (por exemplo: $ascii, $text)
    Desvio padrão Desvio padrão para campos numéricos
    Positivos Número de valores positivos
    Negativos Número de valores negativos
    Valores zero Número de valores "0"
    Cadeias vazias Número de cadeias vazias
    Comprimento mínimo Menor comprimento de caracteres observado
    Comprimento médio Comprimento médio de caracteres observado
    Comprimento máximo Maior comprimento de caracteres observado
    Primeiro valor classificado O primeiro valor (mais baixo) de peso de classificação (campos de cadeia)
    Último valor classificado O último valor (mais alto) de peso de classificação (campos de cadeia)
    Valores numéricos Número de valores numéricos
    Valores de texto Número de valores de texto
    Valores mais frequentes Os três valores mais comuns no campo

Obter amostras de dados

Uma amostra de dados é um subconjunto de um conjunto de dados de população. É uma ferramenta útil para os administradores de dados garantirem que os dados estejam em conformidade com os padrões e formatos esperados. Os criadores de aplicativo podem ter uma noção dos campos e dos dados de campos dentro do contexto de outros registros e do conjunto de dados. Essas exibições fornecem um panorama inicial dos dados, e os desenvolvedores podem começar a explorar esses dados para análises e possíveis correlações.

Selecione Amostra de dados para visualizar uma amostra dos primeiros 20 valores de dados para cada campo

Dataset engine sample
  • Selecione o botão icon dropdown arrow e depois Amostra para visualizar uma amostra (n=20) de valores de dados para cada campo.

Permissões

Permissões são necessárias para definir perfis e obter amostras de dados. A ação de definir um perfil é mapeada para a permissão mais ampla Definir perfil de fonte de dados. Para obter mais informações, consulte Gerenciando permissões em espaços compartilhados ou Gerenciando permissões em espaços gerenciados.

  • Definir perfil de dados > Definir perfil de fonte de dados

Exemplo