Visualizando o intervalo e a distribuição de dados numéricos com um gráfico de caixa
Este exemplo mostra como criar um gráfico de caixa para visualizar o intervalo e a distribuição de dados numéricos usando medições de temperatura diárias.
Dataset
Neste exemplo, usaremos os seguintes dados meteorológicos.
- Location: Sweden > Gällivare Airport
- Date range: all data from 2010 to 2017
- Measurement: Average of the 24 hourly temperature observations in degrees Celsius
O conjunto de dados que é carregado contém medições diárias de temperatura média de uma estação meteorológica no norte da Suécia durante o período de 2010 a 2017.
Medida
Usamos a medição de temperatura média do conjunto de dados como a medida, criando uma medida em Itens mestre com o nome Temperature degrees Celsius, e a expressão Avg([Average of the 24 hourly temperature observations in degrees Celsius]).
Visualização
Adicionamos um gráfico de caixa à pasta e definimos as seguintes propriedades de dados:
- Dimensão: Date (data) e Year (ano). A ordem é importante; Date precisa ser a primeira dimensão.
- Medida: Temperature degrees Celsius; a medida que foi criada como item mestre.
Neste exemplo, usamos a predefinição de gráfico de caixa padrão Padrão (Tukey) com intervalos inter-quartil de 1,5 para o comprimento do whisker.
Descoberta
O gráfico de caixa exibe a distribuição das medições diárias de temperatura. A visualização é organizada em ordem de temperatura média. A temperatura média de cada ano é ilustrada pela linha do meio em cada caixa. A caixa se estende do primeiro quartil ao terceiro quartil, e os whiskers, em intervalos de inter-quartil de 1,5. Também há vários valores de discrepância, os pontos que são colocados fora dos whiskers. Você pode posicionar o mouse sobre uma discrepância para ver os detalhes.
No gráfico de caixa, podemos ver que o ano de 2010 tem a caixa e os whiskers mais longos. Isso mostra que o ano de 2010 tem a maior distribuição de temperaturas medidas. Também parece ser o ano mais frio, em média.
O intervalo de 2017 é pequeno, já que o conjunto de dados somente contém medições dos primeiros meses do ano.