Visualizar el rango y la distribución de datos numéricos con un diagrama de caja

Este ejemplo muestra cómo hacer un diagrama de caja para visualizar el rango y la distribución de datos numéricos usando mediciones de temperatura diarias desde Qlik DataMarket.

Conjunto de datos

En este ejemplo utilizaremos datos meteorológicos cargados desde la fuente de datos de Weather for more than 2500 cities worldwide en Qlik DataMarket. El conjunto de datos se basa en las siguientes selecciones en Qlik DataMarket:

  • Location: Sweden > Gällivare Airport, Kiruna Airport, Kramfors Sollefteå Airport, Luleå Airport, Ostersund Froson, Skellefteå Airport, Umeå Airport, Örnsköldsvik Airport
  • Date: All time
  • Measurement: Average of the 24 hourly temperature observations in degrees Celsius

El conjunto de datos cargado contiene mediciones de temperatura promedio diarias de estaciones meteorológicas situadas en el norte de Suecia durante el período de 2010 a 2017.

Medida

Utilizamos la medición de temperatura promedio en el conjunto de datos como la medida, creando una medida en elementos maestros con el nombre Temperature degrees Celsius y la expresión Avg([Average of the 24 hourly temperature observations in degrees Celsius]).

Visualización

Agregamos un diagrama de caja a la hoja y establecemos las siguientes propiedades de datos:

  • Dimensión: Date (fecha) y Year (año). El orden es importante; Date debe ser la primera dimensión.
  • Medida: Temperature degrees Celsius; la medida que se creó como un elemento maestro.

En este ejemplo usamos el preajuste de trazado de caja predeterminado Estándar (Tukey), con el rango intercuartílico de longitud de bigote 1,5.

Box plot visualization.

Descubrimiento

El diagrama de caja visualiza la distribución de las mediciones de temperatura diarias. La visualización se ordena por orden de temperatura media. La temperatura media de cada año se ilustra mediante la línea en el medio de cada caja. La caja se extiende desde el primer cuartil al tercer cuartil, y los bigotes se extienden a 1,5 rangos intercuartílicos. También hay una serie de valores atípicos, los puntos que se colocan fuera de los bigotes. Puede colocar el puntero del ratón sobre un punto atípico y ver los detalles.

En el diagrama de caja, podemos ver que el año 2010 tiene la caja y los bigotes más largos. Eso muestra que el año 2010 tiene la mayor distribución de temperaturas medidas. También parece ser el año más frío en promedio.

El rango de 2017 es pequeño, ya que el conjunto de datos solo contiene mediciones de los primeros meses del año.