Visualizzazione dell'intervallo e della distribuzione di dati numerici con un box plot

Questo esempio mostra come realizzare un box plot per visualizzare l'intervallo e la distribuzione di dati numerici utilizzando misurazioni di temperatura giornaliere ottenute da Qlik DataMarket.

Box plot visualization.

Set di dati

In questo esempio si utilizzeranno i dati meteorologici caricati dalla sorgente dati Weather for more than 2500 cities worldwide di Qlik DataMarket. Il set di dati è basato sulle selezioni seguenti in Qlik DataMarket:

  • Location: Sweden > Gällivare Airport, Kiruna Airport, Kramfors Sollefteå Airport, Luleå Airport, Ostersund Froson, Skellefteå Airport, Umeå Airport, Örnsköldsvik Airport
  • Date: All time
  • Measurement: Average of the 24 hourly temperature observations in degrees Celsius

Il set di dati caricato contiene una misurazione della temperatura media quotidiana rilevata da alcune stazioni meteorologiche nel nord della Svezia durante il periodo 2010-2017.

Misura

Si utilizzerà la misurazione della temperatura media nel set di dati come misura, con la creazione di una variabile .measure in Voci principali con il nome Temperature degrees Celsius e l'espressione Avg([Average of the 24 hourly temperature observations in degrees Celsius]).

Visualizzazione

Si aggiunge un box plot al foglio e si impostano le seguenti proprietà dei dati:

  • Dimensione: Date (data) e Year (anno). L'ordine è importante: Date deve essere la prima dimensione.
  • Misura: Temperature degrees Celsius; la misura creata come voce principale.

In questo esempio si utilizzerà il set di impostazioni predefinite del box plot, Standard (Tukey) con la lunghezza baffo uguale a 1,5 scarti interquartili.

Box plot visualization.

Rilevazione

Il box plot visualizza la distribuzione delle misurazioni giornaliere della temperatura. La visualizzazione è in ordine di temperatura media. La temperatura media per ogni anno è illustra dalla linea centrale di ogni scatola. La scatola si estende dal primo quartile al terzo quartile, mentre i baffi si estendono di 1,5 scarti interquartili. Vi è anche un certo numero di valori outlier, i punti posizionati all'esterno dei baffi. È possibile passare il puntatore del mouse su un punto outlier e visualizzarne i dettagli.

Nel box plot è possibile vedere che l'anno 2010 ha la scatola e i baffi più lunghi. Ciò mostra che il 2010 ha la distribuzione più ampia di temperature misurate. Sembra anche essere l'anno mediamente più freddo.

L'intervallo del 2017 è piccolo perché il set di dati contiene solo le misurazioni dei primi mesi dell'anno.