ボックス プロットによる数値データの範囲と分布の視覚化
この例では、日々の温度測定結果を使用して、数値データの範囲と分布を視覚化するボックス プロットの作成方法を示します。
データ セット
この例では、次の気象データを使用します。
- Location: Sweden > Gällivare Airport
- Date range: all data from 2010 to 2017
- Measurement: Average of the 24 hourly temperature observations in degrees Celsius
ロードされたデータセットには、2010 年~ 2017 年の期間中にスウェーデン北部の測候所から得られた毎日の平均気温の測定結果が含まれています。
メジャー
Temperature degrees Celsius という名前のマスター アイテム内のメジャーと、数式 Avg([Average of the 24 hourly temperature observations in degrees Celsius]) を作成して、データセット内の平均気温の測定結果をメジャーとして使用します。
ビジュアライゼーション
ボックス プロットをシートに追加し、次のデータのプロパティを設定します。
- 軸:Date (日) および Year (年)。順序が重要です。Date が最初の軸である必要があります。
- [メジャー]: Temperature degrees Celsius。マスター アイテムとして作成されたメジャーです。
この例では、デフォルトのボックス プロットのプリセット、[標準 (テューキー)] でひげの長さを [1.5 四分位範囲] にして使用します。
探索
ボックス プロットは、毎日の気温の測定結果の分布を可視化します。ビジュアライゼーションは、平均気温の順にソートされます。各年の平均気温は、各ボックスの中心線によって示されます。ボックスは第 1 四分位から第 3 四分位まで伸び、ひげは 1.5 四分位範囲に伸びています。また、ひげの外側に配置された値である、外れ値もあります。マウスを外れ値のポイントに合わせると、詳細を表示できます。
ボックス プロットで、2010 年のボックスとひげが最も長いことが分かります。これは、2010 年は、測定された気温の分布が最も広いことを示します。また、平均気温が最も低い年であることも分かります。
2017 年は、データセットに最初の月の測定値しか含まれていないので、2017 年の範囲は小さくなっています。