箱ひげ図

提供: testwiki
2025年2月17日 (月) 19:11時点におけるimported>クエによる版 (荒らし行為があったので、以前の状態に差し戻し。)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動
アヤメ類花弁の長さの分布を種ごとに表す箱ひげ図(Iris flower data set

箱ひげ図(はこひげず、箱髭図、テンプレート:Lang-en-short)は、データの統計的ばらつきをわかりやすく表現するための統計図である。主に多くの水準からなる分布を視覚的に要約し、比較するために用いる。ジョン・テューキーが1970年代に提唱した。様々な分野で利用されるが、特に品質管理で盛んに用いられる。テンプレート:En)と、その両側に出たひげテンプレート:En)で表現されることからこの名がある[1]

定義

箱ひげ図は五数要約(テンプレート:En)と呼ばれる(頑健な)要約統計量

を表すグラフである。第1四分位点から第3四分位点までの高さに箱を描き、中央値で仕切りを描く。ただし、ひげや外れ値、箱の幅・形などの扱いにはいくつか変種がある。簡明なのは最大値と最小値をひげの端で表したものである。外れ値も扱うときには閉区間

[Q1/41.5IQR,Q3/4+1.5IQR](IQR=Q3/4Q1/4)

の外にあるものを(もしあれば)外れ値として個別に表示し、外れ値を除いたものの最大値・最小値にそれぞれひげの端をとるテンプレート:Sfn[2]母集団は実際には様々なタイプの確率分布に従うわけだが、箱ひげ図はそのような仮定に関係なく、データの分布を表現することができる。箱の各部分の間隔から分散歪度の程度を知ることもできる。

以下に箱ひげ図の具体例を挙げる:

箱ひげ図の具体例
箱ひげ図の具体例

このデータセット(値は図から読み取れる概略値とする)から、次のことが分かる。

  • 最小値 = 0.5
  • 第1四分位点 = 7
  • 中央値(第2四分位点) 8.5
  • 第3四分位点 = 9
  • 最大値 = 10
  • 四分位範囲(IQR) = 2
  • 3.5という値は"軽度の"外れ値、つまりQ1/4よりも 1.5×IQR から 3×IQR だけ下にある
  • 0.5という値は"極端な"外れ値、つまりQ1/4よりも 3×IQR 以上下にある
  • 外れ値以外の最小値は5
  • データは左に歪んでいる(負の歪度)

"軽度"および"極端"外れ値の境は、箱の長さの2倍の点である。なお、この図からデータの平均値は読み取れない。

変種

いろいろな統計パッケージで使われている箱ひげ図の中には、違う方式(例えば5%点と95%点をひげの端にする)を採用したものもある。このような方式は、中央値を中心とする分布を強調するテューキーの方式と異なり、またデータサイズが10を越えただけで(分布の形によらず)外れ値を出してしまう傾向がある。

脚注

テンプレート:Reflist

参考文献

関連項目

外部リンク

テンプレート:統計学

  1. 西岡康夫,数学チュートリアル やさしく語る 確率統計,1.6 箱ひげ図 p.13, オーム社, 2013, ISBN 9784274214073
  2. R言語boxplotもデフォルトではこのようにプロットする。