分位数

提供: testwiki
ナビゲーションに移動 検索に移動

分位数(ぶんいすう)、分位点(ぶんいてん)、分位値(ぶんいち)、クォンタイル (テンプレート:Lang-en-short) は、統計の代表値の1種である。

実数 q[0,1] に対し、q 分位数 (テンプレート:En) は、分布を q:1q に分割する値である。

ある種の正の整数 m に対し、分布を m 等分する m1 個の値、つまり、i=1,,m1 に対する i/m 分位数を、m 分位数(ただし m漢数字)という。i=1,,m1 番目の m 分位数をi m 分位数といい、また、m 等分された分布の k=1,,m 番目の部分を、k m 分位、または単にk 分位という。

ただし、英語のテンプレート:Enには、等分割する値(テンプレート:En)の意味と、そのようにして分割された群(テンプレート:En)の二つの意味がある[1]

定義

変量統計における分位数

n 個のデータ x に対する q 分位数 Qq は、昇順にソートしたデータを x1x2xn とすると、

Qq=x(1q+qn)x(t)={xt,if t(tt)xt+(tt)xt,if t

と定義される。ここで、 は床関数、 は天井関数、自然数の集合である。

関数 x(t), 1tn は、数列 x1,,n の線形内挿数関数への拡張である。関数 x() の引数 1q+qn は、範囲 [1,n]q:1q内分している。

確率分布の分位数

1次元確率分布 f(x) に対する q 分位数 Qq

Qqf(x)dxq, Qqf(x)dx1q

を満たす値として定義される。この式は、累積分布関数 F(x) または確率 P(X) を使って、

QqdF(x) q, QqdF(x) 1q

または

P(XQq)q, P(XQq)1q

とも表せる[2]


特別な分位数

いくつかの q に対する q 分位数には、特別な名称がある。

中央値

テンプレート:Main

1 / 2 分位数を、中央値、メディアン (テンプレート:En)という。中央値は、平均値に代わり、分布を代表する値として使われる。

四分位数

q/4 分位数を、第 q 四分位数、第 q 四分位点、第 q 四分位値、第 q ヒンジ (テンプレート:En) という。1 / 4 分位数(第1四分位数)を下側四分位数、3 / 4 分位数(第3四分位数)を上側四分位数ともいうテンプレート:Sfn

単に四分位数といったばあい、第1・第3四分位数を表す。第2四分位数は中央値である。これらは、分布の統計的ばらつきを表すのに使う。

第1・第3四分位数の差 Q3/4Q1/4 は、四分位範囲テンプレート:Lang-en-short)といい、分布のばらつきの代表値である。分布の代表値として平均値の代わりに中央値を使うときは、IQRを標準偏差分散の代わりに使う。中央値同様、頑強で、外れ値や極端に広い裾野の影響を受けにくい。

IQR/2四分位偏差IQR/IQRN(0,1)0.7413IQR正規四分位範囲テンプレート:Lang-en-short)といい、IQRの代わりに使うことがある。ここで、IQRN(0,1)1.3490 は、標準正規分布のIQRである。正規分布の正規四分位範囲は、標準偏差に等しい。なお係数0.7413を近似値として使うことがある。

四分位数の簡易な求め方として、中央値より上の値の中央値と、中央値より下の値の中央値を使う場合がある。この値を特にヒンジ (hinge) と呼び、それぞれ上側ヒンジ・下側ヒンジ、または、第1・第3ヒンジ(第2ヒンジは中央値)と呼ぶ。ヒンジは、(厳密に計算した)四分位数とは、中央値から離れる方向に少しだけずれる。データ数が多ければずれは小さくなる テンプレート:要出典

三分位数・五分位数・十分位数

q/3 分位数を、第 q 三分位数、第 q 三分位点、第 q 三分位値 (テンプレート:En) という。

q/5 分位数を、第 q 五分位数、第 q 五分位点、第 q 五分位値 (テンプレート:En) という。

q/10 分位数を、第 q 十分位数、第 q 十分位点、第 q 十分位値 (テンプレート:En) という。

パーセンタイル

q/100 分位数を、q パーセンタイル、(第)q 百分位数、(第)q 百分位点、(第)q 百分位値、q パーセント点、q %点 (テンプレート:En) という。

1q/100 分位数を上側 q パーセント点という。これと対比するときには、q/100 分位数は下側 q パーセント点という。また、平均が0の対称分布に対し、1/2+q/200 分位数を両側 q パーセント点という。このとき、絶対値が両側 q パーセント点以内に、分布の q %が含まれている。

最大値・最小値

0分位数は最小値、1分位数は最大値であるテンプレート:Sfn。最大値と最小値の差は範囲あるいはレンジテンプレート:Lang-en-short)と呼ばれ、分布のばらつきを表す代表値の一種である。

五数要約

テンプレート:Main 分布の特徴を最大値、最小値、中央値、上側・下側ヒンジの5つの値、つまり、0, 0.25, 0.5, 0.75, 1分位数で要約することを、五数要約という。五数要約は、しばしば箱ひげ図で図示される。

日本産業規格

日本産業規格では、分位点を、「p分位点とは,分布関数が p に一致するか,又はpより小さな値から p より大きな値に飛ぶときの確率変数の値。確率p100p% で表すときは 100p パーセント点 (テンプレート:En) という。備考1. 確率変数のある区間内で分布関数が一定値pとなる場合は,その区間内の任意の値がp分位点とされる。ただし,0p1である。 2. p=1/2に対応する確率変数の値をメディアン中央値 (テンプレート:En) という。3. p=1/4およびp=3/4に対応する確率変数の値を四分位点 (テンプレート:En) という。」と定義している[3]

脚注

テンプレート:脚注ヘルプ テンプレート:Reflist

参考文献

外部リンク

テンプレート:統計学

  1. テンプレート:Citation
  2. 累積分布関数が(狭義)単調増加でなければ、この条件を満たす Qq は一意に定まるとは限らない。
  3. JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.10 分位点、日本規格協会http://kikakurui.com/z8/Z8101-1-1999-01.html