順序統計量のソースを表示

'''順序統計量'''（じゅんじょとうけいりょう、{{lang-en-short|order statistic}}）は、[[統計]]において、標本の確率変数を値が小さい順に並べることで得られる統計量である。日本産業規格では、「確率変数を非減少な順序に並べることによって得られる統計量」と定義されている{{sfn|JIS Z 8101-1 : 1999|loc=2.28 順序統計量}}{{sfn|JIS Z 8101-1 : 2015|loc=1.9 順序統計量}}。[[ノンパラメトリック統計学]]における最も基本的ツールである。

順序統計量に属する重要な値として、標本の[[最小値]]、[[最大値]]、[[中央値]]、[[分位]]などがある。

[[連続確率分布]]での[[無作為抽出|無作為標本]]の順序統計量を[[確率論]]的に分析する場合、[[一様分布]]の順序統計量ならば[[累積分布関数]]によって分析を簡略化できる。

== 表記法と例 ==
例えば、4つの数が観測され記録されたとすると、標本の大きさは <math>n=4</math> となる。各観測値は以下のようであったとする。

:6, 9, 3, 8,

通常はこれを次のように表記する。

:<math>x_1=6; x_2=9; x_3=3; x_4=8</math>

<math>x_i</math> の添え字 ''i'' は単に記録上の順序を表し、通常は重要なものではない。ただし、[[時系列]]のデータにおいては順序が重要となる。

順序統計量では次のように表記する。

:<math>x_{(1)}=3; x_{(2)}=6; x_{(3)}=8; x_{(4)}=9</math>

ここで括弧で囲まれた添え字 (''i'') は順序統計量における ''i'' 番目の値を表す。

順序統計において、'''第一順序統計量'''（''最小順序統計量''）は[[最小値]]を表し、次のように表される。

:<math>X_{(1)}=\min \{X_1,\dots,X_n\}</math>

ここで、確率変数を示す一般的な記法として大文字を使用している。小文字は具体的な観測値を指すのに使われる。

同様に大きさ ''n'' の標本で'''第 ''n'' 順序統計量'''（''最大順序統計量''）は[[最大値]]を表し、次のように表される。

:<math>X_{(n)}=\max \{X_1,\dots,X_n \}.</math>

より一般に、順序統計量は

:<math>X_{(1)}\leq X_{(2)}\leq \dots \leq X_{(n)}</math>

の関係で与えられる。

観測値の範囲は最大値と最小値の差である。これは明らかに順序統計量の関数となっている。

:<math>\text{Range} \{X_1,\dots,X_n\} = X_{(n)}-X_{(1)}.</math>

[[探索的データ解析]]での類似の重要な統計量である[[四分位数]]は順序統計量に関係している。

標本の中央値（第2四分位点）は順序統計量となる場合もあるし、そうでない場合もある。これのは、標本の大きさ <math>n</math> が奇数であった場合だけ唯一の中央値が存在するからである。正確に言えば、<math>n=2m+1</math> となる整数 <math>m</math> があるとき、中央値 <math>X_{(m+1)}</math> は順序統計量である。一方、<math>n</math> が偶数の場合は <math>n=2m</math> となるので、中央値の候補は <math>X_{(m)}</math> と <math>X_{(m+1)}</math> の2つとなり、中央値はこれらの関数（一般に平均）で表されるため、順序統計量とは言えない。同様の注意はあらゆる標本分位点を求める際にも必要となる。

== 確率的解析 ==
ここでは、標本''X''<sub>1</sub>, ''X''<sub>2</sub>,..., ''X''<sub>n</sub>は[[無作為抽出]]で得られたもので[[連続確率分布]]に従うものとし、単純化のために、[[確率密度関数]]があるものとする（つまり[[絶対連続]]である）。

===順序統計量の分布（一般の場合）===
いま ''X''<sub>1</sub>, ''X''<sub>2</sub>,..., ''X''<sub>n</sub> は 無作為抽出での標本であるとする。すなわち、同一分布に従い、互いに独立 である（[[i.i.d.]]）とする。さらに、これらは連続分布を持つ確率変数であり、''f'' (''x'') がその[[確率密度関数]]、''F'' (''x'')  が[[累積分布関数]]とする。また、これらを小さい順に並べた順序統計量を''X''<sub>(1)</sub>, ''X''<sub>(2)</sub>,..., ''X''<sub>(n)</sub> とする。この時、''k'' 番目の順序統計量''X''<sub>(''k'')</sub>の累積分布関数は次式で与えられる。

:<math>F_{X_{(k)}}(x)=\sum_{j=k}^{n}\binom{n}{j} F(x)^{j} (1-F(x))^{n-j}</math>

また、その確率密度関数は

:<math>f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} F(x)^{k-1} (1-F(x))^{n-k} f(x)</math>

となる。

特に最小値<math>X_{(1)}</math>、最大値<math>X_{(n)}</math>については、
:<math>\begin{align}
  F_{X_{(1)}}(x) &= 1-\{1-F(x)\}^n \\
  F_{X_{(n)}}(x) &= \{F(x)\}^n
\end{align}</math>
となる。

;導出の詳細
累積分布関数
<math>F_{X_{(k)}}(x)=P\left(X_{(k)}\leq x\right)</math>
において、確率値''P''( ) 内の事象は『''n'' 個中少なくとも ''k'' 個の ''X<sub>i</sub>'' が ''x'' 以下』 = 『''x'' 以下の値が''n'' 回の試行中 ''k'' 回以上発生する』を意味することから

:<math>\begin{align}
  F_{X_{(k)}}(x) &= \sum_{j=k}^n \binom{n}{j}P(X\leq x)^j(1-P(X\leq x))^{n-j} \\
  &= \sum_{j=k}^n\binom{n}{j} F(x)^j (1-F(x))^{n-j}
\end{align}</math>
が成り立つ。

確率密度関数と累積分布関数の関係に注意すれば、
:<math>\begin{align}
  f_{X_{(k)}}(x) &= \frac{d}{dx} F_{X_{(k)}}(x) \\
  &= \frac{d}{dx} \sum_{j=k}^n\binom{n}{j} F(x)^j (1-F(x))^{n-j} \\
  &= nf(x) \left( \sum_{j=k-1}^{n-1} \binom{n-1}{j} F(x)^j (1-F(x))^{(n-1)-j}
  - \sum_{j=k}^n \binom{n-1}{j} F(x)^j (1-F(x))^{(n-1)-j} \right)
\end{align}</math>

となる。上記の[[畳み込み級数]]の総和は、最初と最後の項以外は全て相殺されるため

:<math> = nf(x) \left( \binom{n-1}{k-1} F(x)^{k-1} (1-F(x))^{(n-1)-(k-1)}
- {n-1 \choose n} F(x)^n (1-F(x))^{(n-1)-n} \right)</math>

となる。さらに第二項はゼロとなるから

:<math>\begin{align}
&= nf(x)\binom{n-1}{k-1} F(x)^{k-1} (1-F(x))^{(n-1)-(k-1)} \\
&= \frac{n!}{(k-1)!(n-k)!} F(x)^{k-1} (1-F(x))^{n-k} f(x).
\end{align}</math>

を得る。

=== 順序統計量の分布（一様分布での例） ===
この節では、特に単位区間上の[[一様分布]]からの順序統計量を考え、それが[[ベータ分布族]]に属する[[周辺分布]]を持つことを示す。また、任意個の順序統計量の同時分布を求め、累積分布関数を用いて任意の連続型分布のケースに一般化する簡単な方法を示す。

なお、 ''X''<sub>1</sub>, ''X''<sub>2</sub>,..., ''X<sub>n</sub>''  が、累積分布関数 ''F''<sub>''X''</sub> を持つ連続型分布から得られた[[無作為抽出|無作為標本]]とすると、 ''U<sub>i</sub>'' = ''F''<sub>X</sub>(''X<sub>i</sub>'') と置くことによって、標準一様分布にしたがう無作為標本 ''U''<sub>1</sub>,..., ''U<sub>n</sub>'' が得られることに注意する。また、対応する順序統計量''X''<sub>(1)</sub>, ''X''<sub>(2)</sub>,..., ''X''<sub>(''n'')</sub>においても、''U''<sub>(''i'')</sub> = ''F<sub>X</sub>''(''X''<sub>(''i'')</sub>) が成り立つことに注意する。

==== 一様分布の順序統計量 ====
標準一様分布からの''k''番目の順序統計量 ''U''<sub>(''k'')</sub> が [''u'', ''u'' + ''du'']  の範囲に落ちる確率は

:<math>{n!\over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}du+O(du^2)</math>

に等しい。よって、 ''U''<sub>(''k'')</sub>の確率密度関数は、

:<math>f_{U_{(k)}}(u)={n!\over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}={1\over B(k,n-k+1)}u^{k-1}(1-u)^{n-k}</math>

で与えられる。ここで、''B'' (''k'', ''n-k+1'' )は[[ベータ関数]]を表す。したがって、''U''<sub>(k)</sub>は[[ベータ分布]]に従う確率変数

:<math>U_{(k)} \sim B(k,n+1-k) </math>

となる。
;導出の詳細
証明は以下の通り。''U''<sub>(''k'')</sub> が ''u'' と ''u'' + d''u'' の間にあるためには、標本中の ''k''&nbsp;&minus;&nbsp;1 個の要素が ''u'' より小さく、かつ少なくとも 1 個の要素が ''u'' と ''u'' + d''u'' の間にあることが必要である。複数の要素が後者の範囲にある確率は ''O'' (''du''<sup>2</sup>) となるため、求める確率は、''k''&nbsp;&minus;&nbsp;1 個の観測値が (0, ''u'') に、1 個が (''u'' , ''u'' +''du'')  に、''n''&nbsp;&minus;&nbsp;''k'' 個が (''u'' +''du'', 1) に落ちる場合に相当する。つまり、その確率は

:<math>{n!\over (k-1)!1!(n-k)!}u^k\cdot du\cdot(1-u-du)^{n-k}</math>

に等しい（詳しくは[[多項分布]]参照）。

==== 一様分布での順序統計量の同時確率 ====
同様に、''i''&nbsp;<&nbsp;''j'' であるとき、2つの順序統計量 ''U''<sub>''i''</sub>&nbsp;<&nbsp;''U''<sub>''j''</sub> の同時確率密度関数は次のようになることが示せる。

:<math>f_{U_{(i)},U_{(j)}} (u,v) ~ du ~ dv = n! \frac{u^{i-1}}{(i-1)!} \frac{(v-u)^{j-i-1}}{(j-i-1)!} \frac{(1-v)^{n-j}}{(n-j)!} ~ du ~ dv</math>

これは（''O'' (''du dv'') までの項において）、区間 (0, ''u''), (''u'', ''u'' + ''du''), (''u'' + ''du'', ''v''), (''v'', ''v'' + ''dv''), (''v'' + ''dv'', 1)  に落ちる標本要素の数が、各々 ''i''&nbsp;&minus;&nbsp;1, 1, ''j''&nbsp;&minus;&nbsp;1&nbsp;&minus;&nbsp;''i'', 1, ''n''&nbsp;&minus;&nbsp;''j'' 個となる確率に等しい。

同様にして、より高次の同時分布も導くことができる。おそらく意外なことに、''n'' 次の同時分布は次のような定数になる:

:<math>f_{U_{(1)},U_{(2)},\dots,U_{(n)}}(u_{1},u_{2},\dots,u_{n}) ~ du_1 \dotsb du_n = n! ~ du_1 \dotsb du_n.</math>

この一つの解釈として、「順序のない標本は確率密度 1 を持ち、同じ順序統計量の列に対応する ''n''! 個の異なる順列を持つ標本が存在する」ことが考えられる。これは、領域 0< ''u''<sub>1</sub> < … < ''u<sub>n</sub>'' < 1 の体積が  1 / ''n''! に等しいことと関係がある。

====  一般の場合での順序統計量の同時確率 ====
一様分布での結果の応用として、一般の分布の ''n'' 個の標本抽出における ''k'' 個目の順序統計量 ''X''<sub>(''k'')</sub> の分布を考える。''X''<sub>(''k'')</sub> の累積分布関数 ''F<sub>X</sub>''<sub>(''k'')</sub> に対し、 ''f<sub>X</sub>''<sub>(''k'')</sub>が対応する確率密度関数とする。このとき、一様分布への変数変換

:<math>U_{(k)}=F_{X(k)}(x) </math>

を行い、''f<sub>X</sub>''<sub>(''k'')</sub> に前述の一様分布における''f<sub>U</sub>''<sub>(''k'')</sub> (''u'') の結果を代入すれば、次の確率密度関数が導かれる。

:<math>f_{X_{(k)}}(x) ~ dx = \frac{n!}{(k-1)!(n-k)!} [F_X(x)]^{k-1}[1-F_X(x)]^{n-k}f_X(x) ~ dx</math>

同様に2つの累積分布関数 ''F''<sub>X(j)</sub>、''F''<sub>X(k)</sub> に対し、 ''f''<sub>X(j)</sub>、''f''<sub>X(k)</sub>が対応する確率密度関数とする。このとき、一様分布への変数変換

:<math>U_{(j)}=F_{X(j)}(x) , \quad U_{(k)}=F_{X(k)}(y) </math>

を行い、''f<sub>X</sub>''<sub>(''i''),''X''(''j'')</sub>に先ほどの一様分布における同時確率分布''f<sub>U</sub>''<sub>(''i''),''U''(''j'')</sub>(''u'', ''v'')の結果を代入すれば、次式を得る。

:<math>f_{X_{(j)},X_{(k)}} (x,y) ~ dx ~ dy
= n! \frac{[F_X(x)]^{j-1}}{(j-1)!} \frac{[F_X(y)-F_X(x)]^{k-1-j}}{(k-1-j)!} \frac{[1-F_X(y)]^{n-k}}{(n-k)!} f_X(x) f_X(y) ~ dx ~ dy</math>

同様に高次の場合について考えれば、次式を得る。

:<math>f_{X_{(1)},\dots,X_{(n)}}(x_1,\dots,x_n) ~ dx_1 \dotsb dx_n = n! f_X(x_1) \dotsb f_X(x_n) ~ dx_1 \dotsb dx_n</math>
但し、''x''<sub>1</sub> < ''x''<sub>2</sub> < … < ''x<sub>n</sub>''とする。

== 応用: 分位の信頼区間 ==


=== 中央値の推定 ===
以下では、標本中央値によって母集団中央値がどの程度良く推定できるかを、最も単純なケースで考える。

==== 小標本の例 ====
例として、サイズ 6 の無作為標本を考える。この場合の標本中央値は、通常、3 番目と 4 番目の順序統計量で区切られた区間の中点として定義される。しかしこれまでの議論から、この区間が実際に母集団中央値を含む確率は次のようになる:

:<math>{6\choose 3}2^{-6} = {5\over 16} \approx 31\%</math>

標本中央値は母集団中央値のおそらく分布に依存しない最良の[[点推定]]であるが、この例は、標本中央値が絶対的な意味で優れているわけではないことを表している。母集団中央値のより良い[[信頼区間]]は、この例の場合、2 番目と 5 番目の順序統計量で囲まれた区間であり、母集団中央値を含む確率は次のようになる:

:<math>\left[{6\choose 2}+{6\choose 3}+{6\choose 4}\right]2^{-6} = {25\over 32} \approx 78\%</math>

このように小さな標本サイズでは、もしも少なくとも 95% の信頼度が欲しければ、確率 31/32 つまり約 97% で 6 個の観測値の最小値と最大値の間にある、と表現することになってしまう。サイズ 6 は、最小値と最大値で決まる区間が、少なくとも 95% 信頼区間になるような最小の標本サイズである。

もしも分布が対称であることがわかっていて、分散が有限ならば（例えば[[正規分布]]のような場合）、母集団の平均値は中央値に等しく、標本平均値は標本中央値よりもかなり良い信頼区間を持つ。これは、分布に依存しない統計的方法の相対的弱点を表している。他方において、もしも間違った分布に立脚した方法を用いると、推定に大きな系統誤差が生じてしまう可能性もある。

== 順序統計量の計算 ==
{{main|選択アルゴリズム}}

数列から''k''番目に小さい（大きい）要素を選択する問題は選択問題と呼ばれ、その解法は[[選択アルゴリズム]]と呼ばれる。この問題は数列が巨大であればあるほど難しくなるが、要素の順序が完全に無作為であっても要素数に比例した時間内に答えを求めることができる洗練された選択アルゴリズムが知られている。
<!--データが何らかの特殊な[[データ構造]]に格納されていれば、その時間は O(log ''n'')にまで削減できる。-->

== 脚注 ==
{{reflist}}

== 参考文献 ==
* {{Cite book|和書|author=西岡康夫|year=2013|title=数学チュートリアル やさしく語る 確率統計|publisher=[[オーム社]]|isbn=9784274214073|ref={{sfnref|西岡}}}}
* {{Cite book|和書|author=日本数学会|authorlink=日本数学会|year=2007|title=数学辞典|publisher=[[岩波書店]]|isbn=9784000803090}}
* {{Citation |year=1999 | title=JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 | publisher=[[日本規格協会]] | publisherlink=kikakurui.com | url=http://kikakurui.com/z8/Z8101-1-1999-01.html | ref={{sfnref|JIS Z 8101-1 : 1999}}}}
* {{Citation |year=2015 | title=JIS Z 8101-1:2015 統計 − 用語と記号 − 第1部:確率及び一般統計用語 | publisher=[[日本規格協会]] | publisherlink=www.jsa.go.jp  | ref={{sfnref|JIS Z 8101-1 : 2015}}}}
* {{Cite book|和書|author=伏見康治|authorlink=伏見康治|year=1942|title=確率論及統計論|publisher=[[河出書房]]|isbn=9784874720127|url=http://ebsa.ism.ac.jp/ebooks/ebook/204| ref={{sfnref|伏見}}}}

== 関連項目 ==
* [[確率]]
* [[統計学]]
** [[中央値]]
** [[分位]]
*** [[箱ひげ図]]
* [[フィッシャー・ティペット分布]]
* [[Rankit]]
* [[統計量]]
* [[確率密度関数]]
* [[連続確率分布]]
* [[無作為抽出|無作為標本]]
* [[確率論]]
* [[一様分布]]
* [[累積分布関数]]
* [[ベータ関数]]
* [[ベータ分布]]

==外部リンク==
* {{PlanetMath|urlname=OrderStatistics|title=Order statistics}}
* [http://mathworld.wolfram.com/OrderStatistic.html Order Statistic] Eric W. Weisstein、MathWorld
* [http://www-stat.stanford.edu/~susan/courses/s116/node79.html Order Statistics] Dr. Susan Holmes

{{統計学}}
{{DEFAULTSORT:しゆんしよとうけいりよう}}
[[Category:統計量]]
[[Category:組合せ論]]
[[Category:数学に関する記事]]