超幾何分布

提供: testwiki
2022年12月21日 (水) 03:39時点におけるimported>ROE100による版 (注釈に変更)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

テンプレート:確率分布 超幾何分布(ちょうきかぶんぷ、テンプレート:Lang-en-short)とは、成功状態をもつ母集団から非復元抽出したときに成功状態がいくつあるかという確率を与える離散確率分布の一種である。男女・合否などのように2種の排他的属性に分割できる有限母集団からの非復元抽出に適用される。超幾何分布と対照的[注 1]確率分布には二項分布がある。

定義

超幾何分布とは テンプレート:Mvar 個の成功状態をもつ テンプレート:Mvar 個の要素よりなる母集団から テンプレート:Mvar 個の要素を非復元抽出したときに テンプレート:Mvar 個の成功状態が含まれている確率を与える離散確率分布の一種である。超幾何分布に従う確率変数 テンプレート:Mvar確率質量関数 テンプレート:Mvar は次で与えられる。

P(X=k)=fX(k;N,K,n)=(Kk)(NKnk)(Nn)=(nk)(NnKk)(NK)

確率質量関数は テンプレート:Math2 のとき正となる。

超幾何分布は テンプレート:Mvar が大きくなると、二項分布に近づく。また テンプレート:Math が小さく、抽出数 テンプレート:Mvar が大きいとき、ポアソン分布に近づく。

性質

  • 期待値 E(X)=nKN
  • 分散 Var(X)=nKNNKNNnN1
  • 最頻値 (n+1)(K+1)N+2
  • 対称性 fX(k;N,K,n)=fX(k;N,n,K)=fX(nk;N,NK,n)=fX(Kk;N,K,Nn)

例えば、赤い玉10個と白い玉20個を混ぜた、計30個の玉を入れたの中から5個の球を取り出すとき、赤い玉がちょうど1つである確率は

(101)(301051)(305)=8075237510.34

赤い玉の個数の期待値は

5×10301.67

フィッシャーの正確確率検定への応用

テンプレート:See also 元々、N個のビー玉が壺の中に入っていて、そのうち緑玉がK個、赤玉はN-K個であったとする。この中から(目を瞑って)n個のビー玉を非復元抽出で取り出したとする。このとき、(n回の試行のうち)緑玉がk回取り出される確率を求めたい。なお、壺には緑玉と赤玉以外には入っておらず、同色同士の玉は区別できないものとする。

この問題において、「成功」を「緑玉」に、「失敗」を「赤玉」例えることで、超幾何分布の問題に帰着でき、k回成功する確率(即ち、k回緑玉が取り出される確率)は、以下のようになる。

P(X=k)=f(k;N,K,n)=(Kk)(NKnk)(Nn).

この確率は普通の仮説検定で有意差を表す「p値」とは違い、p値を求めるには(普通の検定と同じように)実際の観測データよりも極端な場合も含めて考えなければならない。また、成功/失敗を検討してはいるが、ビー玉を取り出す毎に壺の中に残されたビー玉の個数は次々に変化し、各試行での成功確率は同じではないため、この問題は二項分布では正確にモデル化できない。

四分割表に対する独立性の検定との対比を取るために、この問題を四分割表で表現することを考える。N,m,nが固定されれば周辺度数(marginal frequency:第3列および第3行の値)は全て固定され、下表のようになる。さらに、O11を確定すれば、残りのO12,O21,O12は確定する。今、ここで、さらに、O11=X=kとすると、下表のように、四分割表の値が全て確定する。

緑玉(成功) 赤玉(失敗) Row Total
壺から取り出された O11=k O12=nk n
壺に残った O21=Kk O22=N + k − n − K N − n
Column Total K N − K N


例えば、上記の問題において、N=50, K=5、n=10の場合を考える。即ち、壺の中には、元々5個の緑玉と45個の赤玉が入っていたものとする。この壺から(目をつぶって)10個のビー玉を非復元的に取り出すことを考える。

このとき、例えば, k=4であれば、四分割表とP(X=4)は以下のようになる。

P(X=4)=f(4;50,5,10)=(54)(456)(5010)=5814506010272278170=0.003964583.
緑玉(成功) 赤玉(失敗) Row Total
壺から取り出された 4 6 10
壺に残った 1 39 40
Column Total 5 45 50

さらに、k=5の場合を考える。P(X=5)は以下のようになる。

P(X=5)=f(5;50,5,10)=(55)(455)(5010)=1122175910272278170=0.0001189375,

これらを比較すると、緑玉が5個の取り出される確率は、4個取り出される確率より約35倍低くなることが判る。

多変量超幾何分布

定義

属性が テンプレート:Math2 である要素を テンプレート:Mvar 個含む テンプレート:Math2 個の要素よりなる母集団から テンプレート:Mvar 個の要素を非復元抽出したとき、属性が テンプレート:Mvar である要素を テンプレート:Mvar 個含んでいる確率を与える分布多変量超幾何分布という。超幾何分布と多変量超幾何分布の関係は、二項分布多項分布の関係に相当する。

性質

多変量超幾何分布に従う確率変数を テンプレート:Math2 とする。

  • 確率質量関数 P(X1=k1,,Xc=kc)=1(Nn)i=1c(Kiki)
  • 期待値 E[Xi]=nKiN
  • 分散 Var[Xi]=(Nn)n(NKi)Ki(N1)N2
  • 共分散 Cov[Xi,Xj]=(Nn)nKiKj(N1)N2

壺の中に黒い玉が5個、白い玉が10個、赤い玉が15個あるとする。その中から6個の玉を取り出すとき、各色2個ずつ取り出す確率は次の式で計算できる。

(52)(102)(152)(306)0.0796

幾何分布との関係

超幾何分布と幾何分布は名前の上で類似しているが、分布としては全くの別物だと考えてよい。それぞれの名前は確率関数から生まれる超幾何数列幾何数列であることに由来する。

脚注

テンプレート:脚注ヘルプ

注釈

テンプレート:Notelist2

参考文献

  • 蓑谷千凰彦、統計分布ハンドブック、朝倉書店 (2003).
  • B. S. Everitt(清水良一訳)、統計科学辞典, 朝倉書店 (2002).
  • M. Galassi et al.(富永大介訳)、GNU Scientific Library リファレンスマニュアル ver. 1.8, p. 199 (2006).

関連項目

外部リンク

テンプレート:確率分布の一覧
引用エラー: 「注」という名前のグループの <ref> タグがありますが、対応する <references group="注"/> タグが見つかりません