二項分布

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:確率分布 数学において、二項分布(にこうぶんぷ、テンプレート:Lang-en-short)は、成功確率 テンプレート:Mvar で成功か失敗のいずれかの結果となる試行ベルヌーイ試行と呼ばれる)を独立テンプレート:Mvar 回行ったときの成功回数を[[確率変数|確率変数テンプレート:Math]]とする離散確率分布である。

二項分布に基づく統計的有意性の検定は、二項検定と呼ばれている。

二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。

500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布(真の分布)とおおよそ似通っていると考えられる。しかし、低確率ではあるが、選んだ500人の中に1人も患者が含まれないような真の分布とかけ離れた分布が得られる場合もある。直観的には、真の分布に近い分布が得られる確率は、真の分布から遠い分布が得られる確率より大きい。たとえば、500人中の患者の数が500×0.05=25人である確率は、24人や26人である確率より大きいだろうと思われる。しかし、その確率は定量的にどれほどだろうか。 これを定量的に表すことのできる分布が二項分布である。

抽出された集団の中に含まれる罹患者数を確率変数 テンプレート:Mvar で表すとき、テンプレート:Mvarテンプレート:Math, テンプレート:Math の二項分布に近似的に従う。ここで、罹患者が30人以上いる確率は テンプレート:Math である。

定義

単純な定義としては、成功確率テンプレート:Mvarの試行を独立テンプレート:Mvar回行い、成功回数を横軸にとってヒストグラムを作成した時のグラフの形である。このグラフの関数は下記の性質を持つ。

2つの母数テンプレート:Mvar(テンプレート:Mathとなる実数), テンプレート:Mvar(自然数)に対して、テンプレート:Math 以上の整数を値としてとる確率変数テンプレート:Mathを定める。このとき、テンプレート:Mvarは試行の成功回数なので、テンプレート:Mathである。

そして、テンプレート:Mathとなるような確率についての関数(確率質量関数)テンプレート:Mathについて、

fX(x)=(nx)px(1p)nx

となることが性質よりわかる。

また、テンプレート:Mathは確率であるため、

x=0nfX(x)=1

も明らかである。

上記を定義として、テンプレート:Mvarテンプレート:Mvarに書き換え、

fX(k)=P(X=k)=(nk)pk(1p)nk

で与えられるとき、テンプレート:Mvarは二項分布テンプレート:Mathに従う、という。これはテンプレート:Mathと表記されるテンプレート:Sfn

ここで、

(nk)=nCk=n!k!(nk)!

テンプレート:Mvar 個から テンプレート:Mvar 個を選ぶ組合せの数、すなわち二項係数を表す。二項分布という名前は、この二項係数に由来している。

テンプレート:Math の場合を特に、ベルヌーイ分布と呼ぶ。

上の定義式は次のように解釈することができる。1回の試行において成功する確率が テンプレート:Mvar であるとき、テンプレート:Mvarテンプレート:Mvar 回成功する確率を表し、テンプレート:Mathテンプレート:Math 回失敗する確率を表している。ただし、テンプレート:Mvar 回の成功は テンプレート:Mvar 回の試行の中のどこかで発生したものであるから、テンプレート:Math 通りの発生順序がある。これら全てを掛けると、テンプレート:Mvar 回の独立な試行を行ったときの成功回数が テンプレート:Mvar となる確率を求めることができる。

性質の導出

期待値・分散

二項分布 テンプレート:Math に従う確率変数 テンプレート:Mvar に対し、テンプレート:Mvar期待値 テンプレート:Math を求めると

E[X]=k=0nkfX(k)=k=0nk(nk)pk(1p)nk=k=1nk(nk)pk(1p)nk=k=1nkn!(nk)!k!pk(1p)nk=k=1nn!(nk)!(k1)!pk(1p)nk=k=1nn(n1)!(nk)!(k1)!ppk1(1p)nk=npk=1n(n1)!(nk)!(k1)!pk1(1p)nk

ここで、テンプレート:Mathとおくと、

=npk=1n(n1)!(nk)!(k1)!pk1(1p)nk=npk=0n1(n1)!((n1)k)!k!pk(1p)(n1)k=npk=0n1(n1k)pk(1p)(n1)k=np

これは全ての順序付けられた試行パターンについての平均値でもある。

続いて、分散 テンプレート:Math

V[X]=E[X2](E[X])2

上と同様に

E[X2]=k=0nk2P(X=k)=k=1nk(k1)(nk)pk(1p)nk+k=1nk(nk)pk(1p)nk=k=1nn!(nk)!(k2)!pk(1p)nk+E[X]=k=2nn!(nk)!(k2)!pk(1p)nk+np=n(n1)p2k=2n(n2)!(nk)!(k2)!pk2(1p)nk+np=n(n1)p2k=0n2(n2)!(n2k)!k!pk(1p)n2k+np=n(n1)p2+np

合計して、

V[X]=n(n1)p2+npn2p2=np(1p)

となるテンプレート:Sfn

モーメント

二項分布 テンプレート:Math に従う確率変数 テンプレート:Mvarテンプレート:Mvarモーメント テンプレート:Math

E[Xr]=j=0rS(r,j)n!(nj)!pj

というやや複雑な表示をもつテンプレート:Sfn。ここで テンプレート:Math第二種スターリング数。低次から

E[X1]=np,E[X2]=np+n(n1)p2,

となる。一方 テンプレート:Mvarテンプレート:Mvarテンプレート:仮リンク テンプレート:Math

E[(X)r]=(n)rpr=n!(nr)!pr

という単純な表示をもつテンプレート:Sfn。ここで テンプレート:Mathポッホハマー記号。低次から

E[(X)1]=np,E[(X)2]=n(n1)p2,

となる。

再生性

二項分布は再生性を有する。すなわち テンプレート:Math に従う確率変数 テンプレート:Mvarテンプレート:Math に従う確率変数 テンプレート:Mvar が互いに独立であるとき、確率変数の和 テンプレート:Math は二項分布 テンプレート:Math に従う。

近似

二項分布の近似として、以下の小節に挙げる分布などが知られている。 近似を用いることで計算の労力を削減できるという利点がある一方、各近似にはそれを適用可能とするための条件が存在する。 そのため、それらの条件や近似を用いることで生じる誤差が許容可能な範囲内に収まっていることの確認が必要となる。 特に、二項分布の母比率の信頼区間を求める際には、用いる近似と変数の値の組み合わせにより、厳密に求められた信頼区間との間に近似誤差が生じることになるため注意が必要である[1]

正規分布

テンプレート:未検証

二項分布が正規分布に近づく様子

期待値 テンプレート:Mvar および分散 テンプレート:Mathテンプレート:Math よりも大きい場合、二項分布 テンプレート:Math に対する良好な近似として正規分布がある。ただし、この近似を適用するにあたっては、変数のスケールに注意し、連続な分布への適切な処理がなされる必要がある。より厳密に述べれば、テンプレート:Mvar が十分大きくかつ、期待値 テンプレート:Mvar および 分散 テンプレート:Math も十分大きい場合、期待値 テンプレート:Mvar, 分散 テンプレート:Math の正規分布 テンプレート:Math で近似することができ、期待値からの差 テンプレート:Math標準偏差 np(1p) と同程度となる テンプレート:Mvar に対して

P[X=k]12πnp(1p)exp((knp)22np(1p))

が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者アブラーム・ド・モアブルが1733年に著書 テンプレート:Lang の中で紹介したのが最初であり、ド・モアブル=ラプラスの極限定理またはラプラスの定理と呼ぶことがある[2]。これは、今日でいうところの中心極限定理の特別な場合に相当する。この正規分布への近似と標準正規分布表により、計算の労力を大きく削減することができる。

例えば、多数の住民の中から テンプレート:Mvar 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。テンプレート:Mvar 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 テンプレート:Mvar とほぼ等しい平均を持ち、標準偏差 σ=p(1p)/n である正規分布に近似される。未知の変数 テンプレート:Mvar は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 テンプレート:Mvar は多い方が好ましい。

95%信頼区間ならば、正規分布で近似すると、その範囲は

p1.959964p(1p)np+1.959964p(1p)n

となる。たとえば、テンプレート:Math の場合、テンプレート:Math ならテンプレート:Mathテンプレート:Math ならばテンプレート:Mathテンプレート:Math ならばテンプレート:Mathとなる。テンプレート:Math の場合、正規分布近似ではなく、本来の定義に従って計算すると、テンプレート:Math信頼区間で、テンプレート:Mathとなる[3]

ポアソン分布

テンプレート:Mvar が大きく テンプレート:Mvar が十分小さい場合、テンプレート:Mvar は適度な大きさとなるため、テンプレート:Math を母数とするポアソン分布が二項分布 テンプレート:Math の良好な近似を与える。すなわち、テンプレート:Mvar が十分大きいとき、期待値 テンプレート:Math とおくと、

P[X=k]λkeλk!

が成り立つ(詳細はポアソン分布の項を参照)。この結果は数学者シメオン・ドニ・ポアソンが1837年に著書 テンプレート:Lang テンプレート:Lang の中で与えており、ポアソンの極限定理と呼ばれる。

出典

テンプレート:脚注ヘルプ テンプレート:Reflist

参考文献

関連項目

テンプレート:確率分布の一覧

  1. "EBCIC: Exact Binomial Confidence Interval Calculator" https://kazkobara.github.io/ebcic/README-jp.html
  2. 伏見康治確率論及統計論」第IV章 独立偶然量の和 27節 Bernoulliの定理, Laplaceの定理 p.452 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
  3. prob 3 <= x <= 7 for x binomial with n=10 and p=0.5 — Wolfram Alpha