二項分布

テンプレート:確率分布数学において、二項分布（にこうぶんぷ、テンプレート:Lang-en-short）は、成功確率テンプレート:Mvar で成功か失敗のいずれかの結果となる試行（ベルヌーイ試行と呼ばれる）を独立にテンプレート:Mvar 回行ったときの成功回数を[[確率変数|確率変数テンプレート:Math]]とする離散確率分布である。

二項分布に基づく統計的有意性の検定は、二項検定と呼ばれている。

例

二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。

500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布（真の分布）とおおよそ似通っていると考えられる。しかし、低確率ではあるが、選んだ500人の中に1人も患者が含まれないような真の分布とかけ離れた分布が得られる場合もある。直観的には、真の分布に近い分布が得られる確率は、真の分布から遠い分布が得られる確率より大きい。たとえば、500人中の患者の数が500×0.05=25人である確率は、24人や26人である確率より大きいだろうと思われる。しかし、その確率は定量的にどれほどだろうか。これを定量的に表すことのできる分布が二項分布である。

抽出された集団の中に含まれる罹患者数を確率変数テンプレート:Mvar で表すとき、テンプレート:Mvar はテンプレート:Math, テンプレート:Math の二項分布に近似的に従う。ここで、罹患者が30人以上いる確率はテンプレート:Math である。

定義

単純な定義としては、成功確率テンプレート:Mvarの試行を独立にテンプレート:Mvar回行い、成功回数を横軸にとってヒストグラムを作成した時のグラフの形である。このグラフの関数は下記の性質を持つ。

2つの母数テンプレート:Mvar(テンプレート:Mathとなる実数), テンプレート:Mvar(自然数)に対して、テンプレート:Math 以上の整数を値としてとる確率変数テンプレート:Mathを定める。このとき、テンプレート:Mvarは試行の成功回数なので、テンプレート:Mathである。

そして、テンプレート:Mathとなるような確率についての関数(確率質量関数)テンプレート:Mathについて、

f_{X} (x) = (\binom{n}{x}) p^{x} (1 - p)^{n - x}

となることが性質よりわかる。

また、テンプレート:Mathは確率であるため、

\sum_{x = 0}^{n} f_{X} (x) = 1

も明らかである。

上記を定義として、テンプレート:Mvarをテンプレート:Mvarに書き換え、

f_{X} (k) = P (X = k) = (\binom{n}{k}) p^{k} (1 - p)^{n - k}

で与えられるとき、テンプレート:Mvarは二項分布テンプレート:Mathに従う、という。これはテンプレート:Mathと表記されるテンプレート:Sfn。

ここで、

(\binom{n}{k}) =_{n} C_{k} = \frac{n!}{k! (n - k)!}

はテンプレート:Mvar 個からテンプレート:Mvar 個を選ぶ組合せの数、すなわち二項係数を表す。二項分布という名前は、この二項係数に由来している。

テンプレート:Math の場合を特に、ベルヌーイ分布と呼ぶ。

上の定義式は次のように解釈することができる。1回の試行において成功する確率がテンプレート:Mvar であるとき、テンプレート:Mvar はテンプレート:Mvar 回成功する確率を表し、テンプレート:Math はテンプレート:Math 回失敗する確率を表している。ただし、テンプレート:Mvar 回の成功はテンプレート:Mvar 回の試行の中のどこかで発生したものであるから、テンプレート:Math 通りの発生順序がある。これら全てを掛けると、テンプレート:Mvar 回の独立な試行を行ったときの成功回数がテンプレート:Mvar となる確率を求めることができる。

性質の導出

期待値・分散

二項分布テンプレート:Math に従う確率変数テンプレート:Mvar に対し、テンプレート:Mvar の期待値テンプレート:Math を求めると

\begin{matrix} E [X] & = \sum_{k = 0}^{n} k f_{X} (k) \\ = \sum_{k = 0}^{n} k (\binom{n}{k}) p^{k} (1 - p)^{n - k} \\ = \sum_{k = 1}^{n} k (\binom{n}{k}) p^{k} (1 - p)^{n - k} \\ = \sum_{k = 1}^{n} k \frac{n!}{(n - k)! k!} p^{k} (1 - p)^{n - k} \\ = \sum_{k = 1}^{n} \frac{n!}{(n - k)! (k - 1)!} p^{k} (1 - p)^{n - k} \\ = \sum_{k = 1}^{n} n \frac{(n - 1)!}{(n - k)! (k - 1)!} p p^{k - 1} (1 - p)^{n - k} \\ = n p \sum_{k = 1}^{n} \frac{(n - 1)!}{(n - k)! (k - 1)!} p^{k - 1} (1 - p)^{n - k} \end{matrix}

ここで、テンプレート:Mathとおくと、

\begin{matrix} n p \sum_{k = 1}^{n} \frac{(n - 1)!}{(n - k)! (k - 1)!} p^{k - 1} (1 - p)^{n - k} \\ = n p \sum_{k^{'} = 0}^{n - 1} \frac{(n - 1)!}{((n - 1) - k^{'})! k^{'}!} p^{k^{'}} (1 - p)^{(n - 1) - k^{'}} \\ = n p \sum_{k^{'} = 0}^{n - 1} (\binom{n - 1}{k^{'}}) p^{k^{'}} (1 - p)^{(n - 1) - k^{'}} \\ = n p \end{matrix}

これは全ての順序付けられた試行パターンについての平均値でもある。

続いて、分散テンプレート:Math は

V [X] = E [X^{2}] - (E [X])^{2}

上と同様に

\begin{matrix} E [X^{2}] & = \sum_{k = 0}^{n} k^{2} P (X = k) \\ = \sum_{k = 1}^{n} k (k - 1) (\binom{n}{k}) p^{k} (1 - p)^{n - k} + \sum_{k = 1}^{n} k (\binom{n}{k}) p^{k} (1 - p)^{n - k} \\ = \sum_{k = 1}^{n} \frac{n!}{(n - k)! (k - 2)!} p^{k} (1 - p)^{n - k} + E [X] \\ = \sum_{k = 2}^{n} \frac{n!}{(n - k)! (k - 2)!} p^{k} (1 - p)^{n - k} + n p \\ = n (n - 1) p^{2} \sum_{k = 2}^{n} \frac{(n - 2)!}{(n - k)! (k - 2)!} p^{k - 2} (1 - p)^{n - k} + n p \\ = n (n - 1) p^{2} \sum_{k^{'} = 0}^{n - 2} \frac{(n - 2)!}{(n - 2 - k^{'})! k^{'}!} p^{k^{'}} (1 - p)^{n - 2 - k^{'}} + n p \\ = n (n - 1) p^{2} + n p \end{matrix}

合計して、

\begin{matrix} V [X] & = n (n - 1) p^{2} + n p - n^{2} p^{2} \\ = n p (1 - p) \end{matrix}

となるテンプレート:Sfn。

モーメント

二項分布テンプレート:Math に従う確率変数テンプレート:Mvar のテンプレート:Mvar 次モーメントテンプレート:Math は

E [X^{r}] = \sum_{j = 0}^{r} S (r, j) \frac{n!}{(n - j)!} p^{j}

というやや複雑な表示をもつテンプレート:Sfn。ここでテンプレート:Math は第二種スターリング数。低次から

E [X^{1}] = n p, E [X^{2}] = n p + n (n - 1) p^{2}, \dots

となる。一方テンプレート:Mvar のテンプレート:Mvar 次テンプレート:仮リンクテンプレート:Math は

E [(X)_{r}] = (n)_{r} p^{r} = \frac{n!}{(n - r)!} p^{r}

という単純な表示をもつテンプレート:Sfn。ここでテンプレート:Math はポッホハマー記号。低次から

E [(X)_{1}] = n p, E [(X)_{2}] = n (n - 1) p^{2}, \dots

となる。

再生性

二項分布は再生性を有する。すなわちテンプレート:Math に従う確率変数テンプレート:Mvar とテンプレート:Math に従う確率変数テンプレート:Mvar が互いに独立であるとき、確率変数の和テンプレート:Math は二項分布テンプレート:Math に従う。

近似

二項分布の近似として、以下の小節に挙げる分布などが知られている。近似を用いることで計算の労力を削減できるという利点がある一方、各近似にはそれを適用可能とするための条件が存在する。そのため、それらの条件や近似を用いることで生じる誤差が許容可能な範囲内に収まっていることの確認が必要となる。特に、二項分布の母比率の信頼区間を求める際には、用いる近似と変数の値の組み合わせにより、厳密に求められた信頼区間との間に近似誤差が生じることになるため注意が必要である^[1]。

正規分布

テンプレート:未検証

期待値テンプレート:Mvar および分散テンプレート:Math がテンプレート:Math よりも大きい場合、二項分布テンプレート:Math に対する良好な近似として正規分布がある。ただし、この近似を適用するにあたっては、変数のスケールに注意し、連続な分布への適切な処理がなされる必要がある。より厳密に述べれば、テンプレート:Mvar が十分大きくかつ、期待値テンプレート:Mvar および分散テンプレート:Math も十分大きい場合、期待値テンプレート:Mvar, 分散テンプレート:Math の正規分布テンプレート:Math で近似することができ、期待値からの差テンプレート:Math が標準偏差 $\sqrt{n p (1 - p)}$ と同程度となるテンプレート:Mvar に対して

P [X = k] ≃ \frac{1}{\sqrt{2 π n p (1 - p)}} \exp (- \frac{(k - n p)^{2}}{2 n p (1 - p)})

が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者アブラーム・ド・モアブルが1733年に著書テンプレート:Lang の中で紹介したのが最初であり、ド・モアブル=ラプラスの極限定理またはラプラスの定理と呼ぶことがある^[2]。これは、今日でいうところの中心極限定理の特別な場合に相当する。この正規分布への近似と標準正規分布表により、計算の労力を大きく削減することができる。

例えば、多数の住民の中からテンプレート:Mvar 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。テンプレート:Mvar 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合テンプレート:Mvar とほぼ等しい平均を持ち、標準偏差 $σ = \sqrt{p (1 - p) / n}$ である正規分布に近似される。未知の変数テンプレート:Mvar は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数テンプレート:Mvar は多い方が好ましい。

95%信頼区間ならば、正規分布で近似すると、その範囲は

p - 1.959964 \sqrt{\frac{p (1 - p)}{n}} \sim p + 1.959964 \sqrt{\frac{p (1 - p)}{n}}

となる。たとえば、テンプレート:Math の場合、テンプレート:Math ならテンプレート:Math、テンプレート:Math ならばテンプレート:Math、テンプレート:Math ならばテンプレート:Mathとなる。テンプレート:Math の場合、正規分布近似ではなく、本来の定義に従って計算すると、テンプレート:Math信頼区間で、テンプレート:Mathとなる^[3]。

ポアソン分布

テンプレート:Mvar が大きくテンプレート:Mvar が十分小さい場合、テンプレート:Mvar は適度な大きさとなるため、テンプレート:Math を母数とするポアソン分布が二項分布テンプレート:Math の良好な近似を与える。すなわち、テンプレート:Mvar が十分大きいとき、期待値テンプレート:Math とおくと、

P [X = k] ≃ \frac{λ^{k} e^{- λ}}{k!}

が成り立つ（詳細はポアソン分布の項を参照）。この結果は数学者シメオン・ドニ・ポアソンが1837年に著書テンプレート:Lang テンプレート:Lang の中で与えており、ポアソンの極限定理と呼ばれる。

出典

テンプレート:脚注ヘルプテンプレート:Reflist

二項分布

目次

例

定義

性質の導出

期待値・分散

モーメント

再生性

近似

正規分布

ポアソン分布

出典

参考文献

関連項目

ナビゲーションメニュー

二項分布

例

定義

性質の導出

期待値・分散

モーメント

再生性

近似

正規分布

ポアソン分布

出典

参考文献

関連項目

ナビゲーション メニュー

検索

ナビゲーションメニュー