二項分布のソースを表示

{{確率分布
|名前 = 二項分布
|型 = 質量
|画像/確率関数 = [[画像:Binomial distribution pmf.svg|300px]]
|画像/分布関数 = [[画像:Binomial distribution cdf.svg|300px]]<br />色は上図と同じ
|母数 = <math>n\geq 0</math> 試行回数（整数）<br /><math>0\le p\le 1</math> 成功確率（実数）
|台 = <math>\{ 0,\dotsc ,n\}</math>
|確率関数 = <math>\binom{n}{k} p^k (1-p)^{n-k}</math>
|分布関数 = <math>I_{1-p} \bigl( n - \lfloor k \rfloor , 1 + \lfloor k \rfloor \bigr)</math><br/>（ただし <math>I_{(-)}(-,-)</math> は[[不完全ベータ関数|正則化不完全ベータ関数]]）
|期待値 = <math>np</math>
|中央値 =
|最頻値 = <math>\begin{cases}
\{(n+1)p-1, (n+1)p\} \\
\qquad \cap \{0, \dotsc, n\} & (n+1)p\text{が 整 数 の 時}\\
\bigl\lfloor (n+1)p \bigr\rfloor & \text{そ れ 以 外}
\end{cases}</math>
|分散 = <math>np(1-p)</math>
|歪度 = <math>\frac{1-2p}{\sqrt{np(1-p)}}</math>
|尖度 = <math>\frac{1-6p(1-p)}{np(1-p)}</math>
|エントロピー =
|モーメント母関数 = <math>(1-p+p\, e^t)^n</math>
|特性関数 = <math>(1-p+p\, e^{it})^n</math>
}}
[[数学]]において、'''二項分布'''（にこうぶんぷ、{{lang-en-short|binomial distribution}}）は、成功確率 {{mvar|p}} で成功か失敗のいずれかの結果となる[[試行 (確率論)|試行]]（[[ベルヌーイ試行]]と呼ばれる）を[[独立 (確率論)|独立]]に {{mvar|n}} 回行ったときの成功回数を[[確率変数|確率変数{{math|X}}]]とする[[離散確率分布]]である。

二項分布に基づく[[有意|統計的有意性]]の検定は、[[二項検定]]と呼ばれている。

== 例 ==
二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。

500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布（真の分布）とおおよそ似通っていると考えられる。しかし、低確率ではあるが、選んだ500人の中に1人も患者が含まれないような真の分布とかけ離れた分布が得られる場合もある。直観的には、真の分布に近い分布が得られる確率は、真の分布から遠い分布が得られる確率より大きい。たとえば、500人中の患者の数が500×0.05=25人である確率は、24人や26人である確率より大きいだろうと思われる。しかし、その確率は定量的にどれほどだろうか。 これを定量的に表すことのできる分布が二項分布である。

抽出された集団の中に含まれる罹患者数を[[確率変数]] {{mvar|X}} で表すとき、{{mvar|X}} は {{math|''n'' {{=}} 500}}, {{math|''p'' {{=}} 0.05}} の二項分布に近似的に従う。ここで、罹患者が30人以上いる確率は {{math|Pr[''X'' ≥ 30]}} である。

== 定義 ==
単純な定義としては、成功確率{{mvar|p}}の試行を[[独立 (確率論)|独立]]に{{mvar|n}}回行い、成功回数を横軸にとってヒストグラムを作成した時のグラフの形である。このグラフの関数は下記の性質を持つ。

2つの[[母数]]{{mvar|p}}({{math|0 ≤ ''p'' ≤ 1}}となる実数), {{mvar|n}}(自然数)に対して、{{math|0}} 以上の整数を値としてとる確率変数{{math|X}}を定める。このとき、{{mvar|X}}は試行の成功回数なので、{{math|(0 ≤ ''X'' ≤ ''n'')}}である。

そして、{{math|''X'' {{=}} ''x''}}となるような確率についての関数([[確率質量関数]]){{math|''f{{sub|X}}''(''x'')}}について、

:<math>f_X(x)=\binom{n}{x}p^x(1-p)^{n-x}</math>

となることが性質よりわかる。

また、{{math|''f{{sub|X}}''(''x'')}}は確率であるため、

:<math>\sum_{x=0}^n f_X(x)=1</math>

も明らかである。

上記を定義として、{{mvar|x}}を{{mvar|k}}に書き換え、
:<math>f_X(k)=P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}</math>
で与えられるとき、{{mvar|X}}は二項分布{{math|B(''n'', ''p'')}}に従う、という。これは{{math|''X'' ∼ B(''n'', ''p'')}}と表記される{{sfn|藪|2012|p={{google books quote|id=EJWJ86L2bK4C|page=144|144}}}}。

ここで、
:<math>\binom{n}{k} = {}_n \! \mathrm{C}_k =\frac{n!}{k! \, (n-k)!}</math>
は {{mvar|n}} 個から {{mvar|k}} 個を選ぶ[[組合せ (数学)|組合せ]]の数、すなわち[[二項係数]]を表す。二項分布という名前は、この二項係数に由来している。

{{math|''n'' {{=}} 1}} の場合を特に、[[ベルヌーイ分布]]と呼ぶ。

上の定義式は次のように解釈することができる。1回の試行において成功する確率が {{mvar|p}} であるとき、{{mvar|p{{sup|k}}}} は {{mvar|k}} 回成功する確率を表し、{{math|(1 &minus; ''p''){{sup|''n''&minus;''k''}}}} は {{math|''n'' &minus; ''k''}} 回失敗する確率を表している。ただし、{{mvar|k}} 回の成功は {{mvar|n}} 回の試行の中のどこかで発生したものであるから、{{math|{{sub|''n''}}C{{sub|''k''}}}} 通りの発生順序がある。これら全てを掛けると、{{mvar|n}} 回の独立な試行を行ったときの成功回数が {{mvar|k}} となる確率を求めることができる。

== 性質の導出 ==
=== 期待値・分散 ===
二項分布 {{math|B(''n'', ''p'')}} に従う確率変数 {{mvar|X}} に対し、{{mvar|X}} の[[期待値]] {{math|''E''[''X'']}} を求めると

:<math>\begin{align}
    E[X] & = \sum_{k=0}^n k f_{X}(k) \\
        & = \sum_{k=0}^n k \binom{n}{k} p^k (1-p)^{n-k} \\
        & = \sum_{k=1}^n k \binom{n}{k} p^k (1-p)^{n-k} \\
        & = \sum_{k=1}^n k \frac{n!}{(n-k)! \, k!} p^k (1-p)^{n-k} \\
        & = \sum_{k=1}^n \frac{n!}{(n-k)! \, (k-1)!} p^k (1-p)^{n-k} \\
        & = \sum_{k=1}^n n \frac{(n-1)!}{(n-k)! \, (k-1)!} p p^{k-1} (1-p)^{n-k} \\
        & = n p \sum_{k=1}^n \frac{(n-1)!}{(n-k)! \, (k-1)!} p^{k-1} (1-p)^{n-k} \\
\end{align}</math>

ここで、{{math|''k''′ {{=}} ''k'' − 1}}とおくと、

:<math>\begin{align}
&\hphantom{=} n p \sum_{k=1}^n \frac{(n-1)!}{(n-k)! \, (k-1)!} p^{k-1} (1-p)^{n-k} \\
        & = n p \sum_{k'=0}^{n-1} \frac{(n-1)!}{\bigl( (n-1) - k' \bigr)! \, k'!}p^{k'}(1-p)^{(n-1) - k'} \\
        & = n p \sum_{k'=0}^{n-1} \binom{n-1}{k'} p^{k'} (1-p)^{(n-1)-k'} \\
        & = n p \\
\end{align}</math>

これは全ての順序付けられた試行パターンについての平均値でもある。

続いて、[[分散 (確率論)|分散]] {{math|''V''[''X'']}} は

:<math>V[X] = E \bigl[ X^2 \bigr] - \bigl( E[X] \bigr)^2</math>

上と同様に

:<math>\begin{align}
    E \bigl[ X^2 \bigr] & = \sum_{k=0}^n k^2 P(X=k) \\
        & = \sum_{k=1}^n k(k-1) \binom{n}{k} p^k (1-p)^{n-k} + \sum_{k=1}^n k \binom{n}{k} p^k (1-p)^{n-k} \\
        & = \sum_{k=1}^n \frac{n!}{(n-k)! \, (k-2)!} p^k (1-p)^{n-k} + E[X] \\
        & = \sum_{k=2}^n \frac{n!}{(n-k)! \, (k-2)!} p^k (1-p)^{n-k} + n p \\
        & = n(n-1) p^2 \sum_{k=2}^n \frac{(n-2)!}{(n-k)! \, (k-2)!} p^{k-2} (1-p)^{n-k} + n p \\
        & = n(n-1) p^2 \sum_{k'=0}^{n-2} \frac{(n-2)!}{(n-2-k')! \, k'!} p^{k'} (1-p)^{n-2-k'} + n p \\
        & = n(n-1) p^2 + n p \\
\end{align}</math>

合計して、

:<math>\begin{align}
    V[X] & = n(n-1) p^2 + np - n^2 p^2 \\
        & = np(1-p) \\ 
\end{align}</math>

となる{{sfn|藪|2012|pp={{google books quote|id=EJWJ86L2bK4C|page=144|144}}–145}}。

=== モーメント ===
二項分布 {{math|B(''n'', ''p'')}} に従う確率変数 {{mvar|X}} の {{mvar|r}} 次[[モーメント (確率論)|モーメント]] {{math|''E''[''X''{{sup|''r''}}]}} は
:<math> E \bigl[ X^r \bigr] = \sum_{j = 0}^r S(r, j) \frac{n!}{(n - j)!}p^j </math>
というやや複雑な表示をもつ{{sfn|Johnson|Kotz|Kemp|2005|loc=(3.6)|page=110}}<!-- 原書はrとjを混同しているが -->。ここで {{math|''S''(''r'', ''j'')}} は[[第二種スターリング数]]。低次から
:<math> E \bigl[ X^1 \bigr] = np, \quad E[X^2] = np + n(n - 1)p^2, \dotsc </math>
となる。一方 {{mvar|X}} の {{mvar|r}} 次{{仮リンク|階乗モーメント|en|factorial moment}} {{math|''E''[(''X''){{sub|''r''}}]}} は
:<math> E \bigl[ (X)_r \bigr] = (n)_r p^r = \frac{n!}{(n - r)!} p^r </math>
という単純な表示をもつ{{sfn|Johnson|Kotz|Kemp|2005|page=109}}。ここで {{math|(''n''){{sub|''r''}} {{=}} ''n''!/(''n'' &minus; ''r'')!}} は[[ポッホハマー記号]]。低次から
:<math> E \bigl[ (X)_1 \bigr] = np, \quad E \bigl[ (X)_2 \bigr] = n(n - 1)p^2, \dotsc </math>
となる。

=== 再生性 ===
二項分布は[[再生性]]を有する。すなわち {{math|B(''n'', ''p'')}} に従う確率変数 {{mvar|X}} と {{math|B(''m'', ''p'')}} に従う確率変数 {{mvar|Y}} が互いに独立であるとき、確率変数の和 {{math|''X'' + ''Y''}} は二項分布 {{math|B(''n'' + ''m'', ''p'')}} に従う。

== 近似 ==
二項分布の[[近似]]として、以下の小節に挙げる[[確率分布|分布]]などが知られている。
近似を用いることで計算の労力を削減できるという利点がある一方、各近似にはそれを適用可能とするための条件が存在する。
そのため、それらの条件や近似を用いることで生じる誤差が許容可能な範囲内に収まっていることの確認が必要となる。
特に、二項分布の母比率の[[信頼区間]]を求める際には、用いる近似と変数の値の組み合わせにより、厳密に求められた信頼区間との間に近似誤差が生じることになるため注意が必要である<ref>"EBCIC: Exact Binomial Confidence Interval Calculator" https://kazkobara.github.io/ebcic/README-jp.html</ref>。

=== 正規分布 ===
{{未検証|date=2018-12|section=1}}
[[画像:De moivre-laplace.gif|300px|thumb|二項分布が正規分布に近づく様子]]
期待値 {{mvar|np}} および分散 {{math|''np''(1 &minus; ''p'')}} が {{math|5}} よりも大きい場合、二項分布 {{math|B(''n'', ''p'')}} に対する良好な近似として[[正規分布]]がある。ただし、この近似を適用するにあたっては、変数のスケールに注意し、連続な分布への適切な処理がなされる必要がある。より厳密に述べれば、{{mvar|n}} が十分大きくかつ、期待値 {{mvar|np}} および 分散 {{math|''np''(1 &minus; ''p'')}} も十分大きい場合、期待値 {{mvar|np}}, 分散 {{math|''np''(1 &minus; ''p'')}} の正規分布 {{math|N(''np'', ''np''(1 &minus; ''p''))}} で近似することができ、期待値からの差 {{math|{{abs|''k'' &minus; ''np''}}}} が[[標準偏差]] <math display="inline">\sqrt{np(1 - p)}</math> と同程度となる {{mvar|k}} に対して
:<math>P[X=k] \simeq \frac{1}{\sqrt{2 \pi np(1-p)}} \exp \biggl( -\frac{(k-np)^2}{2np(1-p)} \biggr)</math>
が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者[[アブラーム・ド・モアブル]]が1733年に著書 {{lang|en|''The Doctrine of Chances''}} の中で紹介したのが最初であり、'''ド・モアブル=ラプラスの極限定理'''またはラプラスの定理と呼ぶことがある<ref>[[伏見康治]]「[[確率論及統計論]]」第IV章　独立偶然量の和　27節 Bernoulliの定理, Laplaceの定理 p.452 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204</ref>。これは、今日でいうところの[[中心極限定理]]の特別な場合に相当する。この正規分布への近似と標準正規分布表により、計算の労力を大きく削減することができる。

例えば、多数の住民の中から {{mvar|n}} 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。{{mvar|n}} 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 {{mvar|p}} とほぼ等しい[[平均]]を持ち、標準偏差 <math display="inline">\sigma = \sqrt{p(1 - p)/n}</math> である正規分布に近似される。未知の変数 {{mvar|p}} は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 {{mvar|n}} は多い方が好ましい。

95%[[信頼区間]]ならば、正規分布で近似すると、その範囲は
:<math>p-1.959964\sqrt{\frac{p(1-p)}{n}} \sim p+1.959964\sqrt{\frac{p(1-p)}{n}}</math>
となる。たとえば、{{math|''p'' {{=}} 50%}} の場合、{{math|''n'' {{=}} 100}} なら{{math|40%–60%}}、{{math|''n'' {{=}} 1000}} ならば{{math|47%–53%}}、{{math|''n'' {{=}} 10000}} ならば{{math|49%–51%}}となる。{{math|''n'' {{=}} 10}} の場合、正規分布近似ではなく、本来の定義に従って計算すると、{{math|89%}}信頼区間で、{{math|30%–70%}}となる<ref>[http://wolfr.am/WLf2Jr prob 3 &lt;{{=}} x &lt;{{=}} 7 for x binomial with n{{=}}10 and p{{=}}0.5 — Wolfram Alpha]</ref>。

=== ポアソン分布 ===
{{mvar|n}} が大きく {{mvar|p}} が十分小さい場合、{{mvar|np}} は適度な大きさとなるため、{{math|''λ'' {{=}} ''np''}} を母数とする[[ポアソン分布]]が二項分布 {{math|B(''n'', ''p'')}} の良好な近似を与える。すなわち、{{mvar|n}} が十分大きいとき、期待値 {{math|''λ'' {{=}} ''np''}} とおくと、
:<math>P[X=k] \simeq \frac{\lambda^k e^{-\lambda}}{k!}</math>
が成り立つ（詳細は[[ポアソン分布]]の項を参照）。この結果は数学者[[シメオン・ドニ・ポアソン]]が1837年に著書 {{lang|fr|''Recherches sur la probabilite des jugements''}} {{lang|en|(''Researches on the Probabilities'')}} の中で与えており、'''ポアソンの極限定理'''と呼ばれる。

== 出典 ==
{{脚注ヘルプ}}
{{Reflist|2}}

== 参考文献 ==
* {{Cite book|和書 |author=藪友良|authorlink=藪友良 |year=2012 |title=入門実践する統計学 |url={{google books|EJWJ86L2bK4C|plainurl=yes}} |publisher=東洋経済新報社 |isbn=978-4-492-47085-5 |ref={{SfnRef|藪|2012}} }}
* {{Cite book
|last1 = Johnson
|first1 = N. L.
|last2 = Kotz
|first2 = A. W.
|last3 = Kemp
|first3 = S.
|title = Univariate Discrete Distributions
|edition = Third
|year = 2005
|publisher = Wiley
|isbn = 0-471-27246-9
|mr = 2163227
|zbl = 1092.62010
|ref = harv
}}

== 関連項目 ==
*[[負の二項分布]]
*[[多項分布]]
*[[ベルヌーイ過程]]
*[[壺問題]]
*[[ゴルトンボード]]

{{確率分布の一覧}}

{{デフォルトソート:にこうふんふ}}
[[Category:確率分布]]
[[Category:数学に関する記事]]