正規分布

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:出典の明記 テンプレート:確率分布 正規分布(せいきぶんぷ、テンプレート:Lang-en-short)またはガウス分布テンプレート:Lang-en-short)は、確率論統計学で用いられる連続的な変数に関する確率分布の一つである[1]。データが平均の付近に集積するような分布を表す。主な特徴としては平均値と最頻値中央値が一致する事や平均値を中心にして左右対称である事などが挙げられる[1][2]

中心極限定理により、独立な多数の因子の和として表される確率変数は正規分布に従う。このことによって正規分布は統計学や自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられている[1]

たとえば、実験における測定の誤差は正規分布に従って分布すると仮定され、不確かさの評価が計算されている。

正規分布の確率密度関数フーリエ変換は再び正規分布の密度関数になることから、フーリエ解析および派生した様々な数学物理の理論の体系において、正規分布は基本的な役割を果たしている。

確率変数 テンプレート:Mvar が1次元正規分布に従う場合は XN(μ,σ2) と表記し、確率変数 テンプレート:Mvarテンプレート:Mvar 次元正規分布に従う場合は XNn(μ,Σ) などと表記する。

概要

平均テンプレート:Mvar, 分散テンプレート:Math2 とする(1次元)正規分布とは、確率密度関数が次の形(ガウス関数と呼ばれる)

f(x)=12πσ2exp((xμ)22σ2)(x)

で与えられる確率分布のことである[1]テンプレート:Sfnテンプレート:Sfn。この分布を テンプレート:Math と表す[1]テンプレート:Sfn。(テンプレート:Mvar は「正規分布」を表す英語 "normal distribution" の頭文字から取られている)[1]

標準正規分布

特に テンプレート:Math2, テンプレート:Math2 のとき、この分布は(1次元)標準正規分布(または基準正規分布)と呼ばれるテンプレート:Sfn。つまり標準正規分布 テンプレート:Math

f(x)=12πexp(x22)

なる確率密度関数を持つ確率分布として与えられる[1]

再生性

正規分布は再生性を持つテンプレート:Sfn —— つまり確率変数 テンプレート:Math2 が独立にそれぞれ正規分布 テンプレート:Math2 に従うならば、その線型結合 テンプレート:Math もまた正規分布 テンプレート:Math に従う。

確率密度関数

正規分布の確率密度関数をグラフ化した正規分布曲線は左右対称な釣鐘状の曲線であり、の形に似ていることからベル・カーブ(鐘形曲線)とも呼ばれる。直線 テンプレート:Math2 に関して対称であり、テンプレート:Mvar 軸は漸近線である。なお、曲線は テンプレート:Mvar の値が大きいほど扁平になる。

なお、中心極限定理により、巨大な テンプレート:Mvar に対する二項分布とも考えることができる。

平均値の周辺の テンプレート:Mvarモーメントは、各次数 テンプレート:Mvar に対して

E[(Xμ)n]={0,if n is odd(n1)!!σn,if n is even

となることが知られているテンプレート:Sfn。ただしテンプレート:Math。 (odd: 奇数/even: 偶数)

多変量正規分布

テンプレート:Main

また、多変量の統計として共分散まで込めた多次元の正規分布も定義され、平均 テンプレート:Mathテンプレート:Mvar 次元正規分布の同時密度関数は次の式で与えられる。

f(x)=1(2π)n|Σ|exp(12(xμ)TΣ1(xμ))

ここで、テンプレート:Math分散共分散行列と呼ばれる正定値対称行列である。|Σ| は Σ の行列式。なお、テンプレート:Math は(対称)行列 テンプレート:Mvar とベクトル テンプレート:Mvar に対して二次形式 テンプレート:Math を意味するもの(ジーゲルの記号)とすると テンプレート:Math と書くこともできる。

この テンプレート:Mvar 次元正規分布を テンプレート:Math と表すテンプレート:Sfn。特に1次元の場合、平均 テンプレート:Math と分散共分散行列 テンプレート:Math は共に1次元の平均と分散を意味する1つの実数値であり、記号 テンプレート:Math は単に テンプレート:Math と書かれる(先に述べた1次元の場合の記号と同じものと理解してよい)。

歪正規分布

歪正規分布の確率密度関数

正規分布の拡張としては、上で示した多次元化を施した多変量正規分布の他に、歪正規分布 (Skew-Normal (SN) distribution) がある。これは三変数で表現され、そのうち1つの変数について テンプレート:Math のときに正規分布となることから、分布を平均と分散の二変数で表現する正規分布の拡張であるといえる。テンプレート:Math を標準正規分布の確率密度関数とする。

ϕ(x)=12πex22

その累積確率密度関数は次で与えられる。

Φ(x)=xϕ(t)dt=12[1+erf(x2)]

ここに "erf" は誤差関数シグモイド関数)である。このとき、標準正規分布に対応する歪正規分布 テンプレート:Math の確率密度関数は次で与えられる。

f(x)=2ϕ(x)Φ(αx)

これに平均のようなもの相当する変数と分散のようなものに相当する変数を加えるためにZ変換(標準化)の逆 テンプレート:Math を施す。すると歪正規分布は一般の形になり、以下の関係が成り立つ。

YSN(ξ,ω2,α)

正規分布の適用

正規分布が統計学上特別な地位を持つのは中心極限定理が存在するためである。中心極限定理とは、「独立同分布に従う確率変数 X の値の算術平均 X¯n=(X1++Xn)/n確率分布は、 X標準偏差が存在するならば、 X の分布の形状に関係なく、 n が限りなく大きくなったとき、正規分布に収束する」という定理である[1]。このため大標本の「平均値」の統計には、正規分布が仮定されることが非常に多い。なお、「確率変数 X の値」自体は、 n をどれだけ増やしても、 X の分布に従うだけで、正規分布に収束することはない。(たとえば、一つのサイコロを振ったときの目の分布は、サイコロをどれだけ多く振っても、1から6の均等分布である。正規分布に収束するのは、出た目の平均値の分布である。)

自然界の事象の中には正規分布に従う数量の分布をとるものがあることが知られている[3]。また、そのままでは変数が正規分布に従わない場合もその対数をとると正規分布に従う場合がある。しかしそれは必ずしも多数派というわけではない。19世紀ではさながら「正規分布万能主義」のような考え方がまかり通っていたが、20世紀以降そういった考え方に修正が見られた。今日においては社会現象、生物集団の現象等々、種別から言えば、正規分布に従うものはむしろ少数派であることが確認されている。

例えば、フラクタルな性質を持つ物は正規分布よりも、パレート分布になることが多い。人間は自然界の事象とは違って自分の意思をもっているため、たとえば、子供の成績などは決して正規分布にはならない[3]。しかし、そもそも理論上、正規分布の テンプレート:Mvar の値は負の無限大から正の無限大まで取れるのに対して、多くの事象は最小値(例えば比例尺度におけるゼロ)と最大値(例えばテストにおける100点満点)が予め定まっている場合があり、そのような事象が完全な正規分布に従うとするには無理がある(その際はcensoringつまり打ち切りを考慮したり、対数正規分布を用いたりするとより正確な確率を求めることが出来る場合がある)。また、テンプレート:Math および自然数しかとらない離散確率分布、例えばポアソン分布二項分布連続確率分布である正規分布で近似することも一般的に行われている。

検定

正規Q-Qプロット

何らかの事象について法則性を捜したり理論を構築しようとしたりする際、その確率分布がまだ分かっていない場合にはそれが正規分布であると仮定して推論することは珍しくないが、誤った結論にたどりついてしまう可能性がある。標本データが正規分布に近似しているかどうを判断するためには、尖度歪度を調べる、ヒストグラムを見る、正規Q-Qプロットをチェックする、あるいはシャピロ–ウィルク検定コルモゴロフ–スミルノフ検定(正規分布)を利用する方法などが一般的に行われている。

点推定

平均や分散が未知の正規分布に従うデータから、母数 テンプレート:Math2 を推定したいことがある。これには次の推定量 θ^=(μ^,σ^2) がよく用いられる。正規分布 テンプレート:Math からの無作為標本 テンプレート:Math2 が与えられたとき、

μ^=1ni=1nxiσ^2=1n1i=1n(xiμ^)2

テンプレート:仮リンクであるテンプレート:Sfn

区間推定

点推定が1つの値を用いて母数の推定を行うのに対し、一定の区間を設けて推定することを区間推定という。

例えば、

「2022年6月の岸田内閣の支持率は59%である[4]

という推定が点推定であるのに対し、

「2022年1月から12月まで支持率は33%から59%である[4]

という推定は区間推定に分類される[5]

また、推定する区間を信頼区間と呼び、水準に応じて「90%信頼区間」「95%信頼区間」「99%信頼区間」などとも呼ばれる[6]

歴史

正規分布はアブラーム・ド・モアブルによって1733年に導入された[7]。この論文はド・モアブル自身による1738年出版の The Doctrine of Chances 第二版の中で、高い次数に関する二項分布の近似の文脈において再掲されている。ド・モアブルの結果はピエール=シモン・ラプラスによる『確率論の解析理論』(1812年)において拡張され、いまではド・モアブル–ラプラスの定理と呼ばれている。

ラプラスは正規分布を実験の誤差の解析に用いた。その後アドリアン=マリ・ルジャンドルによって1805年に最小二乗法が導入されテンプレート:Sfn、1809年のカール・フリードリヒ・ガウスによる誤差論で詳細に論じられた(ガウスは1794年から最小二乗法を知っていたと主張していた)。

「ベル・カーブ」という名前は、1872年に2変数正規分布に対して「鐘形曲面」という言葉を用いた テンプレート:仮リンク にさかのぼる。「正規分布」という言葉はチャールズ・サンダース・パースフランシス・ゴルトンヴィルヘルム・レキシスの3人によって1875年頃に独立に導入された。

統計的な意味

標準正規分布がもつ確率密度関数のグラフ

正規分布 テンプレート:Math からの無作為標本 テンプレート:Mvar を取ると、平均 テンプレート:Mvar からのずれが テンプレート:Math 以下の範囲に テンプレート:Mvar が含まれる確率は 68.27%、テンプレート:Math 以下だと 95.45%、さらに テンプレート:Math だと 99.73% となる[1]

正規分布は、t分布F分布といった種々の分布の考え方の基礎になっているだけでなく、実際の統計的推測においても、仮説検定区間推定など、様々な場面で利用される。

正規分布 テンプレート:Math に従う確率変数 テンプレート:Mvar が与えられたとき テンプレート:Math2 と標準化すれば確率変数 テンプレート:Mvar は標準正規分布に従う。大学レベルの統計入門のクラスでは必ず行われているが、テンプレート:Mvar 値を求めることで標準正規分布表と呼ばれる変量に対応した確率を表す一覧表を用いて、コンピュータを使うことなく正規分布に従った事象の確率を求めることができる。

不連続値をとる確率変数についての検定の場合でも、連続変数と同様の考え方で正規分布を近似的に用いることがある。これは標本の大きさ テンプレート:Mvar が大きく、かつデータの階級幅が狭いほど、近似の精度が高い。

標準正規分布における信頼度の推移
標準正規分布におけるテンプレート:Mvar区間の推移
信頼区間に対する信頼度の推移
信頼区間 信頼度 危険率
百分率 百分率
0.318 639テンプレート:Mvar 25% 75% テンプレート:Sfrac
0.674490テンプレート:Mvar 50% 50% テンプレート:Sfrac
0.994458テンプレート:Mvar 68% 32% テンプレート:Sfrac
1テンプレート:Mvar 68.2689492% 31.7310508% テンプレート:Sfrac
1.281552テンプレート:Mvar 80% 20% テンプレート:Sfrac
1.644854テンプレート:Mvar 90% 10% テンプレート:Sfrac
1.959964テンプレート:Mvar 95% 5% テンプレート:Sfrac
2テンプレート:Mvar 95.4499736% 4.5500264% テンプレート:Sfrac
2.575829テンプレート:Mvar 99% 1% テンプレート:Sfrac
3テンプレート:Mvar 99.7300204% 0.2699796% テンプレート:Sfrac
3.290527テンプレート:Mvar 99.9% 0.1% テンプレート:Sfrac
3.890592テンプレート:Mvar 99.99% 0.01% テンプレート:Sfrac
4テンプレート:Mvar 99.993666% 0.006334% テンプレート:Sfrac
4.417173テンプレート:Mvar 99.999% 0.001% テンプレート:Sfrac
4.5テンプレート:Mvar テンプレート:Gaps 0.0006795346249% テンプレート:Sfrac
4.891638テンプレート:Mvar 99.9999% 0.0001% テンプレート:Sfrac
5テンプレート:Mvar 99.9999426697% 0.0000573303% テンプレート:Sfrac
5.326724テンプレート:Mvar 99.99999% 0.00001% テンプレート:Sfrac
5.730729テンプレート:Mvar 99.999999% 0.000001% テンプレート:Sfrac
[[シックス・シグマ#概要と歴史|テンプレート:Math]] 99.9999998027% 0.0000001973% テンプレート:Sfrac
6.109410テンプレート:Mvar 99.9999999% 0.0000001% テンプレート:Sfrac
6.466951テンプレート:Mvar 99.99999999% 0.00000001% テンプレート:Sfrac
6.806502テンプレート:Mvar 99.999999999% 0.000000001% テンプレート:Sfrac
7テンプレート:Mvar 99.9999999997440% 0.000000000256% テンプレート:Sfrac

標準正規分布表

引用元:テンプレート:Harv

標準正規分布XN(0,1)における確率P(0XZ)の値をまとめた。

テンプレート:Math 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549
0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986
3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990
3.1 .4990 .4991 .4991 .4991 .4992 .4992 .4992 .4992 .4993 .4993
3.2 .4993 .4993 .4994 .4994 .4994 .4994 .4994 .4995 .4995 .4995
3.3 .4995 .4995 .4995 .4996 .4996 .4996 .4996 .4996 .4996 .4997
3.4 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4998
3.5 .4998 .4998 .4998 .4998 .4998 .4998 .4998 .4998 .4998 .4998
3.6 .4998 .4998 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .4999
3.7 .4999 .4999 .4999 .4999 .49991 .49992 .49992 .49992 .49992 .49992
3.8 .49993 .49993 .49993 .49994 .49994 .49994 .49994 .49995 .49995 .49995
3.9 .49995 .49995 .49996 .49996 .49996 .49996 .49996 .49996 .49997 .49997
4.0 .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997
4.1 .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998
4.2 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999
4.3 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999
4.4 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999
4.5 .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997
4.6 .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998
4.7 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999
4.8 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999
4.9 .499995 .499995 .499995 .499995 .499995 .499995 .499995 .499995 .499995 .499995
5.0 .499997

脚注

テンプレート:脚注ヘルプ

出典

テンプレート:Reflist

参考文献

テンプレート:参照方法

関連項目

外部リンク

テンプレート:確率分布の一覧 テンプレート:統計学

テンプレート:Normdaten

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 テンプレート:Cite web
  2. テンプレート:Cite web
  3. 3.0 3.1 テンプレート:Cite book
  4. 4.0 4.1 テンプレート:Cite news
  5. テンプレート:Cite book
  6. テンプレート:Cite web
  7. Abraham de Moivre, "Approximatio ad Summam Terminorum Binomii テンプレート:Math in Seriem expansi"(1733年11月12日に私的な回覧用にロンドンで印刷された。)このパンフレットは以下に挙げる各書物に再掲されている:
    (1) テンプレート:Cite journal
    (2) Helen M. Walker, “De Moivre on the law of normal probability” in David Eugene Smith, A Source Book in Mathematics [New York, New York: McGraw-Hill, 1929; reprinted: New York, New York: Dover, 1959], vol. 2, pages 566–575.;
    (3) Abraham De Moivre, The Doctrine of Chances (2nd ed.) [London: H. Woodfall, 1738; reprinted: London: Cass, 1967], pages 235-243; (3rd ed.) [London: A Millar, 1756; reprinted: New York, New York: Chelsea, 1967], pages 243–254;
    (4) Florence N. David, Games, Gods and Gambling: A History of Probability and Statistical Ideas [London: Griffin, 1962], Appendix 5, pages 254–267.(テンプレート:Cite book)