分散 (確率論)

提供: testwiki
2025年3月9日 (日) 16:01時点におけるimported>Maulitsによる版
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

統計学および確率論における分散(ぶんさん、テンプレート:Lang-en-short)とは、データ母集団標本)、確率変数確率分布)の標準偏差自乗のことである。分散も標準偏差と同様に散らばり具合を表しテンプレート:Sfn、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いることも多い。

分散は具体的には、平均値からの偏差2乗の平均に等しい。データ テンプレート:Math2 の分散 テンプレート:Math

s2=1ni=1n(xix)2
ここで テンプレート:Math は平均値を表す。

分散が テンプレート:Math であることは、データの値が全て等しいことと同値である。データの分散は二乗平均から平均の2乗を引いた値に等しくなる。

確率変数 テンプレート:Mvar の分散 テンプレート:Mathテンプレート:Efn2は、テンプレート:Mvar期待値テンプレート:Math で表すと

テンプレート:Math2

となるテンプレート:Sfn。 確率変数の分散は確率変数の2次の中心化モーメントである。

統計学では、記述統計学においては標本の散らばり具合を表す指標として標本分散(ひょうほんぶんさん、テンプレート:Lang-en-short)を、推計統計学においては不偏分散(ふへんぶんさん、テンプレート:Lang-en-short)・不偏標本分散(ふへんひょうほんぶんさん、テンプレート:Lang-en-short)を用いる。

言葉の由来

英語の テンプレート:Lang(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[1]

確率変数の分散

2乗可積分確率変数 テンプレート:Mvar の分散は期待値テンプレート:Math で表すと

V[X]=E[(XE[X])2]

定義される。これを展開して整理すると

V[X]=E[(XE[X])2]=E[X22XE[X]+(E[X])2]=E[X2]2E[XE[X]]+E[(E[X])2]=E[X2]2E[X]E[X]+(E[X])2(E[X]=Const)=E[X2](E[X])2

とも書ける。また確率変数 テンプレート:Mvar特性関数テンプレート:Math2 とおくと(テンプレート:Mvar虚数単位)、これは 2階連続的微分可能

V[X]=φX(0)+(φX(0))2

と表示することもできる。

チェビシェフの不等式から、任意の正の数 テンプレート:Mvar に対して

P(|XE[X]|>ε)V[X]ε2

が成り立つ。これは分散が小さくなるほど確率変数が期待値に近い値をとりやすくなることを示す大まかな評価である。

性質

テンプレート:Math2確率変数テンプレート:Math2定数とし、共分散テンプレート:Math で表すと

を満たす。したがって、特に テンプレート:Math2独立ならば、

Cov[Xi,Xj]={V[Xi](i=j)0(ij)

より

V[X1++Xn]=V[X1]++V[Xn]

が成り立つ。

データの分散

推計統計学では、母集団の分散と標本の分散を区別する必要がある。

母分散

大きさが テンプレート:Mvar である母集団 テンプレート:Math2 に対して、平均値テンプレート:Mvar で表すとき、偏差自乗の平均値

σ2=1ni=1n(xiμ)2

母分散(ぼぶんさん、テンプレート:Lang-en-short)と言う[2]

標本分散・不偏標本分散

母集団の平均がμ、分散がσ2のとき、大きさが テンプレート:Mvar である標本 テンプレート:Math2 に対して、標本の平均値テンプレート:Math で表すとき、偏差自乗の平均値

s2=1ni=1n(xix¯)2

で定義される テンプレート:Math標本分散(ひょうほんぶんさん、テンプレート:Lang-en-short)と言う。テンプレート:Mvar標準偏差と呼ばれる[2]

定義より、

s2=1ni=1nxi2(x¯)2=x2(x¯)2

となるから、標本分散は2乗の平均値と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には桁落ちが起きる可能性がある。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムテンプレート:仮リンクのような手法により、誤差を小さくする工夫がなされることもある)。

一般に、標本分散の期待値は母分散と一致せず、母分散より小さくなる。これは、母分散は「母平均との偏差」で算出されるのに対し、標本分散では「標本平均との偏差」で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの無作為標本に対して、標本分散の期待値 テンプレート:Math について、

E[s2]=E[1ni=1n(xix¯)2]=E[1ni=1n(xiμ(x¯μ))2]
=1nE[i=1n(xiμ1nj=1n(xjμ))2]
=1nE[i=1n(n1n(xiμ)1nji(xjμ))2]
=1ni=1nE[(n1)2n2(xiμ)2+1n2ji(xjμ)2]
+1ni=1nE[2(n1)n2(xiμ)ji(xjμ)+1n2jiki,j(xjμ)(xkμ)]
=1ni=1n[(n1)2n2E[(xiμ)2]+1n2jiE[(xjμ)2]]
+1ni=1n[2(n1)n2E[(xiμ)ji(xjμ)]+1n2jiki,jE[(xjμ)(xkμ)]]

ここで、

E[(xiμ)2]=E[(xjμ)2]=σ2
xixjxkは独立のため、
E[(xiμ)ji(xjμ)]=E[xiμ]E[ji(xjμ)]=0
E[(xjμ)(xkμ)]=E[xjμ]E[xkμ]=0

となるため、

E[s2]=1ni=1n((n1)2n2σ2+n1n2σ2)=n1nσ2

が成り立つ。

そこで

σ^2=1n1i=1n(xix¯)2=nn1s2

を用いると、

E[1n11n(xix¯)2]=σ2

となり、期待値が母分散に等しくなる推定量が得られる。つまり母分散の不偏推定量となる。これを不偏標本分散(ふへんひょうほんぶんさん、テンプレート:Lang-en-short)や不偏分散(ふへんぶんさん、テンプレート:Lang-en-short)と呼ぶ[2]

上記の標本分散は不偏でないことを強調する場合偏りのある標本分散テンプレート:Lang-en-short)と言う。 テンプレート:See also なお、不偏標本分散を単に標本分散と呼ぶ文献もある。

定義から明らかに、標本の大きさが大きくなる程につれて偏りのある標本分散は不偏標本分散に近づく。

注釈

テンプレート:Notelist2

出典

テンプレート:Reflist

参考文献

関連項目

テンプレート:統計学 テンプレート:Normdaten