標準偏差

提供: testwiki
2024年8月21日 (水) 07:12時点におけるimported>やっと亀による版
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動
平均は同じであるが標準偏差が大きく異なるデータヒストグラムの例。赤で示されたデータの方が青で示されたデータよりも標準偏差が小さい。
平均 テンプレート:Math, 標準偏差 テンプレート:Mvar正規分布確率密度関数。この分布に従う確率変数が テンプレート:Math2 の間に値をとる確率はおよそ 68% であることが読み取れる。

テンプレート:読み仮名とは、データ確率変数の、平均値からの散らばり具合(ばらつき)を表す指標の一つである。偏差ベクトルと、値が標準偏差のみであるベクトルは、ユークリッドノルムが等しくなる。

標準偏差を2乗したのが分散であり、従って、標準偏差は分散の非負の平方根であるテンプレート:Sfn。標準偏差が テンプレート:Math であることは、データの値が全て等しいことと同値である。

母集団や確率変数の標準偏差を テンプレート:Mvar で、標本の標準偏差を テンプレート:Mvar で表すことがある。

二乗平均平方根 (RMS) を用いると、標準偏差は偏差の二乗平均平方根に等しくなる。

概要

データ テンプレート:Math2平均値からの散らばり具合を数値にした標準偏差は、次の式で定義される:

s=1ni=1n(xix)2

ここで テンプレート:Math は平均値を表す。この定義は、データを数ベクトルと見て、「散らばり具合」を偏差ベクトルのユークリッドノルムととらえる考えに基づく(このことより平均偏差でなく自乗平均をとる)。

もとのデータ テンプレート:Mvar を、平均値、「散らばり具合」を変えず、偏差が全て同じであるように取り直したデータ テンプレート:Mvar を考える。
テンプレート:Mvar の大きさが奇数のときは、テンプレート:Mvar を、自分自身2個を併せたデータ(大きさは偶数)に取り直す(そうしても平均値、「散らばり具合」は変わらない)。
テンプレート:Mvar の偏差ベクトルは テンプレート:Math2 の形になる。テンプレート:Mvarテンプレート:Mvar の「散らばり具合」が等しいことから、
𝒙𝒙=(±s,,±s)
ns2=i=1n(xix)2
s=1ni=1n(xix)2 //

標準偏差は平方根を取るため、簡単な計算法則が成り立ちにくいという特徴がある。そこで分散 テンプレート:Math

s2=1ni=1n(xix)2

で定義する。分散には簡単な計算法則がいくつか成り立つことから、種々の標準偏差ができるようになる。 テンプレート:Main 標準偏差の概念は、イギリス統計学フランシス・ゴルトンにより、親子の身長の相関関係を調べる中で初めて見出された[1]。データを数ベクトルと見る考え方は相関係数の導入と命名につながった。ゴルトンはこれらの研究により平均への回帰という現象を見出した[2]

ユニヴァーシティ・カレッジ・ロンドンのゴルトン研究室を継承した[3]カール・ピアソンはゴルトンの研究を定式化[1]、体系化し[4]、初めて "standard deviation"(「標準偏差」)と名付けた[5][6][7]

確率分布において最も基本となる正規分布曲線において、変曲点テンプレート:Mvar座標と平均の絶対差は標準偏差に等しくなる。このことから、標準偏差は信頼区間の基本的な単位となる。

日本の受験業界で広く使われている学力偏差値は標準偏差の応用例の一つで、異なる試験でも、平均点よりどれだけ離れているかをある統一した尺度でとらえることができるようになっている。

金融工学においては、株式リスク確率分布の標準偏差でとらえることがある[8][9]

母集団の標準偏差

母集団全てのデータ テンプレート:Math2 に対して、平均値 テンプレート:Math は次の式で定義される:

x=1ni=1nxi

この平均値 テンプレート:Math を使って得られる分散 テンプレート:Math を次の式で定義する:

σ2=1ni=1n(xix)2=1ni=1nxi2x2

テンプレート:Math を母分散と言うこともある。

この分散の非負の平方根 テンプレート:Mvar を、母集団の標準偏差と定義する[10]。分散もデータの散らばり具合を表す統計量であるが、分散と違い標準偏差はデータの値と次元が等しくなる。偏差は平均的には標準偏差の分だけ離れていると考えることができるテンプレート:Sfn

標本の標準偏差

標本標準偏差

母集団の中から、大きさ テンプレート:Mvar(母集団の大きさよりはるかに小さい)の標本 テンプレート:Math2 を抽出したとする。このとき、標本平均は次の式で表される:

x¯=1ni=1nxi

この標本平均を使って次式で定義される量を標本分散と呼ぶ:

s2=1ni=1n(xix¯)2=1ni=1nxi2x¯2

標本分散の平方根 テンプレート:Mvar標本標準偏差と呼ぶ[10]

不偏標準偏差

テンプレート:Math を母分散、テンプレート:Math を標本分散とすると、標本分散の期待値 テンプレート:Math は、

E[s2]=n1nσ2

となることが示される。つまり、標本分散は母分散よりも少し小さくなる[注釈 1]。そのため、標本分散は母分散の不偏推定量ではない。そこで、

v2=1n1i=1n(xix¯)2=1n1i=1nxi2nn1x¯2

を考えると、この量の期待値は母分散に等しく、母分散の不偏推定量になっている。

こうして定義される テンプレート:Math不偏分散という。テンプレート:Mvar不偏標準偏差という。

紛らわしいが、 テンプレート:Math標本分散と呼ぶこともある。さらに テンプレート:Math平方根 テンプレート:Mvar標本標準偏差ということもある。名称の混乱については後述する。

母集団の標準偏差の不偏推定量

前述のように不偏分散は、母分散の不偏推定量である(標本から測定した推定量の期待値が母分散に等しい)。しかし、不偏分散の平方根 テンプレート:Mvar は、母集団の標準偏差の不偏推定量ではない。

母集団が正規分布に従う場合、母集団の標準偏差の不偏推定量 テンプレート:Mvar は次式で与えられるテンプレート:Sfn

D=n12Γ(n12)Γ(n2)v

ここで、テンプレート:Mvarガンマ関数テンプレート:Math は不偏分散である。

標本の大きさが大きくなれば、母集団の標準偏差の不偏推定量 テンプレート:Mvar は、近似的に、平均からの偏差平方和を テンプレート:Math2 で割った値の平方根として求められるテンプレート:Sfn

D1n1.5i=1n(xix¯)2=1n1.5i=1nxi2nn1.5x¯2

名称の混乱

統計の教科書によっては、不偏分散(分母が テンプレート:Math2 の方)を「標本分散」と呼んでいる場合もあり[11]、用語が混乱して使用されている場合がある。母平均が不明で、代わりに標本平均を使用する場合には、期待値が母分散となる不偏分散を使用することが多い[12]

英語

英語では不偏分散による標準偏差のことを「テンプレート:En」(標本標準偏差)と呼ぶことが多い。この語はカール・ピアソンによって1893年に導入された[13]。ただし不偏分散による標準偏差を意味する英語の表現には混乱がある。

日本語

日本語の「不偏標準偏差」という語にも混乱がある。日本の大学教授の間でも、不偏分散 テンプレート:Math の平方根を、不偏標準偏差だと教える大学教員も多いが、母集団の標準偏差の不偏推定量 テンプレート:Mvar を不偏標準偏差だと教える教員もいる。

  • 兵庫大学の河野稔によるウェブページ[15]や神戸大学の中澤港によるウェブページ[16]では前者である。
  • 東北学院大学の根市一志による資料[17]では後者である。

このように、同じ用語でも話者によって定義が異なる場合がある。

表計算ソフト

表計算ソフトでは次のようなワークシート関数が用意されている。

分母 Microsoft Excel
Googleスプレッドシート
Lotus 1-2-3
テンプレート:Mvar STDEVP, STDEVPA, STDEV.P
-
テンプレート:Math2 STDEV, STDEVA, STDEV.S @STD, @STDS

確率変数の標準偏差

離散型確率変数

テンプレート:Mvar を離散型確率変数とする。テンプレート:Mvar のとりうる値を テンプレート:Math2 とし、テンプレート:Mvarテンプレート:Mvar をとる確率を テンプレート:Mvar で表す。このとき

i=1pi=1(pi0)

である。このとき

E[X]=i=1pixi

を確率変数 テンプレート:Mvar期待値という。また、

V[X]=E[(XE[X])2]=i=1pi(xiE[X])2=E[X2](E[X])2

を確率変数 テンプレート:Mvar分散という。この分散の非負の平方根標準偏差という。

連続型確率変数

テンプレート:Mvar を連続型確率変数とする。テンプレート:Mvar の値が区間 テンプレート:Math2 に属する確率が、連続関数 テンプレート:Math を用いて

x1x2f(x)dx

と表せるとき、テンプレート:Mathテンプレート:Mvar確率密度関数という。このとき

f(x)0,f(x)dx=1

である。このとき

E[X]=xf(x)dx

を確率変数 テンプレート:Mvar期待値という。また、

V[X]=(xE[X])2f(x)dx

を確率変数 テンプレート:Mvar分散という。この分散の非負の平方根標準偏差という。

標準偏差の推定

母標準偏差が未知のときは、標本から得られた標本標準偏差から推定することができる。母標準偏差を テンプレート:Mvar、大きさ テンプレート:Mvar の標本の標準偏差を テンプレート:Mvar とすると、母集団分布が正規分布ならば テンプレート:Math は次の自由度 テンプレート:Math2 の [[カイ二乗分布|テンプレート:Math 分布]]に従う。

χ2=Ns2σ2

テンプレート:Mvar の95%信頼区間テンプレート:Math2テンプレート:Math から テンプレート:Math2テンプレート:Math までの範囲で、テンプレート:Mvarテンプレート:Mvar の比は テンプレート:Math2 では 0.31 から 1.49、テンプレート:Math2 では 0.67 から 1.28 となり、標本が小さい場合はかなり範囲が広いことに留意すべきである。

テンプレート:Mvarテンプレート:Mvar
テンプレート:Mvarテンプレート:Mvar
信頼区間 信頼度 不信頼度
百分率 百分率 分数
テンプレート:Valテンプレート:Mvar 25% 75% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar 50% 50% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar 68% 32% テンプレート:Sfrac
1テンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar 80% 20% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar 90% 10% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar 95% 5% テンプレート:Sfrac
2テンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar 99% 1% テンプレート:Sfrac
3テンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar 99.9% 0.1% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar 99.99% 0.01% テンプレート:Sfrac
4テンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar 99.999% 0.001% テンプレート:Sfrac
4.5テンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac = テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
5テンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
[[シックス・シグマ|6テンプレート:Mvar]] テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
テンプレート:Valテンプレート:Mvar テンプレート:Val% テンプレート:Val% テンプレート:Sfrac
7テンプレート:Mvar テンプレート:Gaps テンプレート:Val% テンプレート:Sfrac

脚注

テンプレート:脚注ヘルプ

注釈

テンプレート:Notelist

出典

テンプレート:Reflist

参考文献

テンプレート:Refbegin

テンプレート:Refend

関連項目

外部リンク

テンプレート:統計学 テンプレート:Normdaten


引用エラー: 「注釈」という名前のグループの <ref> タグがありますが、対応する <references group="注釈"/> タグが見つかりません