標準偏差


テンプレート:読み仮名とは、データや確率変数の、平均値からの散らばり具合(ばらつき)を表す指標の一つである。偏差ベクトルと、値が標準偏差のみであるベクトルは、ユークリッドノルムが等しくなる。
標準偏差を2乗したのが分散であり、従って、標準偏差は分散の非負の平方根であるテンプレート:Sfn。標準偏差が テンプレート:Math であることは、データの値が全て等しいことと同値である。
母集団や確率変数の標準偏差を テンプレート:Mvar で、標本の標準偏差を テンプレート:Mvar で表すことがある。
二乗平均平方根 (RMS) を用いると、標準偏差は偏差の二乗平均平方根に等しくなる。
概要
データ テンプレート:Math2 の平均値からの散らばり具合を数値にした標準偏差は、次の式で定義される:
ここで テンプレート:Math は平均値を表す。この定義は、データを数ベクトルと見て、「散らばり具合」を偏差ベクトルのユークリッドノルムととらえる考えに基づく(このことより平均偏差でなく自乗平均をとる)。
- もとのデータ テンプレート:Mvar を、平均値、「散らばり具合」を変えず、偏差が全て同じであるように取り直したデータ テンプレート:Mvar を考える。
- テンプレート:Mvar の大きさが奇数のときは、テンプレート:Mvar を、自分自身2個を併せたデータ(大きさは偶数)に取り直す(そうしても平均値、「散らばり具合」は変わらない)。
- テンプレート:Mvar の偏差ベクトルは テンプレート:Math2 の形になる。テンプレート:Mvar と テンプレート:Mvar の「散らばり具合」が等しいことから、
- //
標準偏差は平方根を取るため、簡単な計算法則が成り立ちにくいという特徴がある。そこで分散 テンプレート:Math を
で定義する。分散には簡単な計算法則がいくつか成り立つことから、種々の標準偏差ができるようになる。 テンプレート:Main 標準偏差の概念は、イギリスの統計学者フランシス・ゴルトンにより、親子の身長の相関関係を調べる中で初めて見出された[1]。データを数ベクトルと見る考え方は相関係数の導入と命名につながった。ゴルトンはこれらの研究により平均への回帰という現象を見出した[2]。
ユニヴァーシティ・カレッジ・ロンドンのゴルトン研究室を継承した[3]カール・ピアソンはゴルトンの研究を定式化[1]、体系化し[4]、初めて "standard deviation"(「標準偏差」)と名付けた[5][6][7]。
確率分布において最も基本となる正規分布曲線において、変曲点の テンプレート:Mvar座標と平均の絶対差は標準偏差に等しくなる。このことから、標準偏差は信頼区間の基本的な単位となる。
日本の受験業界で広く使われている学力偏差値は標準偏差の応用例の一つで、異なる試験でも、平均点よりどれだけ離れているかをある統一した尺度でとらえることができるようになっている。
金融工学においては、株式のリスクを確率分布の標準偏差でとらえることがある[8][9]。
母集団の標準偏差
母集団全てのデータ テンプレート:Math2 に対して、平均値 テンプレート:Math は次の式で定義される:
この平均値 テンプレート:Math を使って得られる分散 テンプレート:Math を次の式で定義する:
テンプレート:Math を母分散と言うこともある。
この分散の非負の平方根 テンプレート:Mvar を、母集団の標準偏差と定義する[10]。分散もデータの散らばり具合を表す統計量であるが、分散と違い標準偏差はデータの値と次元が等しくなる。偏差は平均的には標準偏差の分だけ離れていると考えることができるテンプレート:Sfn。
標本の標準偏差
標本標準偏差
母集団の中から、大きさ テンプレート:Mvar(母集団の大きさよりはるかに小さい)の標本 テンプレート:Math2 を抽出したとする。このとき、標本平均は次の式で表される:
この標本平均を使って次式で定義される量を標本分散と呼ぶ:
標本分散の平方根 テンプレート:Mvar を標本標準偏差と呼ぶ[10]。
不偏標準偏差
テンプレート:Math を母分散、テンプレート:Math を標本分散とすると、標本分散の期待値 テンプレート:Math は、
となることが示される。つまり、標本分散は母分散よりも少し小さくなる[注釈 1]。そのため、標本分散は母分散の不偏推定量ではない。そこで、
を考えると、この量の期待値は母分散に等しく、母分散の不偏推定量になっている。
こうして定義される テンプレート:Math を不偏分散という。テンプレート:Mvar を不偏標準偏差という。
紛らわしいが、 テンプレート:Math を標本分散と呼ぶこともある。さらに テンプレート:Math の平方根 テンプレート:Mvar を標本標準偏差ということもある。名称の混乱については後述する。
母集団の標準偏差の不偏推定量
前述のように不偏分散は、母分散の不偏推定量である(標本から測定した推定量の期待値が母分散に等しい)。しかし、不偏分散の平方根 テンプレート:Mvar は、母集団の標準偏差の不偏推定量ではない。
母集団が正規分布に従う場合、母集団の標準偏差の不偏推定量 テンプレート:Mvar は次式で与えられるテンプレート:Sfn:
ここで、テンプレート:Mvar はガンマ関数、テンプレート:Math は不偏分散である。
標本の大きさが大きくなれば、母集団の標準偏差の不偏推定量 テンプレート:Mvar は、近似的に、平均からの偏差平方和を テンプレート:Math2 で割った値の平方根として求められるテンプレート:Sfn:
名称の混乱
統計の教科書によっては、不偏分散(分母が テンプレート:Math2 の方)を「標本分散」と呼んでいる場合もあり[11]、用語が混乱して使用されている場合がある。母平均が不明で、代わりに標本平均を使用する場合には、期待値が母分散となる不偏分散を使用することが多い[12]。
英語
英語では不偏分散による標準偏差のことを「テンプレート:En」(標本標準偏差)と呼ぶことが多い。この語はカール・ピアソンによって1893年に導入された[13]。ただし不偏分散による標準偏差を意味する英語の表現には混乱がある。
- 英語版ウィキペディアの「[[:en:standard deviation|テンプレート:Lang]]」という記事では、不偏分散による標準偏差(平均からの偏差平方和を テンプレート:Math2 で割った値の平方根)のことを「テンプレート:En」と表記し、平均からの偏差平方和を テンプレート:Mvar で割った値の平方根を「テンプレート:En」や「テンプレート:En」と表記しているテンプレート:出典無効。
- アメリカの テンプレート:En の試験問題での「テンプレート:Lang」は テンプレート:Math2 で割る方を意味する。
- アメリカ・ユタ大学のトム・マロイは、統計学の学習者向けウェブページ[14]では、「テンプレート:Lang」を平均からの偏差平方和を テンプレート:Mvar で割った値の平方根だと解説している。
日本語
日本語の「不偏標準偏差」という語にも混乱がある。日本の大学教授の間でも、不偏分散 テンプレート:Math の平方根を、不偏標準偏差だと教える大学教員も多いが、母集団の標準偏差の不偏推定量 テンプレート:Mvar を不偏標準偏差だと教える教員もいる。
このように、同じ用語でも話者によって定義が異なる場合がある。
表計算ソフト
表計算ソフトでは次のようなワークシート関数が用意されている。
| 分母 | Microsoft Excel Googleスプレッドシート |
Lotus 1-2-3 |
|---|---|---|
| テンプレート:Mvar | STDEVP, STDEVPA, STDEV.P |
|
| テンプレート:Math2 | STDEV, STDEVA, STDEV.S |
@STD, @STDS
|
確率変数の標準偏差
離散型確率変数
テンプレート:Mvar を離散型確率変数とする。テンプレート:Mvar のとりうる値を テンプレート:Math2 とし、テンプレート:Mvar が テンプレート:Mvar をとる確率を テンプレート:Mvar で表す。このとき
である。このとき
を確率変数 テンプレート:Mvar の期待値という。また、
を確率変数 テンプレート:Mvar の分散という。この分散の非負の平方根を標準偏差という。
連続型確率変数
テンプレート:Mvar を連続型確率変数とする。テンプレート:Mvar の値が区間 テンプレート:Math2 に属する確率が、連続関数 テンプレート:Math を用いて
と表せるとき、テンプレート:Math を テンプレート:Mvar の確率密度関数という。このとき
である。このとき
を確率変数 テンプレート:Mvar の期待値という。また、
を確率変数 テンプレート:Mvar の分散という。この分散の非負の平方根を標準偏差という。
標準偏差の推定
母標準偏差が未知のときは、標本から得られた標本標準偏差から推定することができる。母標準偏差を テンプレート:Mvar、大きさ テンプレート:Mvar の標本の標準偏差を テンプレート:Mvar とすると、母集団分布が正規分布ならば テンプレート:Math は次の自由度 テンプレート:Math2 の [[カイ二乗分布|テンプレート:Math 分布]]に従う。
テンプレート:Mvar の95%信頼区間は テンプレート:Math2 の テンプレート:Math から テンプレート:Math2 の テンプレート:Math までの範囲で、テンプレート:Mvar と テンプレート:Mvar の比は テンプレート:Math2 では 0.31 から 1.49、テンプレート:Math2 では 0.67 から 1.28 となり、標本が小さい場合はかなり範囲が広いことに留意すべきである。


脚注
注釈
出典
参考文献
- テンプレート:Cite journal
- テンプレート:Cite book
- テンプレート:Cite book
- テンプレート:Cite book
- テンプレート:Cite book
- テンプレート:Cite book
- テンプレート:Cite book
- テンプレート:Cite book
- テンプレート:Cite book
- テンプレート:Citation
関連項目
外部リンク
- ↑ 1.0 1.1 高校からの統計・データサイエンス活用 総務省政策統括官(統計基準担当)p.34
- ↑ 平均への回帰、相関係数―統計学史(2) ブログ 統計WEB
- ↑ 農環研ウェブ高座 「農業環境のための統計学」 第10回 (農業と環境 No.158 2013.6)
- ↑ テンプレート:Cite journal
- ↑ カール ピアソンとは - コトバンク
- ↑ 【科学史の肖像】Karl Pearson, 1857-1936
- ↑ 標準偏差の名付け親は,相関係数で有名なピアソン,不偏標準偏差の話題と共に 生物科学研究所 井口研究室
- ↑ 分散投資の意義② 投資のリスクとは|年金積立金管理運用独立行政法人
- ↑ 標準偏差・分散|証券用語解説集|野村證券
- ↑ 10.0 10.1 テンプレート:Harvnb
- ↑ 例:テンプレート:Harv。
- ↑ 分散または標準偏差の図による解説と具体例は、テンプレート:Harvなどを参照。
- ↑ テンプレート:Cite web
- ↑ 「Estimating Parameters Web Page」
- ↑ 「健康統計学-散布度」
- ↑ 「高崎経済大学非常勤講義 第4回「記述統計(2):代表値」」
- ↑ 「標準偏差の不偏性」
引用エラー: 「注釈」という名前のグループの <ref> タグがありますが、対応する <references group="注釈"/> タグが見つかりません