t分布
テンプレート:Otheruses テンプレート:出典の明記 テンプレート:確率分布 統計学および確率論において、t分布(ティーぶんぷ、またはスチューデントのt分布、テンプレート:Lang-en-short)は、連続確率分布の一つであり、正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定する問題に利用される。また、2つの平均値の差の統計的有意性を検討するt検定で利用される。t分布は、一般化双曲型分布の特別なケースである。
t分布は1908年にウィリアム・シーリー・ゴセットにより発表された。当時の彼はビール醸造会社であるギネスビールに雇用されており、ギネスビールでは秘密保持のため従業員による科学論文の公表を禁止していたので、彼はこの問題を回避するため「スチューデント」というペンネームを使用して論文を発表した[1]。
その後、ロナルド・フィッシャーがこの論文の重要性を見抜きスチューデントのt分布と呼んだため、このように呼ばれるようになった。
導出
テンプレート:Math2 を平均 テンプレート:Mvar、分散 テンプレート:Math の正規分布に従う独立な確率変数とする。また標本平均を
とし、不偏分散を
とする。ここで次の変数
を考えると、これは
(ただし テンプレート:Math2, テンプレート:Mvar はガンマ関数)という確率密度関数に従うことが、ゴセットによって示された。ここで テンプレート:Mvar の従う分布をt 分布(またはスチューデント分布)と呼ぶ。テンプレート:Mvar は自由度と呼ばれる。この分布は テンプレート:Mvar によるが、元の正規分布の母標準偏差テンプレート:Mvar にはよらないという重要な性質を持っている。
この確率密度関数は、元の正規分布の母数であるテンプレート:Mvarおよびテンプレート:Mvarが既知と仮定しているので、厳密には条件付確率密度関数と書くべきものである。テンプレート:Mvarおよびテンプレート:Mvarを確率変数と考え、その確率密度関数を適当に仮定し(例えばテーブル状の一様分布関数)、ベイズの定理を適用することによって、標本平均 および不偏標準偏差が既知の場合の条件付確率密度関数を計算することができる(もう少し正確に言えば、まず条件付確率密度関数を求め、これにベイズの定理を適用してを求め、さらにテンプレート:Mvarについて積分してを求める)。実はこの関数はと全く同じ形をしている。つまり、
である。これが、t分布が母標準偏差テンプレート:Mvar にはよらないという性質の反映である。不偏標準偏差は既知であるから、tの確率分布から母平均値テンプレート:Mvarの確率分布を求めることができ、これを用いてテンプレート:Mvarの区間推定や、仮説検定を行うことができる。
t分布を用いた母集団の平均値テンプレート:Mvarの区間推定では、t=0について対称な区間で、その区間に亘る確率密度の積分値が95%となる区間(95%信頼区間)を考え、これに対応するテンプレート:Mvarの区間を信頼区間 (CI) とする方法が広く用いられている(99%信頼区間を用いる場合も有る)。
t分布を用いた母集団の平均値テンプレート:Mvarの仮説検定では、tの値が予め定めたα水準の下での信頼区間(95%あるいは99%)に含まれるか否かを判定基準とし、含まれる場合は母集団の平均値がテンプレート:Mvarであるという仮説(帰無仮説)は棄却されず、区間からはみ出す場合は仮説を棄却する。
累積分布関数
累積分布関数は、正則不完全ベータ関数を用いて以下のように表される。
ただし、
モーメント
t分布のモーメントは以下の式で表される。
- テンプレート:Mvar が奇数の場合
- テンプレート:Mvar が偶数の場合
特別なケース
テンプレート:Mvar の値により、簡単な形となる。
テンプレート:Math2 の場合
コーシー分布と一致する。
累積分布関数:
確率密度関数:
テンプレート:Math2 の場合
累積分布関数:
確率密度関数:
テンプレート:Math2 の場合
自由度 テンプレート:Mvar が テンプレート:Math(無限大)に近づくにつれ、テンプレート:Mvar分布は正規分布に近づく。
出典
参考文献
関連項目
- ↑ Walpole, Ronald; Myers, Raymond; Ye, Keying. Probability and Statistics for Engineers and Scientists. Pearson Education, 2002, 7th edition, pg. 237