T検定のソースを表示
←
T検定
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{出典の明記|date=2015年9月}} {{DISPLAYTITLE:''t''検定}} '''''t''検定'''(ティーけんてい)とは、[[帰無仮説]]が正しいと仮定した場合に、統計量が[[t分布]]に従うことを利用する[[統計学]]的[[検定法]]の総称である。[[母集団]]が[[正規分布]]に従うと仮定する[[パラメトリック検定法]]であり、t分布が直接、もとの[[平均]]や[[標準偏差]]にはよらない(ただし[[自由度]]による)ことを利用している。2組の[[標本 (統計学)|標本]]について平均に有意差があるかどうかの検定などに用いられる。統計的仮説検定の一つ。[[日本産業規格]]では、「検定統計量が,帰無仮説の下でt分布に従うことを仮定して行う統計的検定。」と定義している<ref>[[JIS Z 8101]]-1 : 1999 [[統計]] − [[用語]]と[[記号]] − 第1部:[[確率]]及び一般統計用語 2.61 t検定, [[日本規格協会]], http://kikakurui.com/z8/Z8101-1-1999-01.html</ref>。 '''スチューデントのt検定'''(Student's t-test)とも呼ばれるが、これは統計学者の[[ウィリアム・ゴセット]]が雇用者である[[ギネス]]ビール社に本名使用を許されず''Student'' というペンネームで最初の論文を発表した([[1908年]])ためである。 ==種類== t検定は大きく次のように分けられる。 * 2つの母集団がいずれも[[正規分布]]に従うと仮定したうえでの、[[平均]]が等しいかどうかの検定。 ** 標本が対になっている、つまり1組の標本のメンバー各々と、もう1組の特定のメンバーとの間に特別な関係がある場合(例えば、同じ人に前後2回調査する場合、夫と妻とで比較する場合など)。 ** 標本が独立で、比較する2つの群の[[分散 (確率論)|分散]]が等しいと仮定できる場合([[等分散性]]の仮定)。 ** 標本が独立で、等分散性が仮定できない(異分散)場合。これは正確には'''[[ウェルチのt検定]]'''と呼ばれる。 * 正規分布に従う母集団の平均が、特定の値に等しいかどうかの検定。 * [[回帰直線]]の[[勾配 (ベクトル解析)|勾配]]が0と有意に異なるかどうかの検定。 ==方法== ===一群のt検定=== 母集団の平均値''μ''が特定の値である ''μ''<sub>0</sub>と等しいかどうかの帰無仮説を検定する際に使用する。 :<math> t = \frac{\overline{x} - \mu_0}{s/\sqrt{n}}, </math> <math>\overline{x}</math>は標本平均であり''s''は 標本の[[標準偏差]]である。標本サイズは''n''であり、t検定における自由度は''n'' − 1である。 ===回帰分析の係数=== 次のような回帰分析のモデルを考える。 : <math> Y_i = \alpha + \beta x_i + \varepsilon_i, </math> ''x''<sub>''i''</sub>, ''i'' = 1, ..., ''n''は既存の説明変数であり、''α''と''β''は未知の係数である。そして''ε''<sub>''i''</sub>は独立に同一の正規分布に従った期待値0で未知の分散''σ''<sup>2</sup>であるランダムな誤差とする。''Y''<sub>''i''</sub>, ''i'' = 1, ..., ''n''は観測値である。この際、''β''がある特定の値''β''<sub>0</sub>と等しいかどうかをテストしたい (多くの場合''β''<sub>0</sub>は 0である。何故なら、''β''が0であれば''x''と''y''に相関性が無いと言う事になり、0以外の値であれば''x''と''y''は相関しているということになる)。 : <math> \begin{align} \widehat\alpha, \widehat\beta & = \text{least-squares estimators}, \\ SE_{\widehat\alpha}, SE_{\widehat\beta} & = \text{the standard errors of least-squares estimators}. \end{align} </math> すると : <math> t_\text{score} = \frac{\widehat\beta - \beta_0}{ SE_{\widehat\beta} } </math> 帰無仮説が正しければ、この数値(t値という)は自由度が''n'' − 2のt分布に従う。 : <math> SE_{\widehat\beta} = \frac{\sqrt{\frac{1}{n - 2}\sum_{i=1}^n (Y_i - \widehat y_i)^2}}{\sqrt{ \sum_{i=1}^n (x_i - \overline{x})^2 }} </math> : <math> \begin{align} \widehat\varepsilon_i & = Y_i - \widehat y_i = Y_i - (\widehat\alpha + \widehat\beta x_i) = \text{residuals} = \text{estimated errors}, \\ \text{SSE} & = \sum_{i=1}^n \widehat\varepsilon_i^{\;2} = \text{sum of squares of residuals}. \end{align} </math> すると<math> t_\text{score} </math> は : <math> t_\text{score} = \frac{(\widehat\beta - \beta_0)\sqrt{n-2}}{ \sqrt{\text{SSE}/\sum_{i=1}^n \left(x_i - \overline{x}\right)^2} }. </math> ===独立二群の平均値の差の検定=== 一つ目の母集団の平均値''μ''<sub>1</sub>が2つ目の母集団の平均値''μ''<sub>2</sub>と等しいかどうかの帰無仮説を検定する際に使用する。言い換えると''μ''<sub>1</sub>-''μ''<sub>2</sub>=0かどうかの帰無仮説を検定する。 ====t検定を始める前に==== 実務的なデータ分析では、母集団が様々な前提を満たしているかどうかを調べるため、以下のような検定をt検定の前段階に行う場合がある。母集団が正規分布に従うかどうかは、[[コルモゴロフ-スミルノフ検定]]や[[シャピロ-ウィルク検定]]などの正規性検定によって判断することもできる。なお、F検定等により等分散性を検定し、その結果を踏まえてスチューデントのt検定またはウェルチのt検定を行う二段階の検定方法は、検定の多重性の問題が生じるため推奨されない。等分散性について考慮する必要のないウェルチのt検定を用いればよい(ウェルチのt検定は等分散性について頑健なので、事前に等分散性の検定を行う必要はない)。 ====等分散の場合==== 比較する両群を''X''<sub>1</sub>, ..., ''X''<sub>''m''</sub>および''Y''<sub>1</sub>, ..., ''Y''<sub>''n''</sub>(標本サイズはmおよびn)とする。両群から標本平均<math>\overline{X}</math>および<math>\overline{Y}</math>、ならびに[[不偏分散]]<math>U_x</math>および<math>U_y</math>を求める。両群を合わせた分散の推定値<math>U_e</math>を :<math>U_e=\frac{(m-1)U_x+(n-1)U_y}{m+n-2}</math> により算出する。 これから検定統計量''t<sub>0</sub>'' を :<math>t_0=\frac{|\overline{X}-\overline{Y}|}{\sqrt{U_e\left(\frac{1}{m}+\frac{1}{n}\right)}}</math> により算出する。両群の平均が等しい場合には「統計量''T'' は[[自由度]]''ν'' = ''m'' + ''n'' – 2 の[[t分布]]に従う」ので、これを帰無仮説として両側検定を行う。このt分布における<math>t_0</math>の上側の''p''値を求め、有意水準''α''と比較する(あるいは[[数表]]で比較を行う)。''p'' < ''α'' ならば帰無仮説は棄却され、「両群の平均には有意差がある」といえる。 ====等分散が仮定できない場合(ウェルチのt検定)==== {{Main|ウェルチのt検定}} 前と同じ標本を対象とする。ウェルチのt検定は分散が等しい場合も等しくない場合も使用できる。 検定統計量''t<sub>0</sub>'' を :<math>t_0=\frac{|\overline{X}-\overline{Y}|}{\sqrt{\frac{U_x}{m}+\frac{U_y}{n}}}</math> により算出する。t分布の自由度''ν''は、 :<math>\nu=\frac{(\frac{U_x}{m}+\frac{U_y}{n})^2}{\frac{U_x^2}{m^2(m-1)}+\frac{U_y^2}{n^2(n-1)}}</math> であるが、これは[[整数]]になるとは限らないので、10未満の場合は[[小数]]自由度のt分布表を利用する。10以上ならば小数部を切り捨て整数部のみを使用してよい。 ===関連二組の差の平均値のt検定=== ''n'' 対のデータがあるとし、対応する2変数を''X<sub>i</sub>'' と''Y<sub>i</sub>'' 、両者の差を''d<sub>i</sub>'' = ''X<sub>i</sub>'' - ''Y<sub>i</sub>'' とする(''i'' = 1, 2, ... , ''n'')。''d<sub>i</sub>'' の平均を<math>\overline{X}_D</math>とする。差の母集団の平均値''μ''<sub>d</sub>が特定の値である ''μ''<sub>0</sub>と等しいかどうかの帰無仮説を検定する際に使用する。 検定統計量 ''t<sub>0</sub>'' を :<math>t = \frac{\overline{X}_D - \mu_0}{s_D/\sqrt{n}}. </math> により算出する。t分布の自由度は''ν'' = ''n'' -1となる。 ==t検定の代替手段== t検定は、母集団が正規分布をしており標本の分散がχ<sup>2</sup> 分布をしているという前提の下において、「完全に」正確な確率を計算することができる(ウェルチ検定では「ほぼ」正確な値を計算できる)。逆の言い方をすると、母集団が正規分布に従っていない場合は、標本平均はt値からは多かれ少なかれ乖離する。実務的に標本から母集団が正規分布をしているかどうかという事を判断する事は、色々な検定方法があるとは言うものの、非常に困難である。ただし、[[中心極限定理]]によると、母集団の分布が正規分布に従わない標本でさえも、標本サイズが大きくなればなるほど、標本平均は正規分布に近似していく。したがって、標本サイズが大きければ大きいほど、標準検定値である<math>\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}</math>はZ値に近似することになる。このような基礎に基づくと、母集団が正規分布から完全に逸脱した分布に従っていて、標本サイズが十分に大きな場合(大学の初等の統計の教科書などではn > 30などと載っている場合があるが、もちろん多ければ多いほど良い)、[[Z検定]]で近似的な確率を計算できる。ただしt値は自由度が上がるとZ値に近似するため、計算上はt検定を用いてもほとんど大差ない結果を得られる(哲学的には異なるが)。それがt検定が頑強(robust)であると言われる所以である。 ===ノンパラメトリック手法=== t検定は母集団の正規分布を前提とするパラメトリック検定であるが、この条件が満たされず、さらに標本サイズが小さいと、t検定で近似することも困難となる。そういった場合には[[ノンパラメトリック検定]]を用いる方法がある。ノンパラメトリック検定は汎用性を重視し、効率性を犠牲にしているというものの、場合によっては検出力(1 − β)がt検定に比べて高い。ただし、例えば[[正規分布]]の場合、最善はパラメトリック検定のt検定であるが、ノンパラメトリック検定の[[ウィルコクソンの符号順位検定]]を用いても、必要なデータ数は <math>\pi / 3</math> = 約1.05 倍であり、5%程度多めに標本が必要なだけである<ref>{{Cite book |和書 |author=村上秀俊 |year=2015 |title=ノンパラメトリック法 (統計解析スタンダード) |publisher=朝倉書店 |page=107 |isbn=4254128525 }}</ref>。 * 標本が独立ならば[[マン・ホイットニーのU検定]]など * 対になる標本ならば[[ウィルコクソンの符号順位検定]]など を用いることができる。ただしt検定やZ検定が母集団の平均値に注目して仮説を立てるのに対して、ノンパラメトリック検定ではランキング、中央値や分布などに注目して仮説を立てることに注意が必要。 t検定が[[マン・ホイットニーのU検定]]および[[ウィルコクソンの符号順位検定]]と比較して必要な標本数の比率<ref>{{Cite book |和書 |author=村上秀俊 |year=2015 |title=ノンパラメトリック法 (統計解析スタンダード) |publisher=朝倉書店 |page=112 |isbn=4254128525 }}</ref>。1未満はt検定の方が必要標本数が小さいことを意味する。 * 正規分布 - 0.9549 * 一様分布 - 1 * 両側指数分布 - 1.5 * ロジスティク分布 - 1.0966 * 指数分布 - 3 * 対数正規分布 - 7.3537 * ガンベル分布 - 1.2337 * 三角分布 - 0.8889 * この比率が最小となる分布 - 0.864 ==ウィリアム・ゴセットの発見== 1900年ごろのビールは、酵母の数が正確に計測できなかったために、味が不安定だったと言われる。 発酵タンクの数はとても少なかった(小標本であった)にもかかわらず、正規分布をつかって推定していたため、精度が悪かった。 ゴセットはそれまでのデータを調べ上げ、平均からの偏差を不偏標準誤差で割った単純な値(t値)が、確率分布(t分布)に従うことを発見した。 == 出典 == {{reflist}} == 参考文献 == * {{Cite book|和書|author=西岡康夫|year=2013|title=数学チュートリアル やさしく語る 確率統計|publisher=[[オーム社]]|isbn=9784274214073}} * {{Cite book|和書|author=伏見康治|authorlink=伏見康治|year=1942|title=確率論および統計論|publisher=[[河出書房]]|isbn=9784874720127|url= }} * {{Cite book|和書|author=日本数学会|authorlink=日本数学会|year=2007|title=数学辞典|publisher=[[岩波書店]]|isbn=9784000803090}} * [[JIS Z 8101]]-1:1999 [[統計]] − [[用語]]と[[記号]] − 第1部:[[確率]]及び一般統計用語, [[日本規格協会]], http://kikakurui.com/z8/Z8101-1-1999-01.html == 関連項目 == * [[確率]] ** [[確率論]] * [[統計学]] {{統計学}} {{Normdaten}} {{DEFAULTSORT:ていいけんてい}} [[Category:統計検定]] [[Category:数学に関する記事|Tていいけんてい]]
このページで使用されているテンプレート:
テンプレート:Cite book
(
ソースを閲覧
)
テンプレート:Main
(
ソースを閲覧
)
テンプレート:Normdaten
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
テンプレート:出典の明記
(
ソースを閲覧
)
テンプレート:統計学
(
ソースを閲覧
)
T検定
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報