仮説検定のソースを表示

{{出典の明記|date=2013-05}}
'''仮説検定'''（かせつけんてい、{{lang-en-short|hypothesis testing}}）あるいは'''統計的仮説検定''' (statistical hypothesis testing)<ref group="補">単に'''検定法'''と呼ばれることもある。</ref> とは、[[母集団]][[確率分布|分布]]の[[母数]]に関する[[仮説]]を[[標本 (統計学)|標本]]から検証する[[統計学]]的方法の一つ。[[日本産業規格]]では、[[仮説]] (statistical hypothesis) を「母数又は確率分布についての宣言。[[帰無仮説]]と対立仮説がある。」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.46 仮説}}。検定 (statistical test) を「帰無仮説を棄却し対立仮説を支持するか、又は帰無仮説を棄却しないかを観測値に基づいて決めるための統計的手続き。その手続きは、帰無仮説が成立しているにもかかわらず棄却する確率が α 以下になるように決められる。この α を有意水準という。」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.49 検定}}。

統計的仮説検定の方法論は、[[イェジ・ネイマン|ネイマン]]=[[エゴン・ピアソン|ピアソン]]流の[[頻度主義統計学]]に基づくもの<ref group="補">1920-30年代にかけて[[イェジ・ネイマン]]、[[エゴン・ピアソン]]によって体系化された。</ref>と、<!--仮説検定である[[統計的仮説検定]] (statistical hypothesis testing) と-->[[ベイズ主義]]統計学に基づくものとの二つに大きく分けられる<ref>[[#村尾(2014)|村尾(2014)]]</ref>。ただし「仮説検定」という場合、前者だけを指すことがある。本項では前者および日本産業規格での定義を説明する。

== 統計的仮説検定の手順 ==
[[統計的仮説検定]]においては、[[仮説]]が正しいと仮定した上で、それに従う[[母集団]]から、実際に観察された[[標本 (統計学)|標本]]が抽出される[[確率]]を求め、その値により判断を行う。その確率が十分に（予め決めておいた値より）小さければ、その仮説を棄却する（すなわち仮説は成り立ちそうもないと判断する）。<!--（なお本項で述べるのは従来の[[頻度主義]]統計学の考え方であって、[[ベイズ主義]]では考え方が異なる）-->

統計的仮説検定は次のような手順で実施する。

=== 仮説の設定 ===
[[仮説]]が正しいと仮定した場合にその標本が観察される確率を算出できるように、仮説を統計学的に表現する。検定は下記の二者択一となり、帰無仮説<ref group="補">棄却（すなわち不採択）できるかを調べるものなので、帰無仮説と呼ぶ。</ref>を棄却できるかどうかを調べる。
; [[帰無仮説]]
:価値がない<ref>https://gakkai.univcoop.or.jp/pcc/2014/papers/pdf/pcc057.pdf</ref>、何の関係もない、差異はみられない、仮説などそもそもなかった、などを意味するもの。普通 ''H''{{sub|0}} と書く{{sfn|JIS Z 8101-1 : 1999|loc=2.47 帰無仮説}}。
;{{仮リンク|対立仮説|en|Alternative hypothesis|preserve=1}}
:帰無仮説に対立するので、対立仮説と呼ばれる。帰無仮説が棄却された際に採択される。普通仮説を意味する [hypothesis] の頭文字を用いて ''H''{{sub|1}} と書く{{sfn|JIS Z 8101-1 : 1999|loc=2.48 対立仮説}}。帰無仮説の正しさを求めるように検定を進めるが、成り立つか知りたいのはこちらの方である。

==== 仮説の設定例 ====
例として、[[偽薬|プラセボ]]に対する薬の試験（「薬の効果を有意的に主張できるか」を調べる）を例にとれば、
* 帰無仮説は、「薬の効果を主張できない」に当たり、下記のように仮説を立てる。
**「薬に対する反応の[[平均]]が[[偽薬|プラセボ]]に対するそれと等しい。」<ref group="補">この場合、両者の反応は[[標準偏差]]がともに等しい[[正規分布]]に従うが、さらに平均にも差が無いかを問題としている。</ref>
* 対立仮説は、「薬の効果を主張できる」に当たり、下記の仮説に相当する。
**「薬に対する反応の平均がプラセボに対するそれとは異なる。」

=== 統計量の算出 ===
標本データから、仮説に関係した情報を要約する[[検定統計量]]を計算する。下記のように十分性を持つ[[統計量]]（[[十分統計量]]）が存在すればそれを計算する。単純二仮説の場合は、[[尤度比]]が仮説検定の十分統計量となる。

[[母数]]に対応する十分統計量は、母集団の[[確率分布]]が[[指数型分布族]]である場合にのみ存在する{{要出典|date=2015年8月}}。例で言えば、指数型分布族で、2つの標本平均の差 ''m{{sub|1}} &minus; m{{sub|2}}'' は十分統計量である。

=== 統計量の確率分布 ===
帰無仮説に基づき、[[検定統計量]]の確率分布を明らかにする。

例では、標本平均の差は正規分布に従い、その標準偏差は母標準偏差に <math>\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}</math> をかけたもの（ここで ''n''{{sub|1}} と ''n''{{sub|2}} は各標本のサイズ）である。

=== 危険域の設定 ===
可能な全ての値の集合の中で、帰無仮説に反する極端な範囲（分布関数をグラフ表示した場合には、裾に当たる部分）を選ぶ。これは[[検定統計量]]の{{仮リンク|危険域|en|critical region}}と呼ばれる。帰無仮説が正しい場合に[[検定統計量]]が危険域内に入る確率を検定の危険率（[[有意水準]]あるいは検定のサイズともいい、ふつうαと表す）と呼ぶ。危険率としては、対象分野によって異なるが、α = 0.05 (5%) か α = 0.01 (1%) を用いることがある{{sfn|脇本 |1973|pp=93, 114}}。検定の種類によっては両側検定または片側検定のみということもある。

==== 棄却域 ====
[[日本産業規格]]では、{{en|critical region}} を棄却域と訳し、「帰無仮説が棄却される検定統計量の値の集合」と定義している。また、備考には「棄却域の限界値を棄却限界値 (critical value) という」と説明している{{sfn|JIS Z 8101-1 : 1999|loc=2.50 棄却域}}。

==== 両側検定 ====
帰無仮説が例のように「平均が等しい」と主張するタイプであれば、分布関数の裾として左右両側を用いる（両側検定）。[[日本産業規格]]では、「検定統計量が1次元であり、棄却域がある有限区間の両側となる検定」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.57 両側検定}}。

==== 片側検定 ====
「……の方が平均が大きい（小さい）ということはない」と主張するタイプであれば、片側の裾だけを用いる（片側検定）。[[日本産業規格]]では、「検定統計量が1次元であり、棄却域がある棄却限界値より小さい領域（又は大きい領域）となる検定」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.56 片側検定}}。

=== 判定 ===
データから算出した検定統計量が危険域内にあるかどうかを判定する。

通常は統計量が仮定した分布の中で、算出した検定統計量と同じかそれよりも極端な（仮説に反する）値となる確率（これを'''p値'''という）を[[数表]]などにより求め、これと α とを比較し、''p'' < α ならば危険域の内部にあると判断する。
[[検定統計量]]が危険域内にあれば、結論は
* 帰無仮説は正しくない。したがって棄却する（これから危険域のことを'''棄却域''' (Rejection region) ともいい、それ以外の範囲は'''採択域''' (Acceptance region) という。）
か、さもなくば
* α 以下の確率しかない事象が起こった
のいずれかになる。
この場合を '''α水準で統計学的に[[有意]]である'''という。例では「薬に対して観察された反応は α水準で統計学的に有意である」といえる。分かりやすくいえば、「帰無仮説の下でこのようなことは偶然に起こりそうもないが、ごく小さい確率 α で起こり得る」ということである。

一方、[[検定統計量]]が危険域の外側にあれば、
* 帰無仮説を棄却するに足る証拠はないというのがただ一つの結論となる。
統計学の目的は（当然であるが）科学的な真理を明らかにすることではなく、数学的な誤謬をできるだけ減らすことにある。

== 検出力 ==
[[画像:Maximum power line.svg|thumb|[[第一種過誤と第二種過誤]]の値域における最大検出力線の例]]
[[日本産業規格]]では、'''検出力''' ({{lang-en-short|[[:en:Power (statistics)|statistical power]]}}) を「帰無仮説が正しくないとき，帰無仮説を棄却する確率。すなわち，第2種の誤りをおかさない確率であり，通常 1 &minus; β で表される。」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.54 検出力}}。

より高い検出力を、より小さい[[サンプルサイズ]]で実現することが好ましい。

=== 第1種の誤り ===
帰無仮説が正しいときに、これを棄却してしまう誤りを'''[[第一種過誤と第二種過誤|第1種の誤り]]''' (Type I error) という{{sfn|脇本|1973|p=93}}。第1種の誤りを犯す確率を α で表す。α を危険率とも呼び、[[有意水準]]に等しい。有意水準を 5% とした時、5% 以下の発生確率しかない事象が起きると、帰無仮説が間違っていたと考えられる。これは、仮説が正しいのに誤って否定してしまう確率が 5% 存在することになる。日本産業規格では、「帰無仮説が正しいとき，帰無仮説を棄却する誤り。あわてものの誤りともいう。」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.51 第 1 種の誤り}}。なお、[[ISO]] では error of the first kind と表記している{{sfn|3534-1:2006 |loc=2.51 error of the first kind}}。

=== 第2種の誤り ===
誤った帰無仮説を棄却しない誤りのことを'''[[第一種過誤と第二種過誤|第2種の誤り]]''' (Type II error) という{{sfn|脇本|1973|p=93}}。第2種の誤りを犯す確率を β で表す。1 &minus; β を検定力または'''検出力''' (power) と呼び、誤った帰無仮説を正しく棄却できる確率を表す。βは真の母数に依存し、自分で決めることが出来ない。日本産業規格では、「帰無仮説が正しくないとき，帰無仮説を棄却しない誤り。ぼんやりものの誤りともいう。」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.52 第 2 種の誤り}}。なお、ISO では error of the second kind と表記している{{sfn|3534-1:2006 |loc=2.51 error of the second kind}}。

=== 第1種の誤りと第2種の誤りの関係 ===
第1種の誤りを減らそうとすれば第2種の誤りが増える（またはその逆）という傾向がある。なお第1種の誤り (α) 対 検出力 (1 &minus; β) のグラフを、[[受信者操作特性]]（ROCカーブ）と呼ぶ。

仮説検定では一般に、あらかじめ指定した十分小さい α に対し、β をなるべく小さく（検出力をなるべく大きく）するように棄却域を選ぶ方針をとる（[[ネイマン・ピアソンの基準]]）。

=== 検出力関数 ===
日本産業規格では、検出力関数を「仮説があるパラメータで表現されているとき，パラメータの値によって検出力を与える関数。」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.55 検出力関数}}。

== 種類 ==
例のように、母集団の分布として[[正規分布]]を、あるいは比較する2群間の等分散（標準偏差が等しい）を仮定する（母数＝パラメータを仮定する）検定法をパラメトリック（Parametric）、それらを仮定せず一般の分布に適用できる検定法をノンパラメトリック（Non-parametric）な検定と呼ぶ。具体的な方法の例を挙げる。

=== パラメトリックな検定手法 ===
* [[t検定]]
* [[F検定]]
* [[回帰分析]]
* [[分散分析]]

=== ノンパラメトリックな検定手法 ===
* [[サイン検定]]（符号検定）
* [[Wilcoxon検定]]（順位付符号和検定）
* [[マン・ホイットニーのU検定|Mann-WhitneyのU検定]]
* [[カイ二乗検定]]
* [[フィッシャーの直接確率検定]]
検定の目的からは、母数の有意性の検定、適合度検定（特定の母集団から抽出されたものか）、均一性検定（2標本が同一母集団によるものか：上の例）、独立性検定（2標本が[[独立 (確率論)|独立]]か）などに分けられる。

== 逐次的仮説検定 ==
逐次的仮説検定（{{lang-en-short|[[:en:sequential analysis|sequential hypothesis testing]]}}）とは、逐次的に行う仮説検定を指す。すなわちサンプルサイズが固定数とは限らず、停止則を導入し、それが満たされるまでは実際には仮説検定の実施を遅らせ、サンプルの追加を行う。停止則が満たされた段階では、決定則（すなわち仮説検定）を実施する。{{仮リンク|逐次的確率比検定|en|Sequential probability ratio test}}（逐次的尤度比検定）も参照。

より小さいサンプルサイズで、より高い検出力を実現することが好ましく、統計学的に最適な停止則および決定則を最適停止則および最適決定則と呼ぶ。

オンライン的な仮説検定として利用可能である。その場合、サンプルサイズは[[レイテンシ]]として位置づけられる。

== 脚注 ==
=== 補足 ===
{{Reflist|2|group="補"}}

=== 出典 ===
{{Reflist|2}}

== 参考文献 ==
* {{Cite book|和書 |author=蓑谷千凰彦 |title=推定と検定のはなし |year=1988 |publisher=東京図書 |ref=蓑谷}}
* {{Citation |author=村尾 博 |title=仮説検定 |url=http://www.nebuta.ac.jp/murao/courses/stat/hypo_testing.pdf |year=2014 |ref=村尾(2014)}}
* {{Cite book|和書 |author=脇本和昌 |title=身近なデータによる統計解析入門 |year=1973 |publisher=森北出版 |chapter=第5章	統計的仮説検定の考え方と方法 |isbn=4627090307 |format=PDF |url=http://ebsa.ism.ac.jp/ebooks/sites/default/files/ebook/1321/pdf/ch05.pdf |ref={{sfnref|脇本|1973}}}}
* {{Cite book|和書 |author=西岡康夫 |year=2013 |title=数学チュートリアル やさしく語る 確率統計 |publisher=[[オーム社]] |isbn=9784274214073}}
* {{Cite book|和書 |author=伏見康治|authorlink=伏見康治 |year=1942 |title=確率論及統計論 |publisher=[[河出書房]] |isbn=9784874720127 |url=http://ebsa.ism.ac.jp/ebooks/ebook/204}}
* {{Cite book|和書 |author=日本数学会|authorlink=日本数学会 |year=2007 |title=数学辞典 |publisher=[[岩波書店]] |isbn=9784000803090}}
* {{Citation |title=JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 |author=日本規格協会 |url=http://kikakurui.com/z8/Z8101-1-1999-01.html |ref={{sfnref|JIS Z 8101-1 : 1999}}}}
* 片谷教孝「環境統計学入門―環境データの見方・まとめ方」『松藤 敏彦』オーム社、2019年
* 上田拓治「44の例題で学ぶ統計的検定と推定の解き方」オーム社、2009年
* 統計学が最強の学問である 日本経済新聞 2013年4月9日
* 統計学のきほん 毎日新聞 2020年10月2日閲覧
* {{Citation |title=ISO 3534-1:2006, Statistics−Vocabulary and symbols−Part1 : Probability and general statistical terms |author=[[ISO]] |url=http://www.iso.org/iso/catalogue_detail.htm%3Fcsnumber=40145| ref={{sfnref|ISO 3534-1:2006}}}}

== 関連項目 ==
* [[統計学]]
** [[推測統計学]]
* [[イェジ・ネイマン]]
* [[エゴン・ピアソン]]
* [[トーマス・ベイズ]]
* [[ロナルド・フィッシャー]]

{{統計学}}
{{DEFAULTSORT:かせつけんてい}}
[[Category:統計的仮説検定|*]]
[[Category:統計検定]]
[[Category:計量経済学]]
[[Category:衛生学|けんてい]]
[[Category:数学に関する記事]]
[[Category:仮説]]
[[Category:論理学と統計学]]