多重比較問題のソースを表示

[[File:Spurious correlations - spelling bee spiders.svg|thumb|upright=1.6|データドレッジングによって得られた偶然の一致の例（[[スペリング・ビー]]における優勝が決まった単語の文字数と、毒グモによって殺されたアメリカ人の数との相関関係）。同じ期間の変数のプールが十分に大きければ、因果関係のない相関関係を示す2つのグラフを見つけることができる。]]

[[統計学]]における、'''多重比較'''、'''多重性'''、'''多重検定の問題'''は、複数の[[統計的推論]]を同時に検討したり<ref>{{cite book | last=Miller | first=R.G. | year=1981 | title=Simultaneous Statistical Inference 2nd Ed | publisher=Springer Verlag New York | isbn=978-0-387-90548-8}}</ref>、観測値に基づいて選択されたパラメータのサブセットを推論したりするときに発生する<ref>{{cite journal | journal=Biometrical Journal | title=Simultaneous and selective inference: Current successes and future challenges | year=2010 | volume=52  | last=Benjamini | first=Y. | pages=708–721 | doi=10.1002/bimj.200900299 | issue=6 | pmid=21154895| s2cid=8806192 }}</ref>。

推論が多くなればなるほど、誤った推論の可能性が高くなる。この問題に対処するため、様々な統計的手法が開発されている。典型的な方法としては、行われる推論の数を補うように、個々の比較に対してより厳しい有意水準を要求する方法がある。

==歴史==
多重比較の問題は、1950年代に[[ジョン・テューキー]]やヘンリー・シェッフェなどの統計学者の研究によって注目されるようになった。その後数十年にわたって、この問題に対処するために多くの手続きが開発された。1996年には、多重比較の取り扱いに関する最初の国際会議が[[テルアビブ]]で開催された<ref>{{cite web |url=http://www.mcp-conference.org/ |title=Home |website=mcp-conference.org|accessdate=2023-10-16}}</ref>。

==定義==
多重比較は、ある統計分析が複数の統計検定を同時に含み、その各々が何かしらの「発見」をもたらす可能性があるときに生じる。一般な分析の際には、個別の検定に信頼基準を設定し、設定された信頼基準は各々の検定にのみ適用されるが、多くの場合、同時に行われる検定の系列全体に対する一律の信頼水準を持つことが望ましい<ref>{{cite book |last1=Kutner |first1=Michael |last2=Nachtsheim |first2=Christopher |last3=Neter |first3=John |author-link3=John Neter |last4=Li |first4=William |date=2005 |title=Applied Linear Statistical Models |url=https://archive.org/details/appliedlinearsta00kutn_164 |url-access=limited |pages=[https://archive.org/details/appliedlinearsta00kutn_164/page/n782 744]–745|publisher=McGraw-Hill Irwin |isbn=9780072386882 }}</ref>。多重検定の補正に失敗すると、以下の例で示されるように、実際に重要な結果を招く可能性がある。

* 処置群は生徒に新しい方法でライティングを教えた群で、対照群は標準的なライティングの教え方を使った群だとする。2つのグループの生徒は、文法、スペル、構成、内容などの点で比較することができる。より多くの項目を比較すると、標本誤差だけで、少なくとも1つの項目で処置群と対照群が異なるように見える可能性が高くなる。

* ある薬の有効性を、いくつかの病気の症状のどれか1つの軽減という観点から考えるとする。より多くの症状を考慮すればするほど、少なくとも1つの症状において、その薬が既存の薬より改善されているように見える可能性が高くなる。

どちらの例でも、比較の数が増えるにつれて、比較されるグループが少なくとも1つの項目に関して異なって見える可能性が高くなる。ある結果が独立したデータによって一般化されるという確信は、一般的に、単一の比較のみを行った分析よりも、複数の比較を含む分析の一部として観察された場合の方が弱くなるはずである。

たとえば、1つの検定が[[有意水準]]5%で実施され、対応する[[帰無仮説]]が真であれば、帰無仮説を誤って棄却するリスクは5%だけである。しかし、100個の検定がそれぞれ有意水準5%で実施され、対応する帰無仮説がすべて真である場合、予想される不正確な棄却（偽陽性または[[第一種過誤]]としても知られる）の数は5つになる。また、検定が互いに統計的に独立している（すなわち、独立標本で実施されている）場合、誤った棄却が少なくとも1つある確率は約99.4%になる。

このような多重検定で発生する偽陽性率の上昇や網羅率の低下を防ぐ手法が開発されている。

===多重仮説検定の分類===
次の表は、複数の帰無仮説を検定するときに起こりうる結果を定義したものである。m個の帰無仮説があるとし、それぞれを{{math|''H''<sub>1</sub>,&nbsp;''H''<sub>2</sub>,&nbsp;...,&nbsp;''H''<sub>''m''</sub>.}}で表す。
統計的検定を用いて、検定が有意であると宣言された場合、帰無仮説を棄却する。検定が有意でない場合は、帰無仮説を棄却しない。すべての''H<sub>i</sub>''&nbsp;にわたって各検定結果を合計すると、以下の確率変数が得られる。

{|class="wikitable"
| |
! 帰無仮説が真であるケースの数 (H<sub>0</sub>)
! 対立仮説が真であるケースの数 (H<sub>A</sub>)
! | 合計
|- align="center"
! {{rh}} | 有意であるとされた検定の数
| {{mvar|V}}
| {{mvar|S}}
| {{mvar|R}}
|- align="center"
! {{rh}} | 有意でないとされた検定の数
| {{mvar|U}}
| {{mvar|T}}
| <math>m - R</math>
|- align="center"
! {{rh}} | 合計
| <math>m_0</math>
| <math>m - m_0</math>
| {{mvar|m}}
|}

* {{mvar|m}} は検証された仮説の総数
* <math>m_0</math>は、真の帰無仮説の数で、未知のパラメータ
* <math>m - m_0</math>は、真の対立仮説の数
* {{mvar|V}} は、偽陽性（第一種過誤）の数（「偽の発見」とも呼ばれる）
* {{mvar|S}} は、真陽性の数（「真の発見」ともいう）
* {{mvar|T}} は、偽陰性（第二種過誤）の数
* {{mvar|U}} は、真陰性の数
* <math>R=V+S</math> は、棄却された帰無仮説（「発見」とも呼ばれ、真または偽のいずれか）の数
m個の仮説検定のうち、 m_{0} は真の帰無仮説で、R は観察可能な確率変数、S, T, U, V は観察不可能な確率変数である。

==制御手順==
{{further|ファミリーワイズエラー率#制御手順}}

{{Image frame
|content ={{Graph:Chart|width=300|height=100|type=line|x=1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49|y=0.050000000000000044, 0.09750000000000003, 0.1426250000000001, 0.18549375000000012, 0.22621906250000023, 0.2649081093750002, 0.3016627039062503, 0.33657956871093775, 0.3697505902753909, 0.4012630607616213, 0.43119990772354033, 0.45963991233736334, 0.4866579167204952, 0.5123250208844705, 0.536708769840247, 0.5598733313482347, 0.5818796647808229, 0.6027856815417818, 0.6226463974646927, 0.6415140775914581, 0.6594383737118852, 0.676466455026291, 0.6926431322749764, 0.7080109756612276, 0.7226104268781662, 0.7364799055342579, 0.7496559102575451, 0.7621731147446679, 0.7740644590074345, 0.7853612360570628, 0.7960931742542097, 0.8062885155414992, 0.8159740897644242, 0.8251753852762029, 0.8339166160123929, 0.8422207852117732, 0.8501097459511846, 0.8576042586536253, 0.8647240457209441, 0.8714878434348969, 0.877913451263152, 0.8840177786999944, 0.8898168897649947, 0.895326045276745, 0.9005597430129078, 0.9055317558622624, 0.9102551680691493, 0.9147424096656918, 0.9190052891824072|yAxisMin=0
xAxisTitle="k"|yAxisTitle=P(at least 1 H_0 is wrongly rejected)}}
|caption = 少なくとも1つの帰無仮説が誤って棄却される確率を独立検定の数<math>m</math>の関数として表したもの。有意水準 = 0.05の場合。
|width=300
}}
多重検定補正とは、多重検定の問題を解決するために統計的検定をより厳しくすることである。最もよく知られているのはボンフェローニ補正であるが、他の方法も開発されている。このような方法は通常、[[ファミリーワイズエラー率]]（FWER）または偽発見率（FDR）をコントロールするように設計されている。
m個の独立した比較が実行される場合、ファミリーワイズエラー率は次式で与えられる。

:<math> \bar{\alpha} = 1-\left( 1-\alpha_{\{\text{per comparison}\}} \right)^m.</math>

したがって、検定が完全に同一でない限り、<math>\bar{\alpha}</math>は比較の数が増えるにつれて増加する。比較が独立であると仮定しない場合でも、[[ブールの不等式]]から、次の式が導ける。

:<math> \bar{\alpha} \le m \cdot \alpha_{\{\text{per comparison}\}},</math>

例: <math> 0.2649=1-(1-.05)^6  \le .05 \times 6 = 0.3</math>

ファミリーワイズエラー率が最大でも<math>\alpha</math>であることを保証するさまざまな方法がある。最も保守的な方法は、従属性と分布の仮定が必要ない、[[ボンフェローニ補正]]（<math> \alpha_\mathrm{\{per\ comparison\}}={\alpha}/m</math>）である。わずかに保守的でない補正として、<math>m</math>個の独立比較の系列ごとの誤差率の式を<math>\alpha_\mathrm{\{per\ comparison\}}</math>について解く方法がある。これにより<math>\alpha_{\{\text{per comparison}\}} = 1-{(1-{\alpha})}^{1/m}</math>という式が得られる。これは[[シダック補正]]として知られている。もう1つの手順は[[ホルム＝ボンフェローニ法]]で、これは最も厳密な基準に対して最も低いp値（<math>i=1</math>）のみを検定し、徐々に厳密でない基準に対してより高いp値（<math>i>1</math>）を検定することにより、単純なBonferroni補正よりも検出力を高くすることができる<ref>{{cite journal | last1 = Aickin | first1 = M | last2 = Gensler | first2 = H  | title = Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods | journal = Am J Public Health | volume = 86| pages = 726–728 | doi=10.2105/ajph.86.5.726 | pmid=8629727 | date=May 1996 | pmc=1380484 | issue=5}}</ref>（<math> \alpha_\mathrm{\{per\ comparison\}}={\alpha}/(m-i+1)</math>）。

連続的な問題では、事前-事後の確率分布等から<math>m</math>を計算するためにベイズ統計学の手法を採用することができる。ボンフェローニ補正とシダック補正の連続的な一般化は<ref name="Bayer2020">{{cite journal |first1=Adrian E. |last1=Bayer | first2=Uroš| last2=Seljak | title=The look-elsewhere effect from a unified Bayesian and frequentist perspective |journal=[[Journal of Cosmology and Astroparticle Physics]] |volume=2020 |issue=10 |pages=009|year=2020 |arxiv = 2007.13821 | url=https://doi.org/10.1088%2F1475-7516%2F2020%2F10%2F009 |doi=10.1088/1475-7516/2020/10/009 |bibcode=2020JCAP...10..009B |s2cid=220830693 }}</ref>に示されている。

==大規模な多重検定==
多重検定の調整のために考えられた伝統的な手法は、多くの場合、少数の多重比較の補正に焦点を当てている。数千またはそれ以上の数の検定が行われる大規模な多重検定については、異なる一連の手法が開発されてきた。例えば、ゲノミクスでは、マイクロアレイのような技術を用いると、何万もの遺伝子の発現レベルを測定することができ、何百万もの遺伝マーカーの遺伝子型を測定することができる。特に遺伝学的関連研究の分野では、ある研究では統計的に強く有意であったにもかかわらず、その後の研究で再現されないという、非再現性（non-replication）という深刻な問題がある。このような非再現性には多くの原因が考えられるが、多重比較の結果を十分に考慮していないことが原因の一つであると広く考えられている<ref>{{Cite journal|last1=Qu|first1=Hui-Qi|last2=Tien|first2=Matthew|last3=Polychronakos|first3=Constantin|date=2010-10-01|title=Statistical significance in genetic association studies|journal=Clinical and Investigative Medicine|volume=33|issue=5|pages=E266–E270|issn=0147-958X|pmc=3270946|pmid=20926032}}</ref>。測定と情報技術の進歩により、探索的解析のための大規模なデータセットの作成がはるかに容易になり、多くの仮説が真であることを期待する事前の根拠がないまま、多くの仮説を検証することになることが多いと論じられている。このような状況では、多重比較調整を行わない限り、非常に高い偽陽性率が予想される。

断定的な結果を提供することが目的である大規模な検定問題では、統計的検定に有意水準を割り当てるためのパラメータとして、ファミリーワイズ誤差率が依然として最も受け入れられている。研究が探索的とみなされる場合や、有意な結果が独立した研究で簡単に再試験できる場合は、偽発見率（FDR）<ref>{{cite journal | last=Benjamini | first=Yoav |author2=Hochberg, Yosef | year=1995 | title=Controlling the false discovery rate: a practical and powerful approach to multiple testing | journal=[[Journal of the Royal Statistical Society, Series B]] | volume=57 | pages=125–133 | issue=1 | jstor=2346101}}</ref><ref>{{cite journal | last=Storey | first=JD |author2=Tibshirani, Robert | year=2003 | title=Statistical significance for genome-wide studies | journal=PNAS | volume=100 | pages=9440–9445 | doi=10.1073/pnas.1530509100 | pmid=12883005 | issue=16 | pmc=170937 | jstor=3144228| bibcode=2003PNAS..100.9440S | doi-access=free }}</ref><ref>{{cite journal | last=Efron | first=Bradley |author2=Tibshirani, Robert |author3=Storey, John D. |author4= Tusher, Virginia  | journal=[[Journal of the American Statistical Association]] | volume=96 | issue=456 | year=2001 | pages=1151–1160 | title=Empirical Bayes analysis of a microarray experiment | doi=10.1198/016214501753382129 | jstor=3085878| s2cid=9076863 }}</ref>による制御が好まれることが多い。FDRは、すべての有意な検定の中で予想される偽陽性の割合として緩やかに定義され、これを用いることで研究者は、フォローアップ研究でより厳密に評価するための「陽性候補」のセットを識別することができる<ref>{{Cite journal|last=Noble|first=William S.|date=2009-12-01|title=How does multiple testing correction work?|journal=Nature Biotechnology|language=en|volume=27|issue=12|pages=1135–1137|doi=10.1038/nbt1209-1135|issn=1087-0156|pmc=2907892|pmid=20010596}}</ref>。

有意なものを見つけることを期待して多くの未調整の比較を試みる行為は、意図的であるかどうかによらず、「p-ハッキング」と呼ばれて問題視されている<ref name="Deming">{{Cite journal |author = Young, S. S., Karr, A. |title = Deming, data and observational studies |journal = Significance |volume = 8 |issue = 3 |pages = 116–120 |year = 2011 |url = http://www.niss.org/sites/default/files/Young%20Karr%20Obs%20Study%20Problem.pdf|doi = 10.1111/j.1740-9713.2011.00506.x |doi-access = free }}</ref><ref name="bmj02">{{Cite journal |author = Smith, G. D., Shah, E. |title = Data dredging, bias, or confounding |journal = BMJ |volume = 325 |year = 2002 |pmc = 1124898 |doi = 10.1136/bmj.325.7378.1437 |pmid=12493654 |issue=7378 |pages=1437–1438}}</ref>。

<!--===対立仮説が真であるかどうかの評価===
[[Image:quantile meta test.svg|thumb|325px|シミュレートされた検定統計量のセットに対して、帰無仮説の下でZスコアに標準化を行ったQ-Qプロット。対角線に沿って予想される傾向から分布の上端が離れているのは、すべての帰無仮説が真であった場合に予想されるよりもかなり大きな検定統計量の値の存在によるものである。赤い点は、4番目に大きく観察された検定統計量（期待値2.06に対して3.13）に対応する。青い点は5番目に小さい検定統計量（期待値-1.96に対して-1.75）に対応する。このグラフは、すべての帰無仮説が真である可能性は低く、真である対立仮説のほとんどまたはすべての事例が、正の方向への逸脱から生じることを示唆している。]]

大規模な検定結果の集合を分析する際に最初に直面する基本的な疑問は、対立仮説のどれかが真であるという証拠があるかどうかである。検定が互いに独立であると仮定される場合に適用できる1つの単純なメタ検定は、すべての帰無仮説が真である場合に発見される、与えられた有意水準αでの有意な結果の数のモデルとして[[ポアソン分布]]を使用することである。観察された陽性の数が期待される数よりもかなり大きい場合、これは有意な結果の中に真の陽性がある可能性が高いことを示唆する。

たとえば、1000回の独立検定が行われ、それぞれが水準α = 0.05である場合、すべての帰無仮説が真であるとき、0.05 × 1000 = 50回の検定において有意であると判断されることが期待される。平均50のポアソン分布に基づくと、61以上の有意検定が観察される確率は0.05より小さいので、61以上の有意な結果が観察された場合、そのうちのいくつかは対立仮説が成り立つ状況に対応する可能性が非常に高い。このアプローチの欠点は、検定統計量が正に相関している場合に、対立仮説のいくつかが真であるという証拠を誇張することである。一方、有意な結果の数についてポアソン分布が良い近似を提供することが示される限り、検定統計量間に相関があっても、このアプローチは有効である。このシナリオは、例えば、トランザクションデータセットから重要な頻出項目集合をマイニングする場合に発生する。さらに、注意深く2段階の分析を行うことで、FDRを事前に指定したレベルに制限することができる<ref>{{cite journal | last1 = Kirsch | first1 = A | last2 = Mitzenmacher | first2 = M | author2-link = Michael Mitzenmacher | last3 = Pietracaprina | first3 = A | last4 = Pucci | first4 = G |  last5 = Upfal | first5 = E | author5-link = Eli Upfal | last6 = Vandin | first6 = F | title = An Efficient Rigorous Approach for Identifying Statistically Significant Frequent Itemsets | journal = Journal of the ACM | volume = 59 | issue = 3 | pages = 12:1–12:22 | doi=10.1145/2220357.2220359  | date=June 2012| arxiv = 1002.1104 }}</ref>。

検定統計量がZスコアに標準化できる状況で使用できるもう1つの一般的なアプローチは、検定統計量のQ-Qプロットを作成することである。観察された分位数が正規化した分位数よりも著しく分散している場合、これは有意な結果の一部が真陽性である可能性を示唆している。
※全体的に出展が足りていないので、一旦コメントアウト-->

==関連項目==
*[[仮説検定]]
*[[ダンカンの新多重範囲検定]]
*[[どこでも効果]]
*[[テキサスの狙撃兵の誤謬]]

==脚注==
{{Reflist|30em}}

==参考文献==
* F. Betz, T. Hothorn, P. Westfall (2010), ''Multiple Comparisons Using R'', CRC Press
* [[Sandrine Dudoit|S. Dudoit]] and M. J. van der Laan (2008), ''Multiple Testing Procedures with Application to Genomics'', Springer
* {{cite journal | last1 = Farcomeni | first1 = A. | year = 2008 | title = A Review of Modern Multiple Hypothesis Testing, with particular attention to the false discovery proportion | journal = Statistical Methods in Medical Research | volume = 17 | issue = 4 | pages = 347–388 | doi = 10.1177/0962280206079046 | pmid = 17698936 | hdl = 11573/142139 | s2cid = 12777404 }}
* {{cite journal | last1 = Phipson | first1 = B. | last2 = Smyth | first2 = G. K. | year = 2010 | title = Permutation P-values Should Never Be Zero: Calculating Exact P-values when Permutations are Randomly Drawn | journal = Statistical Applications in Genetics and Molecular Biology | volume = 9 | pages = Article39 | doi = 10.2202/1544-6115.1585 | pmid = 21044043 | arxiv = 1603.05766 | s2cid = 10735784 }}
* P. H. Westfall and S. S. Young (1993), ''Resampling-based Multiple Testing: Examples and Methods for p-Value Adjustment'', Wiley
* P. Westfall, R. Tobias, R. Wolfinger (2011) ''Multiple comparisons and multiple testing using SAS'', 2nd edn, SAS Institute
* [http://www.tylervigen.com/spurious-correlations A gallery of examples of implausible correlations sourced by data dredging]
{{Statistics}}

[[Category:多重比較| ]]