外れ値

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:Expand English

外れ値(中央の赤い点)

外れ値(はずれち、テンプレート:Lang-en-short)は、統計学において、他の値から大きく外れた値のこと。測定ミス・記録ミス等に起因する異常値とは概念的には異なるが、実用上は区別できないこともある。ロバスト統計では、外れ値に対しての頑健性確保を重視する。

英語のoutlierには「他より著しく異なるため一般的結論を導けない人や物や事実」を指す意味もある[1][2]

検定

外れ値かどうか検定したい標本について、偏差を不偏標準偏差で割った検定統計量

τ1=x1μσ

を求め(xテンプレート:Sub は標本値、μ平均σ は標準偏差)、この値(両側検定をする場合はこの絶対値)が有意点より大きいかどうかで検定する。

簡単な方法では、2または3を有意点とする。つまり、μ ± 2–3 σ の外なら外れ値とする。

スミルノフ・グラブス検定

より精密には、正規分布を仮定して、スミルノフ・グラブス (テンプレート:En) 検定を使う。サンプルサイズを n、所要の有意水準α自由度 n - 2 のt分布α / n × 100 パーセンタイルt として、

τ=(n1)tn(n2)+nt2

を有意点とする。平均値から最も外れている1つのデータのみを検定し、それが外れ値と判定されたら、それを除外した n - 1 のサンプルサイズにおいて最も外れているデータを検定し、以下、外れ値が検出されなくなるまでこれを繰り返す。

トンプソン検定

トンプソン (テンプレート:En) 検定では、

t=τn2n1τ2

を使う。計算式の都合上、スミルノフ・グラブス検定とは逆に、標本値の検定統計量 τテンプレート:Sub から tテンプレート:Sub を経て有意水準 αテンプレート:Sub を求めることが多い。n が十分大きければスミルノフ・グラブス検定と同じ結果になる。

脚注

テンプレート:脚注ヘルプ テンプレート:Reflist

関連項目

外部リンク

テンプレート:Commons category

テンプレート:統計学 テンプレート:Normdaten

  1. outlier Cambridge Dictionary, Cambridge University Press
  2. マルコム グラッドウェル(英語表記)Malcolm Gladwellコトバンク