「判別分析」の版間の差分

提供: testwiki
ナビゲーションに移動 検索に移動
imported>KsFanX
線形判別分析: サンプル数 → サンプルサイズ
 
(相違点なし)

2025年3月2日 (日) 02:16時点における最新版

判別分析(はんべつぶんせき、テンプレート:Lang-en-short)は、事前に与えられているデータが異なるグループに分かれる場合、新しいデータが得られた際に、どちらのグループに入るのかを判別するための基準(判別関数[注釈 1])を得るための正規分布を前提とした分類の手法。英語では線形判別分析[注釈 2]LDA二次判別分析[注釈 3]QDA混合判別分析[注釈 4]MDAと略す。1936年にロナルド・フィッシャーが線形判別分析を発表し[1][2]、1996年に Trevor Hastie, Robert Tibshirani が混合判別分析を発表した[3]

3つ以上のグループの判別は重判別分析[注釈 5]や正準判別分析と呼ばれる。

判別関数の種類

判別関数には以下の物などがある。

線形判別関数[注釈 6]
超平面・直線による判別。線形判別分析は等分散性が必要。
二次判別関数[注釈 7]
楕円など二次関数による判別。二次判別分析は等分散性が不要。
非線形判別関数[注釈 8]
超曲面・曲線などの非線形判別関数。

前提条件

線形判別分析は、以下の前提条件が成立する必要がある。

その上で、マハラノビス汎距離[注釈 10]が等距離の所に直線を引く。これらの前提条件が成立しないとおかしな結果になる。

各グループの平均が異なる以上、分散が異なることは多々ある。等分散性の仮定を外した物が二次判別分析である。それぞれのグループで異なる共分散行列を使用してマハラノビス距離を計算して、等距離になる場所を判別曲面とする方法である。この方法は二次関数となり、正規分布が成立している場合は正しい結果になる。

線形判別分析において、グループ間の確率のロジットは線形関数となるが、ここで線形関数という仮定を残したまま、正規分布や等分散性の仮定を外すとロジスティック回帰や単純パーセプトロンになる[4]

さらに別な方法としては、線形判別関数を使用したい場合は、線形サポートベクターマシンで線形判別関数を求めるという方法もある。

線形判別分析

線形判別関数は以下の通り。これの正負で判断。x は入力、μ平均Σ共分散行列[注釈 11]。この式は多変量正規分布の式より導出できる。

(xμfirst+μsecond2)TΣ1(μfirstμsecond)

より細かく、線形判別関数 (y=i=1naixi+a0) の求め方を以下に示す。

  1. 第一群、第二群についてそれぞれ積和を求める(N はサンプルサイズ)。
    Wij=k=1N(xi(k)xi)(xj(k)xj)
  2. 第一群と第二群の平方和・積和を、同じ2変数について足し、自由度 Nfirst+Nsecond2 で除す。
    Sij=Wij(first)+Wij(second)Nfirst+Nsecond2
  3. Sij を、その ij列に対応させて分散共分散行列𝐒とし、各変数にかかる係数をn1列に並べた行列を𝐀、第一群の各変数の平均値から第二群の各変数を引いた数 xi(first)xi(second)n1列に並べた行列を𝐗とすると以下の式が成り立つ。
    𝐒𝐀=𝐗 ゆえに 𝐀=𝐒1𝐗
  4. これにより各変数にかかる係数を求めることができる。
    定数項は、a0=12i=1nai{xi(firstaverage)+xi(secondaverage)}
  5. 判別得点yが正のとき第一群、負のとき第二群と判別される。
    変数が標準化されていれば、係数の大きさは、そのままその変数が判別に与える影響の大きさである。
    変数が定性的な場合は、ダミー変数を用いる。
    y=i=1n(ai(first)xi(first)+ai(second)xi(second))+a0
    ここに、xij: xij番目のカテゴリーに反応するとき1、しないとき0

二次判別分析

グループの平均を中心に回転・軸方向のスケーリングを行い共分散行列を揃え、線形判別分析を行えば良い。

混合判別分析

単一の正規分布ではなく、混合正規分布で表現した物を混合判別分析という。その場合でも共分散行列は共通の物を使う。混合正規分布を使うことにより複雑な分布も扱えるようになる。混合正規分布はEMアルゴリズムなどで求める。

注釈

テンプレート:Notelist

出典

  1. テンプレート:Cite journal
  2. Cohen et al. Applied Multiple Regression/Correlation Analysis for the Behavioural Sciences 3rd ed. (2003). Taylor & Francis Group.
  3. テンプレート:Cite journal
  4. テンプレート:Cite book

関連項目

テンプレート:統計学
引用エラー: 「注釈」という名前のグループの <ref> タグがありますが、対応する <references group="注釈"/> タグが見つかりません