判別分析のソースを表示
←
判別分析
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
'''判別分析'''(はんべつぶんせき、{{lang-en-short|discriminant analysis}})は、事前に与えられているデータが異なるグループに分かれる場合、新しいデータが得られた際に、どちらのグループに入るのかを判別するための基準('''判別関数'''<ref group="注釈">{{lang-en-short|discriminant function}}</ref>)を得るための[[正規分布]]を前提とした[[分類 (統計学)|分類]]の手法。英語では'''線形判別分析'''<ref group="注釈">{{lang-en-short|linear discriminant analysis}}</ref>を'''LDA'''、'''二次判別分析'''<ref group="注釈">{{lang-en-short|quadratic discriminant analysis}}</ref>を'''QDA'''、'''混合判別分析'''<ref group="注釈">{{lang-en-short|mixture discriminant analysis}}</ref>を'''MDA'''と略す。1936年に[[ロナルド・フィッシャー]]が線形判別分析を発表し<ref>{{Cite journal |author=FISHER, R. A. |title=The use of multiple measurements in taxonomic problems |journal=Annals of Eugenics |volume=7 |issue=2 |year=1936 |month=September |pages=179–188 |doi=10.1111/j.1469-1809.1936.tb02137.x }}</ref><ref name="cohen">Cohen et al. Applied Multiple Regression/Correlation Analysis for the Behavioural Sciences 3rd ed. (2003). Taylor & Francis Group.</ref>、1996年に Trevor Hastie, Robert Tibshirani が混合判別分析を発表した<ref>{{Cite journal |author=Trevor Hastie |author2=Robert Tibshirani |title=Discriminant Analysis by Gaussian Mixtures |journal=Journal of the Royal Statistical Society, Series B |volume=58 |issue=1 |year=1996 |pages=155-176 }}</ref>。 3つ以上のグループの判別は'''重判別分析'''<ref group="注釈">{{lang-en-short|multiple discriminant analysis}}</ref>や正準判別分析と呼ばれる。 == 判別関数の種類 == 判別関数には以下の物などがある。 ; 線形判別関数<ref group="注釈">{{lang-en-short|linear discriminant function}}</ref> : 超平面・[[直線]]による判別。線形判別分析は等分散性が必要。 ; 二次判別関数<ref group="注釈">{{lang-en-short|quadratic discriminant function}}</ref> : [[楕円]]など二次関数による判別。二次判別分析は等分散性が不要。 ; 非線形判別関数<ref group="注釈">{{lang-en-short|nonlinear discriminant function}}</ref> : 超曲面・[[曲線]]などの非線形判別関数。 == 前提条件 == 線形判別分析は、以下の前提条件が成立する必要がある。 * 各グループは多変量正規分布<ref group="注釈">{{lang-en-short|multivariate normal distribution}}</ref>している * 全てのグループが同じ[[共分散行列]]を持つ([[等分散性]]) その上で、[[マハラノビス距離|マハラノビス汎距離]]<ref group="注釈">{{lang-en-short|Mahalanobis' generalized distance}}</ref>が等距離の所に直線を引く。これらの前提条件が成立しないとおかしな結果になる。 各グループの平均が異なる以上、分散が異なることは多々ある。等分散性の仮定を外した物が二次判別分析である。それぞれのグループで異なる共分散行列を使用してマハラノビス距離を計算して、等距離になる場所を判別曲面とする方法である。この方法は二次関数となり、正規分布が成立している場合は正しい結果になる。 線形判別分析において、グループ間の確率の[[ロジット]]は線形関数となるが、ここで線形関数という仮定を残したまま、正規分布や等分散性の仮定を外すと[[ロジスティック回帰]]や単純[[パーセプトロン]]になる<ref>{{Cite book|和書 |author = Trevor Hastie, Robert Tibshirani, Jerome Friedman |date = 2014-06-25 |title = 統計的学習の基礎 ―データマイニング・推論・予測― |publisher = 共立出版 |isbn = 978-4320123625 }}</ref>。 さらに別な方法としては、線形判別関数を使用したい場合は、線形[[サポートベクターマシン]]で線形判別関数を求めるという方法もある。 <!-- ここにあった「評価手法」と「例」は[[分類 (統計学)]]に移動しました --> == 線形判別分析 == 線形判別関数は以下の通り。これの正負で判断。<math>x</math> は入力、<math>\mu</math> は[[平均]]、<math>\mathbf{\Sigma}</math> は[[共分散行列]]<ref group="注釈">この文脈中には総和を表すシグマ記号「<math>\sum_{i=1}^n</math>」もあるが、それとは異なるので注意。</ref>。この式は多変量[[正規分布]]の式より導出できる。 : <math>\left(x - \frac{\mu_{\rm first} + \mu_{\rm second}}{2}\right)^T \mathbf{\Sigma}^{-1} (\mu_{\rm first} - \mu_{\rm second})</math> より細かく、線形判別関数 (<math>y=\sum_{i=1}^{n}a_ix_i+a_0</math>) の求め方を以下に示す。 #第一群、第二群についてそれぞれ積和を求める(''N'' はサンプルサイズ)。 #:<math>W_{ij}=\sum_{k=1}^N(x^{(k)}_i-\overline{x}_i)(x^{(k)}_j-\overline{x}_j)</math> #第一群と第二群の平方和・積和を、同じ2変数について足し、[[自由度]] <math>N_{\rm first}+N_{\rm second}-2</math> で除す。 #:<math>S_{ij}=\frac{W_{ij} {\rm(first)}+W_{ij} \rm{(second)}}{N_{\rm first}+N_{\rm second}-2}</math> #<math>S_{ij}</math> を、その <math>i</math>行<math>j</math>列に対応させて分散共分散行列<math>{\mathbf S}</math>とし、各変数にかかる係数を<math>n</math>行<math>1</math>列に並べた行列を<math>{\mathbf A}</math>、第一群の各変数の平均値から第二群の各変数を引いた数 <math>x_i {\rm (first)}-x_i {\rm (second)}</math>を<math>n</math>行<math>1</math>列に並べた行列を<math>{\mathbf X}</math>とすると以下の式が成り立つ。 #:<math>{\mathbf S}{\mathbf A}={\mathbf X}</math> ゆえに <math>{\mathbf A}={\mathbf S}^{-1}{\mathbf X}</math> #これにより各変数にかかる係数を求めることができる。 #:定数項は、<math>a_0=-\frac{1}{2}\sum_{i=1}^na_i\left\{x_i {\rm (first average)}+x_i {\rm (second average)}\right\}</math> #判別得点<math>y</math>が正のとき第一群、負のとき第二群と判別される。 #:変数が標準化されていれば、係数の大きさは、そのままその変数が判別に与える影響の大きさである。 #:変数が定性的な場合は、[[ダミー変数]]を用いる。 #::<math>y=\sum_{i=1}^n\left(a_i{\rm (first)}x_i{\rm (first)}+a_i{\rm (second)}x_i{\rm (second)}\right)+a_{0}</math> #:ここに、<math>x_{ij}</math>: <math>x_i</math>の<math>j</math>番目のカテゴリーに反応するとき<math>1</math>、しないとき<math>0</math>。 == 二次判別分析 == グループの平均を中心に回転・軸方向のスケーリングを行い共分散行列を揃え、線形判別分析を行えば良い。 == 混合判別分析 == 単一の正規分布ではなく、混合正規分布で表現した物を混合判別分析という。その場合でも共分散行列は共通の物を使う。混合正規分布を使うことにより複雑な分布も扱えるようになる。混合正規分布は[[EMアルゴリズム]]などで求める。 == 注釈 == {{Notelist}} == 出典 == <references/> == 関連項目 == * [[固有顔]] * [[線形分類器]] {{統計学}} {{DEFAULTSORT:はんへつふんるい}} [[Category:統計学]] [[Category:数学に関する記事]] [[Category:分類アルゴリズム]] [[Category:分析]] [[Category:消費者行動]] [[Category:マーケティング]] [[Category:心理検査]] [[Category:ロナルド・フィッシャー]]
このページで使用されているテンプレート:
テンプレート:Cite book
(
ソースを閲覧
)
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Notelist
(
ソースを閲覧
)
テンプレート:統計学
(
ソースを閲覧
)
判別分析
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報