識別的モデルのソースを表示

'''識別的モデル'''（しきべつてきモデル、discriminative models）とは、'''条件付きモデル'''（じょうけんつきモデル、conditional models）とも呼ばれる、[[分類 (統計学)|分類]]や[[回帰分析|回帰]]に使用されるロジスティックモデルの一種である。これらのモデルは、合格／不合格、勝ち／負け、生／死、健康／病気など、観測データに基づいて決定境界を設定する。

代表的な識別的モデルの例として、[[ロジスティック回帰]]（LR）、[[条件付き確率場]]（CRF）（無向グラフで指定される）や[[決定木]]などがある。一方、[[生成的モデル]]の代表例としては、[[単純ベイズ分類器]]、{{Ill2|ガウス混合モデル|en|Gaussian mixture model}}、[[変分オートエンコーダー|変分オートエンコーダ]]、[[敵対的生成ネットワーク]]などがある。

== 定義 ==
'''識別的モデル'''は、観測されていない変数（ターゲット）<math>x</math> を、観測された変数（訓練サンプル）に基づくクラスラベル <math>y</math> に対応付ける[[事前確率|条件付き確率分布]] <math>P(y|x)</math> に焦点を当てた研究である。

この点において、[[同時確率分布]] <math>P(x,y)</math> を研究する'''生成的モデル'''とは異なる。

たとえば[[物体認識]]では、<math>x</math> は通常、画像の生の画素または画像の生の画素から抽出された特徴のベクトルを表す。[[確率論]]的な枠組みで条件付き確率分布 <math>P(y|x)</math> をモデル化することで、<math>x</math> から <math>y</math> を予測することができる。

条件付きモデルと識別的モデルは別物であるが、単純に識別的モデルとしてまとめられることが多い。

=== 純粋な識別的モデルと条件付きモデルの比較 ===
{{Also|生成的モデル#識別的分類器との対比}}
上述のように、条件付きモデルは、条件付き[[確率分布]]をモデル化するものである。一方、従来の識別的モデルは、最適化のために最も類似した訓練済みサンプルに入力をマッピングすることに焦点を当てている<ref name=":0">{{Cite web |url=http://demo.clab.cs.cmu.edu/fa2015-11711/images/e/e5/DiscriminativeModels.pdf |title=Discriminative Models |last=Ballesteros |first=Miguel |access-date=October 28, 2018}}{{Dead link|date=November 2019|bot=InternetArchiveBot|fix-attempted=yes}}</ref>。

== 識別的モデリングの代表的な手法 ==
これらの[[モデリング&シミュレーション|モデリング]]手法は、[[訓練・検証・テストデータセット|訓練データセット]] <math>D=\{(x_i;y_i)|i\leq N\in \mathbb{Z}\}</math> が提供されていることを前提としており、入力 <math>x_i</math> に対応する出力を <math>y_i</math> とする<ref name=":1">{{Cite web |url=http://www.cs.toronto.edu/~rfm/pubs/sdl.ps |title=An introduction to structured discriminative learning |last=Memisevic |first=Roland |date=December 21, 2006 |access-date=October 29, 2018}}</ref>。

=== 線形分類器 ===
[[線形分類器|線形分類法]]を用いて訓練データセットで観察される挙動をシミュレートするため、関数 <math>f(x)</math> と結合特徴ベクトル<!-- joint feature vector --> <math>\phi(x,y)</math> を使用する。決定関数は次のように定義される。

: <math>f(x;w)=\arg \max_y w^T \phi(x,y)</math>

Memisevicの解釈では、<math>w^T \phi(x,y)</math> は <math>c(x,y;w)</math> とも呼ばれ、入力 <math>x</math> と潜在的出力 <math>y</math> との適合性を測るスコアを計算する<ref name=":1" />。そして、もっとも高いスコアを持つクラスが <math>\arg \max</math> を用いて決定される。

=== ロジスティック回帰 (LR) ===
[[0-1損失関数]]は[[決定理論]]で一般的に使用される関数であることから、[[条件付き確率分布]] <math>P(y|x;w)</math> をロジスティック回帰モデルで次のように書き直すことができる（ここで、<math>w</math> は訓練データを最適化するためのパラメータベクトル）。
: <s><math>P(y|x;w)= \frac{1}{Z(x;w)} \exp(w^T\phi(x,y))
</math></s>
: <s><math>Z(x;w)= \textstyle \sum_{y}  \displaystyle\exp(w^T\phi(x,y))</math></s>

2つの式はいずれもロジスティック回帰を表し、主な違いは、事後確率の導入方法である。事後確率は、パラメトリックモデルから推測され、次の式でパラメータを最大化することができる。

: <math>L(w)=\textstyle \sum_{i} \displaystyle \log p(y^i|x^i;w)</math><br />

この方程式は、対数損失方程式で置き換えることもできる。

: <math>l^{\log} (x^i, y^i,c(x^i;w)) = -\log p(y^i|x^i;w) = \log Z(x^i;w)-w^T\phi(x^i,y^i)</math>

[[対数損失]]は微分可能であるため、勾配に基づく手法でモデルの最適化を行うことができる。目的関数は[[凸関数|凸]]であるため、大域的な最適化が保証される。対数尤度の勾配は次のように表される。

: <math>\frac{\partial L(w)}{\partial w} = \textstyle \sum_{i} \displaystyle \phi(x^i,y^i) - E_{p(y|x^i;w)} \phi(x^i,y)</math>

ここで <math>E_{p(y|x^i;w)}</math> は <math>p(y|x^i;w)</math> の期待値である。

この方法は、比較的少数の分類数に対して効率的である。

== 識別的モデルと生成的モデルの比較 ==

=== 手法の対照 ===
<math>m</math> 個のクラスラベル（分類）と <math>n</math> 個の特徴変数 <math>Y:\{y_1, y_2,\ldots,y_m\}, X:\{x_1,x_2,\ldots,x_n \}</math> を持つ訓練サンプルが与えられたとする。

生成的モデルは、 入力 <math>x</math>、ラベル <math>y</math> の同時確率 <math>P(x,y)</math> を用いて、[[ベイズの定理]]を適用して未知入力 <math>\widetilde{x}</math> に対してもっとも可能性のある既知のラベル <math>\widetilde{y}\in Y</math> を予測する<ref name=":2">{{Cite book |url=http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.19.9829 |title=On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes |last1=Ng |first1=Andrew Y. |last2=Jordan |first2=Michael I. |date=2001}}</ref>。

一方、識別的モデルは、観測変数と目的変数の[[同時分布]]からサンプルを生成することはできないが、同時分布を必要としない[[分類 (統計学)|分類]]や[[回帰分析|回帰]]のようなタスクでは、生成的モデルよりも優れた性能を発揮することができる（計算する変数が少ないことも一つの理由）<ref>{{Cite journal|last1=Singla|first1=Parag|last2=Domingos|first2=Pedro|date=2005|title=Discriminative Training of Markov Logic Networks|url=http://dl.acm.org/citation.cfm?id=1619410.1619472|journal=Proceedings of the 20th National Conference on Artificial Intelligence - Volume 2|pages=868–873|publisher=AAAI Press|location=Pittsburgh, Pennsylvania|isbn=978-1577352365|series=AAAI'05}}</ref><ref>J. Lafferty, A. McCallum, and F. Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In ''ICML'', 2001.</ref><ref name=":2" />。一般的に生成的モデルは、複雑な学習課題における依存関係をより柔軟に表現することができる。また、ほとんどの識別的モデルは本質的に[[教師あり学習]]で、[[教師なし学習]]をサポートしない。最終的に、識別的モデルと生成的モデルのどちらを選択するかは、特定のアプリケーションの要件に依存する。識別的モデルと生成的モデルは、[[事後確率]]の導入方法が異なる<ref name=":3">{{Cite web |url=https://www.microsoft.com/en-us/research/wp-content/uploads/2016/05/Bishop-Sicily-05.pdf |title=Comparison of Generative and Discriminative Techniques for Object Detection and Classification |last=Ulusoy |first=Ilkay |website=[[Microsoft]] |date=May 2016 |access-date=October 30, 2018}}</ref>。識別的モデルでは、パラメトリックモデルから事後確率 <math>P(y|x) </math> を推定し、訓練データからパラメータを得る。パラメータの推定は、パラメータに対する尤度の最大化または分布計算によって得られる。これに対し、生成的モデルは同時確率に着目し、[[ベイズの定理]]におけるクラス事後確率 <math>P(k)</math> を考慮する。したがって、クラス事後確率は、

: <math>P(y|x) = \frac{p(x|y)p(y)}{\textstyle \sum_{i}p(x|i)p(i) \displaystyle}=\frac{p(x|y)p(y)}{p(x)}</math> として求められる<ref name=":3" />。

=== 応用における長所と短所 ===
ロジスティック回帰と単純ベイズモデルを適用した二値分類タスクの実験を繰り返すと、識別的学習では漸近誤差が小さく、生成的学習では漸近誤差の増大が早くなることが分かった<ref name=":2" />。しかし、UlusoyとBishopは共同研究「物体検出と分類のための生成的手法と識別的手法の比較（''Comparison of Generative and Discriminative Techniques for Object Detection and Classification''）」において、この結果はモデルがデータに適している場合、すなわち生成的モデルがデータ分布を正確にモデル化している場合にのみ成り立つと述べている。

==== 長所 ====
識別的モデルには、次のような大きな利点がある。

* より高い精度を得、主に学習結果の向上につながる。
* 入力を簡素化し、条件付確率 <math>P(y|x)</math> への直接なアプローチが可能。
* 計算資源を節約できる。
* 漸近的誤差が小さい。

生成的モデルの利点と比較すると、識別的モデルは次のような特徴がある。

* 生成的モデルは、すべてのデータを考慮することで、処理速度が遅くなる制約がある。
* 識別的モデルは、より少ない訓練サンプルで済む。
* また、他のアプリケーションのニーズと容易に連携できる柔軟なフレームワークを提供する。

==== 短所 ====

* 識別的モデルの学習法には、複数の数値最適化手法を要することが多い<ref name=":0" />。
* 識別的モデルは、入力変数と出力変数の関係にのみ着目するため、すべてのデータを考慮できる生成的モデルと比較し、複雑な実世界の問題を解決するために複数のサブタスクの組み合わせを要することがある<ref name=":1" />。

== 応用における最適化 ==
このように、2つのモデリングには長所と短所が存在し、両方のアプローチを組み合わせた手法により、実用化において優れた結果が得られている。たとえば、Marrasの論文「''A Joint Discriminative Generative Model for Deformable Model Construction and Classification''」<ref>{{Cite web |url=https://ibug.doc.ic.ac.uk/media/uploads/documents/pid4666647.pdf |title=A Joint Discriminative Generative Model for Deformable Model Construction and Classification |last=Marras |first=Ioannis |date=2017 |access-date=5 November 2018}}</ref>では、モデルの顔分類に両モデルを組み合わせて適用した結果、従来の手法よりも高い精度が得られた。

Kelmの論文「''Combining Generative and Discriminative Methods for Pixel Classification with Multi-Conditional Learning''」<ref>{{Cite web |url=http://www.professeurs.polymtl.ca/christopher.pal/icpr06/icpr06_combining.pdf |title=Combining Generative and Discriminative Methods for Pixel Classification with Multi-Conditional Learning |last=Kelm |first=B. Michael |access-date=5 November 2018}}</ref>でも、ピクセル分類のために2つのモデリングの統合が提案されている。

識別的モデルは、一般的に、分類の前に複数のサブタスクの組み合わせが含まれる。たとえばクラスタリング前に識別的な特徴抽出をする場合、[[主成分分析]]（PCA）がよく使用されるが、PCAはクラスの違いを考慮しないため、必ずしも最も効果的な識別的手法とは言えない。一方、[[判別分析#線形判別分析|線形判別分析]]（LDA）（{{Ill2|潜在的ディリクレ配分法|en|Latent Dirichlet allocation}}と混同しないこと）は、クラス間の差異を明示的にモデル化して次元を削減しようとするため、上記の短所に対する適切な解決策を提供する<ref>{{Cite web |url=https://www.ijcai.org/Proceedings/15/Papers/552.pdf |title=A Joint Optimization Framework of Sparse Coding and Discriminative Clustering |last=Wang |first=Zhangyang |date=2015 |access-date=5 November 2018}}</ref>。

== 種類 ==
識別的モデルの例の一つに、[[ロジスティック回帰]]がある。これは[[一般化線形モデル|一般化線形回帰]]（GLM）の一種で、[[ベルヌーイ分布|2値]]または{{Ill2|カテゴリー分布|en|Categorical distribution|label=カテゴリ出力}}の予測に使用される（{{Ill2|最大エントロピー分類器|en|maximum entropy classifiers}}としても知られる）。

その他の例としては、次のようなものがある。

* [[ブースティング|ブースティング（メタアルゴリズム）]]
* [[条件付き確率場]]
* [[線形回帰]]
* [[ランダムフォレスト]]

== 参考項目 ==
{{Portal|数学}}

* [[生成的モデル]] - 観測可能変数と目的変数との同時確率分布に基づく統計モデル

== 脚注 ==
{{reflist|30em}}

{{Statistics|state=expanded}}

{{DEFAULTSORT:しきへつてきもてる}}
[[Category:機械学習]]
[[Category:統計モデル]]
[[Category:再帰モデル]]
[[Category:数学に関する記事]]