EMアルゴリズム

テンプレート:Pathnavbox テンプレート:Machine learning bar EMアルゴリズム（テンプレート:Lang-en-short）とは、統計学において、確率モデルのパラメータを最尤推定する手法の一つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられる。EM法、期待値最大化法（きたいちさいだいかほう）テンプレート:Sfn テンプレート:Sfnとも呼ばれる。その一般性の高さから、機械学習、音声認識、因子分析など、広汎な応用があるテンプレート:Sfn。

EMアルゴリズムは反復法の一種であり、期待値（テンプレート:Lang-en-short）ステップと最大化（テンプレート:Lang-en-short）ステップを交互に繰り返すことで計算が進行する。Eステップでは、現在推定されている潜在変数の分布に基づいて、モデルの尤度の期待値を計算する。Mステップでは、E ステップで求まった尤度の期待値を最大化するようなパラメータを求める。M ステップで求まったパラメータは、次の E ステップで使われる潜在変数の分布を決定するために用いられる。

概要

セッティング・目標

今、2値テンプレート:Math、テンプレート:Mathを取る確率分布があり、その確率分布の確率密度関数 $p (x, z | θ)$ が未知の母数 $θ \in ℝ^{m}$ によりパラメトライズされているとする。ここで $ℝ$ は実数全体の集合を表す。

そして $p (x, z | θ)$ に従って標本 $(x_{1}, z_{1}), \dots, (x_{n}, z_{n})$ を独立に抽出したものの、何らかの事情で $Z = (z_{1}, \dots, z_{n})$ の値は観測できず、 $X = (x_{1}, \dots, x_{n})$ だけが観測できたとする。実応用上は例えば、 $θ = (θ_{1}, θ_{2})$ という形をしており、まず観測不能な $z_{i} \sim p_{1} (z | θ_{1})$ が選ばれた後、 $z_{i}$ に依存して観測可能な $x_{i} \sim p_{2} (x | θ_{2}, z_{i})$ が選ばれる、といったケースにEMアルゴリズムが使われる事が多いが、必ずしもこのケースにあてはまらなくてもよい。

簡単の為、記号を混用してテンプレート:Math、テンプレート:Mathの同時確率分布の確率密度関数も $p (X, Z | θ)$ と書く。以下ではテンプレート:Mathが離散変数の場合について説明するが、テンプレート:Mathが連続変数の場合も総和を積分に置き換える以外は同様である^[1]。

このような状況において母数テンプレート:Mathを最尤推定する事が我々の目標である。しかしテンプレート:Mathを知らない場合の $X = (x_{1}, \dots, x_{n})$ に関する対数尤度

ℓ (θ | X) := \log p (X | θ) = \log \sum_{Z} p (X, Z | θ)

を最大値を直接計算するのは一般には簡単ではない。

EMアルゴリズムは、反復法により、数列 ${\hat{θ}}^{(t)}$ で対数尤度 $ℓ ({\hat{θ}}^{(t)} | X)$ が単調非減少であるものを作るアルゴリズムである。最尤推定量を ${\hat{θ}}_{M L E}$ とすると、

ℓ ({\hat{θ}}_{M L E} | X) \geq ℓ ({\hat{θ}}^{(t)} | X)

である事から、 $ℓ ({\hat{θ}}_{M L E} | X)$ が有限であれば $ℓ ({\hat{θ}}^{(t)} | X)$ の単調性より $ℓ ({\hat{θ}}^{(t)} | X)$ は必ず収束する。

アルゴリズム

EMアルゴリズムでは、以下の手順により数列 ${\hat{θ}}^{(0)}, {\hat{θ}}^{(1)}, \dots$ を作る^[1]。

初期値 ${\hat{θ}}^{(0)}$ を（何らかの方法で）選ぶ。
t=0,1,…に対して以下を実行する
- E ステップ: $p (Z | X, {\hat{θ}}^{(t)})$ を求める。
- M ステップ: ${\hat{θ}}^{(t + 1)} = \underset{θ}{a r g m a x} Q (θ | {\hat{θ}}^{(t)})$ を求める。

ここでQは対数尤度関数 $\log p (X, Z | θ)$ のテンプレート:Mathに関する条件付き期待値

Q (θ | θ^{(t)}) := E_{Z | X, {\hat{θ}}^{(t)}} [\log p (X, Z | θ)] = \sum_{Z} p (Z | X, {\hat{θ}}^{(t)}) \log p (X, Z | θ)

である。実応用上は、 ${\hat{θ}}^{(t)}$ の値が十分小さくなったと判定する何らかの条件を事前に定めておき、その条件を満たしたら上述のループを終了する。ループを終了する条件は、パラメータ値や対数尤度関数を使って定められる^[1]。

留意点

EステップとMステップの切れ目は書籍により異なるので注意が必要である。本項では次節の議論と整合性をとる為に文献^[1]の切れ目に従ったが、文献^[2]では $Q (θ | {\hat{θ}}^{(t)})$ を計算する所までがEステップであり、 $Q (θ | {\hat{θ}}^{(t)})$ の $a r g m a x$ を取るところだけがMステップである。

ステップの名称「E」と「M」はそれぞれExpectation（期待値）、Maximization（最大化）の略であり^[2]、文献^[2]のようにEステップで $Q (θ | {\hat{θ}}^{(t)})$ を求める為に期待値を計算し、Mステップで $Q (θ | {\hat{θ}}^{(t)})$ の $a r g m a x$ を取るところに名称の由来がある。

動作原理

EMアルゴリズムで我々が求めたいのは、 $X = (x_{1}, \dots, x_{n})$ を観測した際における対数尤度

ℓ (θ | X) := \log p (X | θ)

を最大化する母数 $θ$ であった。EMアルゴリズムの動作原理を説明する為、以下のような汎関数を考える：

ℒ (q, θ) := \sum_{Z} q (Z) \log \frac{p (X, Z | θ)}{q (Z)}

　　...(テンプレート:EquationRef)

ここで $q (Z)$ は任意の確率密度関数である。 $p_{X, θ} (Z) := p (Z | X, θ)$ とすると、 $p (Z | X, θ) p (X | θ) = p (X, Z | θ)$ より、カルバック・ライブラー情報量

K L (q | | p_{X, θ}) = - \sum_{Z} q (Z) \log \frac{p (Z | X, θ)}{q (Z)}

を使って

ℒ (q, θ) = ℓ (θ | X) - K L (q | | p_{X, θ})

　...(テンプレート:EquationRef)

と書ける事が分かる。カルバック・ライブラー情報量が常に非負である事（ギブスの不等式）から、

ℓ (θ | X) \geq ℒ (q, θ)

であるので、 $ℒ (q, θ)$ は $ℓ (θ | X)$ の下限になっている。EMアルゴリズムはこの下限 $ℒ (q, θ)$ を逐次的に改善していくことで、 $ℓ (θ | X)$ を可能な限り最大化するアルゴリズムである。すなわち、EステップとMステップは以下のように書き換えられる事を示す事ができる^[1]：

E ステップ: ${\hat{q}}^{(t)} = \underset{q}{a r g m a x} ℒ (q, {\hat{θ}}^{(t)})$ を求める。
M ステップ: ${\hat{θ}}^{(t + 1)} = \underset{θ}{a r g m a x} ℒ ({\hat{q}}^{(t)}, θ)$ を求める。

この事実から対数尤度 $ℓ ({\hat{θ}}^{(t)} | X)$ の単調非減少性が明らかに従う。（但し反復法の常として、初期値しだいでは尤度の最大点ではない極大点に到達してそこで停止する可能性がある。）

証明

本節ではEステップ、Mステップが上述のように書き換えられることを示す。本節の証明は文献^[1]を参考にした。

Eステップの証明

カルバック・ライブラー情報量 $K L (q | | p_{X, θ})$ が最小値0になるのは $q = p_{θ, X}$ の場合だけであった事から、(テンプレート:EquationNote)より $ℒ (q, θ)$ は

q (Z) = p (Z | X, θ)

が満たされる場合に最大値を取る。すなわちEMアルゴリズムにおけるEステップは、 $θ = {\hat{θ}}^{(t)}$ を固定したままの状態で、 $ℒ (q, θ)$ を最大化する $q$ である

{\hat{q}}^{(t)} := p_{X, {\hat{θ}}^{(t)}} = \underset{q}{a r g m a x} ℒ (q, {\hat{θ}}^{(t)})

を求めるステップである。

Mステップの証明

$ℒ (q, θ)$ の定義式(テンプレート:EquationNote)に ${\hat{q}}^{(t)} = p_{X, {\hat{θ}}^{(t)}}$ を代入すると、

ℒ ({\hat{q}}^{(t)}, θ) = \sum_{Z} p (Z | X, θ^{(t)}) \log \frac{p (X, Z | θ)}{p (Z | X, θ^{(t)})} = Q (θ | θ^{(t)}) - H_{X, θ^{(t)}} (Z)

が成立し（ここで $H_{X, θ^{(t)}} (Z) = \sum_{Z} p (Z | X, θ^{(t)}) \log p (Z | X, θ^{(t)})$ は条件付きエントロピー）、上式右辺第二項はテンプレート:Mathに依存しないので、

{\hat{θ}}^{(t + 1)} = \underset{θ}{a r g m a x} Q (θ | {\hat{θ}}^{(t)}) = \underset{θ}{a r g m a x} ℒ (p_{X, {\hat{θ}}^{(t)}}, θ)

が成立する。

一般化

EMアルゴリズムは観測データの対数尤度を、E ステップとM ステップの繰り返しにより最大化するアルゴリズムであるので、正確にはlog-EMアルゴリズムというべきものである。log関数にはα-logとよばれる一般化された対数があるので、それを用いるとlog-EMを特例として含むアルゴリズムを作り上げることができる。ただし、この場合は尤度ではなくてα-log尤度比とαダイバージェンスを用いて基本等式を導くことになる。このようにして得られたものがα-EMアルゴリズム ^[3] であり、log-EMアルゴリズムをサブクラスとして含んでいる。α-EMアルゴリズムは適切なαを選ぶことにより、log-EMアルゴリズムよりも高速になる。また、log-EMが隠れマルコフモデル推定アルゴリズム（Baum-Welchアルゴリズム）を含んでいるように、α-EMアルゴリズムから高速なα-HMMアルゴリズムを得ることができる。 ^[4]

歴史

EMアルゴリズムは、テンプレート:仮リンク、テンプレート:仮リンク、ドナルド・ルービンによる1977年の論文^[5]で導入され、その名が付けられた。彼らは、EMアルゴリズムがほかの複数の著者によって「特殊な文脈でなんども提案されてきた」("proposed many times in special circumstances") ことを述べた上で、EMアルゴリズムの一般化を行い、その背後にある理論を追求した。

本来のEMアルゴリズムでは、期待値の評価において潜在変数のとりうる値すべてを列挙することが必要なため、効率的に扱える分布が限られていた。しかしその後、マルコフ連鎖モンテカルロ法やテンプレート:仮リンクが考案されたことにより、より一般の分布でも現実的な時間での計算が可能になったテンプレート:Sfn テンプレート:Sfn。

脚注

テンプレート:脚注ヘルプテンプレート:Reflist

参考文献

引用文献

その他の参考文献

Robert Hogg, Joseph McKean and Allen Craig. Introduction to Mathematical Statistics. pp. 359-364. Upper Saddle River, NJ: Pearson Prentice Hall, 2005.
The on-line textbook: Information Theory, Inference, and Learning Algorithms, by David J.C. MacKay includes simple examples of the E-M algorithm such as clustering using the soft K-means algorithm, and emphasizes the variational view of the E-M algorithm.
A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models, by Jeff Bilmes includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.
Variational Algorithms for Approximate Bayesian Inference, by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs.
The Expectation Maximization Algorithm, by Frank Dellaert, gives an easier explanation of EM algorithm in terms of lowerbound maximization.
The Expectation Maximization Algorithm: A short tutorial, A self contained derivation of the EM Algorithm by Sean Borman.
The EM Algorithm, by Xiaojin Zhu.
Geoffrey J. McLachlan and Thriyambakam Krishnan: The EM Algorithm and Extensions, Wiley series in probability and statistics, John Wiley & Sons, Inc., ISBN 0-471-12358-7 (1997).
Geoffrey J. McLachlan and Thriyambakam Krishnan: The EM Algorithm and Extensions, 2nd Edition, Wiley & Sons Inc., ISBN 978-0-471-20170-0 (February 2008).　上記の改訂第2版。
Kenneth Lange: MM Optimization Algorithms, SIAM, テンプレート:ISBN2 (2016). ※ "EM" アルゴリズムの一般化として　"MM algorithm" を提唱している．

和書

小西貞則・越智義道・大森裕浩:「計算統計学の方法 ―ブートストラップ，EMアルゴリズム，MCMC―」、朝倉書店(シリーズ：予測と発見の科学、5)、ISBN 978-4-254-12785-0　(2008年3月25日)。
関原謙介：「ベイズ信号処理」、共立出版、ISBN 978-4-320-08574-9 (2015年4月11日)。
関原謙介：「ベイズ推論の基礎と信号処理への応用」
黒田正博:「EMアルゴリズム」、共立出版(シリーズ：統計学One Point、18巻)、ISBN 978-4-320-11269-8、(2020年7月31日)。

テンプレート:Statistics-stub

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 #PRML pp.156, 164-171
↑ ^2.0 ^2.1 ^2.2 #ESL pp.316-317.
↑ テンプレート:Cite journal
↑ テンプレート:Cite journal
↑ テンプレート:Cite journal

[:02-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 #PRML pp.156, 164-171

[:12-2] 2.0 ^2.1 ^2.2 #ESL pp.316-317.

[3] テンプレート:Cite journal

[4] テンプレート:Cite journal

[5] テンプレート:Cite journal

[1]

[2]

[3]

[4]

[5]

EMアルゴリズム

目次

概要

セッティング・目標

アルゴリズム

留意点

動作原理

証明

Eステップの証明

Mステップの証明

一般化

歴史

脚注

参考文献

引用文献

その他の参考文献

ナビゲーションメニュー

EMアルゴリズム

概要

セッティング・目標

アルゴリズム

留意点

動作原理

証明

Eステップの証明

Mステップの証明

一般化

歴史

脚注

参考文献

引用文献

その他の参考文献

ナビゲーション メニュー

検索

ナビゲーションメニュー