変分メッセージパッシング

テンプレート:No footnotes 変分メッセージパッシング（へんぶんメッセージパッシング、テンプレート:Lang-en、VMP）はJohn Winnによって開発された、指数族の共役分布を用いた離散、連続ベイジアンネットワークを近似的に推論するための手法である。VMPはLatent Dirichlet allocation（LDA）などの手法で利用される近似的変分法を一般化した手法であり、各々のノードの周辺分布を、そのマルコフブランケット上に存在するメッセージを用いて逐次的に更新し、その近似解を求める。

尤度の下限

隠れ変数 $H$ と観測データ $V$ の集合が与えられた場合、 $V$ のデータのみで構成されたグラフィカルモデルの対数尤度の下限を近似的に求める問題について考える。(後に定義する)確率分布 $Q$ を導入すると、 $V$ の対数尤度は

\ln P (V) = \sum_{H} Q (H) \ln \frac{P (H, V)}{P (H | V)} = \sum_{H} Q (H) [\ln \frac{P (H, V)}{Q (H)} - \ln \frac{P (H | V)}{Q (H)}]

となる。よって、下限 $L$ は以下のように定めることができる:

L (Q) = \sum_{H} Q (H) \ln \frac{P (H, V)}{Q (H)}

ゆえに、対象の対数尤度は上式の $L$ と、 $P Q$ 間の相対エントロピーの和によって表現できる。相対エントロピーは非負であるため、上で定義した関数 $L$ は観測データの対数尤度の下限を表す。ここで、 $P$ の周辺分布を厳密に計算しようとした場合に計算量が爆発してしまうような問題について考える。この場合、 $P$ の周辺分布を直接求めるのではなく、まず分布 $Q$ に対して周辺分布を計算しやすくなるような単純な性質を仮定する。次に下限である $L$ を最大化するような分布 $Q$ を求める。最後に分布 $Q$ から、周辺分布を近似的に求める。特に、VMPでは $Q$ に以下の独立の仮定を用いる:

Q (H) = \prod_{i} Q_{i} (H_{i})

ここで、 $H_{i}$ はグラフィカルモデルの一部を表す。

更新則の定義

上式で得られた下限はできるだけ大きくなることが望ましい。なぜならこれは下限であるので、下限を本来の尤度 $\log P$ に近づけることは近似精度の向上に繋がるためである。先の独立の仮定を付与した分布 $Q$ を代入することによって、隠れノード $H_{i}$ でパラメータ化された $L (Q)$ は単純に、 $Q_{j}$ と下式によって定義された $Q_{j}^{*}$ 間の相対エントロピーと、 $Q_{j}$ に関与しない他の項の和によって表現される:

Q_{j}^{*} (H_{j}) = \frac{1}{Z} e^{𝔼_{- j} {\ln P (H, V)}}

ここで、 $𝔼_{- j} {\ln P (H, V)}$ は $Q_{j}$ を除くすべての分布 $Q_{i}$ 上での期待値を表す。ゆえに、 $Q_{j}$ を $Q_{j}^{*}$ に設定した場合において、下限 $L$ は最大化される。