変分オートエンコーダー

テンプレート:Pathnav テンプレート:Machine learning bar 変分オートエンコーダー（テンプレート:Lang-en-short; VAE）はオートエンコーディング変分ベイズアルゴリズムに基づいて学習される確率項つきオートエンコーダ型ニューラルネットワークである。

ニューラルネットワークを用いた生成モデルの一種であり、深層潜在変数モデルの一種でもある。

オートエンコーディング変分ベイズアルゴリズムの概要

オートエンコーディング変分ベイズアルゴリズム（テンプレート:Lang-en-short; AEVB）は勾配推定値を用いた有向潜在変数モデルと推論モデルの同時最適化アルゴリズムである。

AEVBでは有向潜在変数モデル $p_{θ} (𝐱, 𝐳) = p_{θ} (𝐱 | 𝐳) p_{θ} (𝐳)$ を推論モデル $q_{ϕ} (𝐳 | 𝐱)$ の導入による変分下界 $ℒ_{θ, ϕ} (𝐱)$ 最大化により最適化する。一般に変分下界の勾配 $\nabla_{θ, ϕ} ℒ_{θ, ϕ} (𝐱)$ は intractable であるが、AEVBではこれをモンテカルロ法 ( $z \sim q_{ϕ} (𝐳 | 𝐱)$ ) を用いた勾配の不偏推定量 ${\hat{\nabla}}_{θ, ϕ} ℒ_{θ, ϕ} (𝐱)$ で置き換え、確率的勾配降下法によりパラメータを最適化する。このとき $q_{ϕ} (𝐳 | 𝐱)$ の勾配推定・伝播に関する問題を reparameterization trick で解決する。

セッティング

標本 $X = {𝐱^{(1)}, \dots, 𝐱^{(N)}}$ が各テンプレート:Mathに対し、以下で生成されると仮定する^#原論文テンプレート:Rp：

まず潜在変数テンプレート:Mathが何らかの確率密度関数 $p_{θ} (𝐳)$ に従って選ばれ、
テンプレート:Mathがテンプレート:Mathに依存した何らかの確率密度関数 $p_{θ} (𝐱 | 𝐳)$ に従って選ばれる。

ここでテンプレート:Mvarは何らかのパラメーターであり、テンプレート:Mvarの真の値テンプレート:Mvarは未知である。また $p_{θ} (𝐳)$ 、 $p_{θ} (𝐱 | 𝐳)$ に従って値を選ぶのは計算量的に容易であるものとする。

一方、潜在変数の事後分布 $p_{θ} (𝐳 | 𝐱)$ は容易には計算できず、（容易に計算できる）確率密度関数 $q_{ϕ} (𝐳 | 𝐱)$ により、近似する事を考える（近似事後分布）^#原論文テンプレート:Rp。ここで $ϕ$ はパラメーターである。

近似事後分布を用いると周辺対数尤度 $\log p_{θ} (𝐱)$ は次のように変形できる：

\log p_{θ} (𝐱) = 𝔼_{q_{ϕ} (𝐳 | 𝐱)} [\log \frac{p_{θ} (𝐱, 𝐳)}{q_{ϕ} (𝐳 | 𝐱)}] + 𝔼_{q_{ϕ} (𝐳 | 𝐱)} [\log \frac{q_{ϕ} (𝐳 | 𝐱)}{p_{θ} (𝐳 | 𝐱)}]

右辺の第1項は変分下界 $ℒ_{θ, ϕ} (𝐱)$ あるいはELBOと呼ばれ、第2項は事後分布-近似事後分布間のカルバック・ライブラー情報量に相当する。すなわち次の式が成立している：

ℒ_{θ, ϕ} (𝐱) = \log p_{θ} (𝐱) - K L (q_{ϕ} (𝐳 | 𝐱) ‖ p_{θ} (𝐳 | 𝐱))

ここで $K L \geq 0$ （ギブスの不等式）より、変分下界最大化は次の2つの意味を持つ：

近似事後分布の近似精度最大化（ $K L \approx 0$ ）
生成モデルの尤度最大化（ $\underset{θ}{argmax} \log p_{θ} (𝐱)$ ）

ゆえに変分下界最大化は最尤推定の代替として利用できる。

目標

標本 $X$ に対する変分下界を最大化する $(θ, ϕ)$ を目標とする。すなわち次の式で表される：

\underset{θ, ϕ}{argmax} 𝔼_{X} [ℒ_{θ, ϕ} (X)] = \underset{θ, ϕ}{argmax} \sum_{x \in X} ℒ_{θ, ϕ} (𝐱)

アルゴリズム

変分下界は一般には計算が簡単ではない。そこで $q_{ϕ} (𝐳 | 𝐱)$ が適切な仮定を満たすという条件下で変分下界の推定量を導入する^#原論文テンプレート:Rp。標本 $X$ に対し確率勾配法を用いてSGVB推定量を極大化しモデルの最適化をおこなう^#原論文テンプレート:Rp。

他の推論アルゴリズムとの比較

本章で想定しているセッティングにおいて、既知の手法の有用性は限定的である^#原論文テンプレート:Rp：

最尤法は本章のセッティングでは $p_{θ} (𝐱) = \int p_{θ} (𝐱 | 𝐳) p_{θ} (𝐳) d 𝐳$ が容易に計算できるケースでないと使えない。
EMアルゴリズムは $p_{θ} (𝐳 | 𝐱)$ の計算が容易であるケースでないと使えない。
変分ベイズ法は $p_{θ} (𝐳 | 𝐱)$ が平均場近似できる場合にしか使えない。
モンテカルロEMアルゴリズムは実行速度が遅い為大きなデータ集合に対しては使えない。

例えば $p_{θ} (𝐱 | 𝐳)$ がニューラルネットワークにより定義されているケースでは、上述した既知の手法は使えないが、本手法であれば適用できる。後述する変分オートエンコーダーはまさにこのケースであり、 $p_{θ} (𝐱 | 𝐳)$ をニューラルネットワークにより定義している。

意義

この最適化により以下の事ができるようになる：

見つけたテンプレート:Mvarを使う事で $p_{θ} (𝐳)$ 、 $p_{θ} (𝐱 | 𝐳)$ に従う確率変数テンプレート:Mvar、テンプレート:Mvarを生成する生成モデルを作成
$q_{ϕ} (𝐳 | 𝐱)$ により $p_{θ} (𝐳 | 𝐱)$ を推定

変分オートエンコーダーの概要

変分オートエンコーダーとは、オートエンコーディング変分ベイズアルゴリズムを使って学習するニューラルネットワーク（原論文では1層もしくは2層のパーセプトロン^#原論文テンプレート:Rp）ベースの生成モデルである。

セッティング

変分オートエンコーダーでは、潜在変数テンプレート:Mathが従う確率密度関数 $p_{θ} (𝐳)$ が標準正規分布

𝐳 \sim 𝒩 (0, I)

...(D1)

に従っており^#原論文テンプレート:Rp、テンプレート:Mvarの従う条件つき確率密度関数 $p_{θ} (𝐱 | 𝐳)$ が

𝐱 \sim 𝒩 (μ_{D}, σ_{D}^{2} I)

、ここで

(μ_{D}, σ_{D}^{2}) = D_{θ} (𝐳)

...(D2)

という形であるものとする^#原論文テンプレート:Rp。上で $D_{θ} (\cdot)$ はパラメーターテンプレート:Mvarを持つニューラルネットワークである。

さらに事後分布 $p_{θ} (𝐳 | 𝐱)$ を近似する条件つき確率密度関数 $q_{ϕ} (𝐳 | 𝐱)$ として

𝐳 \sim 𝒩 (μ_{E}, σ_{E}^{2} I)

、ここで

(μ_{E}, σ_{E}^{2}) = E_{ϕ} (𝐱)

　　…(E1)

という形のものを考える^#原論文テンプレート:Rp。上で $E_{ϕ} (\cdot)$ はパラメーター $ϕ$ を持つニューラルネットワークである。

テンプレート:Mvarの次元はテンプレート:Mvarの次元より短く取る。これは $E_{ϕ} (\cdot)$ を用いる事で、データテンプレート:Mvarをもっと短いデータテンプレート:Mvarに「圧縮」し、 $D_{θ} (\cdot)$ を用いる事でテンプレート:Mvarからテンプレート:Mvarを「復元」できる事を意味する（ただし実際には $E_{ϕ} (\cdot)$ や $D_{θ} (\cdot)$ の後に正規乱数を取る操作があるので、「圧縮」したデータを「復元」しても元に戻らない）。このため符号理論との類推から、 $E_{ϕ} (\cdot)$ をエンコーダー、 $D_{θ} (\cdot)$ をデコーダーと呼ぶ。

アルゴリズム

変分オートエンコーダーの学習アルゴリズムは与えられたデータ集合 $X = {𝐱^{(1)}, \dots, 𝐱^{(N)}}$ に対し、以上のような状況下でオートエンコーディング変分ベイズアルゴリズムを用いる事で、２つのニューラルネットワーク $D_{θ} (\cdot)$ 、 $E_{ϕ} (\cdot)$ のパラメーターテンプレート:Mvar、 $ϕ$ を決定するものである。

一方、変分オートエンコーダーの生成アルゴリズムでは、まずは(D1)式のように標準正規分布に従いテンプレート:Mvarを生成し、生成したテンプレート:Mvarと学習済みのテンプレート:Mvarを使って(D2)式のようにテンプレート:Mvarを生成する。

オートエンコーディング変分ベイズアルゴリズムの詳細

SGVB推定量

変分下界は一般には計算が簡単ではない。ゆえに変分下界の推定量であるSGVB推定量（Stochastic Gradient Variational Bayes estimator、確率的勾配変分ベイズ推定量）を導入する^#原論文テンプレート:Rp。

仮定

SGVB推定量を導入する為、何らかの（容易に計算可能な）可微分関数と（容易にサンプルを抽出できる）確率分布 $ℰ$ を用いて

𝐳 = g_{ϕ} (𝐱, ε)

、ここで

ε \sim ℰ

　　　...(P1)

とする事で確率密度関数 $q_{ϕ} (𝐳 | 𝐱)$ に従ったサンプルを抽出できる事を仮定する^#原論文テンプレート:Rp。

例えばVAEの場合は(E1)より

ℰ = 𝒩 (𝟎, I)

、

g_{ϕ} (𝐱, ε) = μ_{E} + σ_{E}^{2} ⊙ ε

　　　...(P2)

としてこの仮定を満たしている。ここで「 $⊙$ 」は成分毎の積である。

後でSGVB推定量を定義する際に仮定(P1)を使う事で、本来は確率分布 $q_{ϕ} (𝐳 | 𝐱)$ で定義する部分を可微分で確定的な関数テンプレート:Mvarに置き換える事でSGVB推定量の可微分性を保証する。これによりSGVB推定量を微分して勾配法により $(θ, ϕ)$ の最適解を求める事ができるようになる。原論文ではこのように確率分布を可微分な確定的関数に置き換えるテクニックをreparameterization trickと呼んでいる^#原論文テンプレート:Rp。

推論量

簡単な計算により変分下界は

ℒ_{θ, ϕ} (𝐱) = 𝔼_{q_{ϕ} (𝐳 | 𝐱)} [\log p_{θ} (𝐱 | 𝐳))] - K L (q_{ϕ} (𝐳 | 𝐱) ‖ p (𝐳))

と書き換えられる事が示せる（ここで $𝔼 [\cdot]$ は期待値である）ので、仮定(P1)を用いる事で変分下界を推定するSGVB推定量を

\tilde{ℒ} (θ, ϕ, 𝐱, (ε^{(ℓ)})_{ℓ = 1, \dots, L})) : = \frac{1}{L} \sum_{ℓ = 1}^{L} \log p_{θ} (𝐱 | g_{ϕ} (𝐱, ε^{(ℓ)})) - K L (q_{ϕ} (𝐳 | 𝐱) ‖ p (𝐳))

　　　...(L1)

により定義する^#原論文テンプレート:Rp。ここで $ε^{(ℓ)}$ （ $ℓ = 1, \dots, L$ ）は $ℰ$ から独立に抽出した乱数であり、テンプレート:Mvarはハイパーパラメーターである。

SGVB推定量を計算するにはカルバック・ライブラー情報量 $K L (q_{ϕ} (𝐳 | 𝐱) ‖ p (𝐳))$ を計算できる必要がある。原論文ではこの値が計算できないときの為の推定量も提案しているが^#原論文テンプレート:Rp、本項では割愛する。

アルゴリズム

オートエンコーディング変分ベイズアルゴリズムは確率的勾配降下法によりSGVB推定量を極大化するテンプレート:Mvar、 $ϕ$ を求めるものである^#原論文テンプレート:Rp。以下でテンプレート:Mvar、テンプレート:Mvarはハイパーパラメーターである。

標本 $X$ を入力として受け取る。
テンプレート:Mvar、 $ϕ$ を初期化する。
テンプレート:Mvar、ϕが事前に定められた収束条件を満たすまで以下を繰り返す
- テンプレート:Mvarのサイズテンプレート:Mvarの部分集合テンプレート:Mvarをランダムに選ぶ
- 各 $𝐱 \in X^{'}$ に対し $ε_{𝐱}^{(1)}, \dots, ε_{𝐱}^{(L)}$ を $ℰ$ に従って選ぶ。
- $\sum_{𝐱 \in X^{'}} \nabla_{θ, ϕ} \tilde{ℒ} (θ, ϕ, 𝐱, (ε_{𝐱}^{(ℓ)})_{ℓ = 1, \dots, L})$ を使ってテンプレート:Mvar、 $ϕ$ を更新
テンプレート:Mvar、 $ϕ$ を出力

変分オートエンコーダーの詳細

すでに述べたように、変分オートエンコーダーの学習アルゴリズムは、 $p_{θ} (𝐳)$ 、 $p_{θ} (𝐱 | 𝐳)$ 、 $q_{ϕ} (𝐱 | 𝐳)$ からのサンプリングが(D1)、(D2)、(E1)に従ってできるケースにおいてオートエンコーディング変分ベイズアルゴリズムを実行するというものである。

従って変分オートエンコーダーの学習アルゴリズムを書きくだす上で必要となる作業は、(D1)、(D2)、(E1)に従っているケースにおいてオートエンコーディング変分ベイズアルゴリズムにおけるSGVB推定量が具体的にどのような形になるのかを調べるだけである。

SGVB推定量の具体的な形

本節では変分オートエンコーダーのケースにおいてSGVB推定量

\tilde{ℒ} (θ, ϕ, 𝐱, (ε^{(ℓ)})_{ℓ = 1, \dots, L})) = \frac{1}{L} \sum_{ℓ = 1}^{L} \log p_{θ} (𝐱 | g_{ϕ} (𝐱, ε^{(ℓ)})) - K L (q_{ϕ} (𝐳 | 𝐱) ‖ p (𝐳))

　　　...(L1、再掲)

の具体的な形を求める。

(P2)、(E1)、(D2)より、

(μ_{E}, σ_{E}^{2}) = E_{ϕ} (𝐱)

、

(μ_{D}^{(ℓ)}, (σ_{D}^{(ℓ)})^{2}) = D_{θ} (μ_{E} + σ_{E}^{2} ⊙ ε^{(ℓ)})

とすると、 $p_{θ} (𝐱 | g_{ϕ} (𝐱, ε^{(ℓ)}))$ が正規分布 $𝒩 (μ_{D}^{(ℓ)}, (σ_{D}^{(ℓ)})^{2} I)$ の確率密度関数であることから、

\log p_{θ} (𝐱 | g_{ϕ} (𝐱, ε^{(ℓ)})) = - \frac{K}{2} \log 2 π - \frac{1}{2} \sum_{k = 1}^{K} (\frac{(x_{k} - μ_{D, k}^{(ℓ)})^{2}}{(σ_{D, k}^{(ℓ)})^{2}} - \log σ_{D, k}^{(ℓ)})

である。ここでテンプレート:Mvarはテンプレート:Mvarのデータ長であり、テンプレート:Mvar、テンプレート:Mvar、テンプレート:Mvarはそれぞれテンプレート:Mvar、テンプレート:Mvar、テンプレート:Mvarの第テンプレート:Mvar成分である。

一方、(L1)の第2項を具体的に計算すると以下のようになる^#原論文テンプレート:Rp：

K L (q_{ϕ} (𝐱 | 𝐳) ‖ p (𝐳)) = \frac{1}{2} \sum_{j = 1}^{J} (1 - μ_{E, j}^{2} - σ_{E, j}^{2} + \log σ_{E, j}^{2})

ここでテンプレート:Mvarはテンプレート:Mvarのデータ長であり、テンプレート:Mvar、テンプレート:Mvarはそれぞれテンプレート:Mvar、テンプレート:Mvarの第テンプレート:Mvar成分である。

まとめると、

\tilde{ℒ} (θ, ϕ, 𝐱, (ε^{(ℓ)})_{ℓ = 1, \dots, L})) = - \frac{K}{2} \log 2 π - \frac{1}{L} \sum_{ℓ = 1}^{L} \sum_{k = 1}^{K} (\frac{(x_{k} - μ_{D, k}^{(ℓ)})^{2}}{(σ_{D, k}^{(ℓ)})^{2}} - \log σ_{D, k}^{(ℓ)}) - \frac{1}{2} \sum_{j = 1}^{J} (1 - μ_{E, j}^{2} - σ_{E, j}^{2} + \log σ_{E, j}^{2})

　　　...(L2)

ここで、

(μ_{E}, σ_{E}^{2}) = ((μ_{E, j})_{j = 1, \dots, J}, ((σ_{E, j})_{j = 1, \dots, J}) = E_{ϕ} (𝐱)

(μ_{D}^{(ℓ)}, (σ_{D}^{(ℓ)})^{2}) = ((μ_{D, j}^{(ℓ)})_{j = 1, \dots, K}, ((σ_{D, j}^{(ℓ)})_{j = 1, \dots, K}) = D_{θ} (μ_{E} + σ_{E}^{2} ⊙ ε^{(ℓ)})

アルゴリズム

以上の結果から、変分オートエンコーダーは以下のようになる：

学習：

オートエンコーディング変分ベイズアルゴリズムを実行。ただし $ℰ = 𝒩 (𝟎, I)$ とし、 $\tilde{ℒ}$ は(L2)のものを使う。

生成：

学習済みの $ϕ$ を入力として受けとる
$𝒩 (𝟎, I)$ に従ってテンプレート:Mvarを選ぶ
$(μ_{D}, σ_{D}^{2}) = D_{ϕ} (𝐳)$ を計算する。
$𝒩 (μ_{D}, σ_{D}^{2} I)$ に従ってテンプレート:Mvarを選び、テンプレート:Mvarを出力する。

参考文献

原論文
- テンプレート:Cite web
関連論文
- テンプレート:Cite web
解説論文
- テンプレート:Cite web
- テンプレート:Cite web

変分オートエンコーダー

目次

オートエンコーディング変分ベイズアルゴリズムの概要

セッティング

目標

アルゴリズム

他の推論アルゴリズムとの比較

意義

変分オートエンコーダーの概要

セッティング

アルゴリズム

オートエンコーディング変分ベイズアルゴリズムの詳細

SGVB推定量

仮定

推論量

アルゴリズム

変分オートエンコーダーの詳細

SGVB推定量の具体的な形

アルゴリズム

参考文献

関連項目

ナビゲーションメニュー

変分オートエンコーダー

オートエンコーディング変分ベイズアルゴリズムの概要

セッティング

目標

アルゴリズム

他の推論アルゴリズムとの比較

意義

変分オートエンコーダーの概要

セッティング

アルゴリズム

オートエンコーディング変分ベイズアルゴリズムの詳細

SGVB推定量

仮定

推論量

アルゴリズム

変分オートエンコーダーの詳細

SGVB推定量の具体的な形

アルゴリズム

参考文献

関連項目

ナビゲーション メニュー

検索

ナビゲーションメニュー