変分オートエンコーダーのソースを表示

{{Pathnav|[[データサイエンス]]|[[機械学習]]|[[教師なし学習]]|frame=1|[[生成モデル]]}}
{{Machine learning bar}}
'''変分オートエンコーダー'''（{{lang-en-short|Variational Auto-Encoder}}; '''VAE'''）はオートエンコーディング変分ベイズアルゴリズムに基づいて学習される確率項つき[[オートエンコーダ]]型[[ニューラルネットワーク]]である。

[[ニューラルネットワーク]]を用いた[[生成モデル]]の一種であり、[[潜在変数#深層潜在変数モデル|深層潜在変数モデル]]の一種でもある。

==オートエンコーディング変分ベイズアルゴリズムの概要==
'''オートエンコーディング変分ベイズアルゴリズム'''（{{lang-en-short|Auto-Encoding Variational Bayes algorithm}}; '''AEVB'''）は勾配推定値を用いた有向[[潜在変数#潜在変数モデル|潜在変数モデル]]と推論モデルの同時最適化アルゴリズムである。

AEVBでは有向[[潜在変数#潜在変数モデル|潜在変数モデル]] <math>p_{\theta}(\mathbf{x}, \mathbf{z})
= p_{\theta}(\mathbf{x} | \mathbf{z}) p_{\theta}(\mathbf{z})
</math> を推論モデル <math>q_{\phi}(\mathbf{z}|\mathbf{x})</math> の導入による変分下界 <math>\mathcal{L}_{\theta,\phi}(\mathbf{x})</math> 最大化により最適化する。一般に変分下界の勾配 <math>\nabla_{\theta,\phi} \mathcal{L}_{\theta,\phi}(\mathbf{x})</math> は intractable であるが、AEVBではこれを[[モンテカルロ法]] (<math>z \sim q_{\phi}(\mathbf{z}|\mathbf{x})</math>) を用いた勾配の不偏推定量 <math>\hat{\nabla}_{\theta,\phi} \mathcal{L}_{\theta,\phi}(\mathbf{x})</math> で置き換え、[[確率的勾配降下法]]によりパラメータを最適化する。このとき <math>q_{\phi}(\mathbf{z}|\mathbf{x})</math> の勾配推定・伝播に関する問題を reparameterization trick で解決する。

=== セッティング ===
[[標本 (統計学)|標本]] <math>X=\{\mathbf{x}^{(1)},\ldots,\mathbf{x}^{(N)}\}</math> が各{{Math|1=''i''=1,...,''N''}}に対し、以下で生成されると仮定する<sup>[[#原論文]]</sup>{{rp|2.1節}}：
* まず潜在変数{{Math|1='''''z'''''{{sup|(i)}}}}が何らかの確率密度関数<math>p_{\theta}(\mathbf{z})</math>に従って選ばれ、
* {{Math|1='''''x'''''{{sup|(i)}}}}が{{Math|'''''z'''''{{sup|(i)}}}}に依存した何らかの確率密度関数<math>p_{\theta}(\mathbf{x}|\mathbf{z})</math>に従って選ばれる。

ここで{{mvar|θ}}は何らかのパラメーターであり、{{Mvar|θ}}の真の値{{Mvar|θ{{sup|*}}}}は未知である。また<math>p_{\theta}(\mathbf{z})</math>、<math>p_{\theta}(\mathbf{x}|\mathbf{z})</math>に従って値を選ぶのは計算量的に容易であるものとする。

一方、潜在変数の事後分布 <math>p_{\theta}(\mathbf{z}|\mathbf{x})</math> は容易には計算できず、（容易に計算できる）確率密度関数 <math>q_{\phi}(\mathbf{z}|\mathbf{x})</math> により、近似する事を考える（'''近似事後分布'''）<sup>[[#原論文]]</sup>{{rp|2.1節}}。ここで<math>\phi</math>はパラメーターである。

近似事後分布を用いると周辺対数尤度 <math>\log p_{\theta}(\mathbf{x})</math> は次のように変形できる：

: <math>\log p_{\theta}(\mathbf{x})
=  \mathbb{E}_{q_{\phi}(\mathbf{z}|\mathbf{x})} \left [ \log \frac{p_\theta(\mathbf{x}, \mathbf{z})}{q_{\phi}(\mathbf{z}|\mathbf{x})} \right ]
 + \mathbb{E}_{q_{\phi}(\mathbf{z}|\mathbf{x})} \left [ \log \frac{q_{\phi}(\mathbf{z}|\mathbf{x})}{p_\theta(\mathbf{z}|\mathbf{x})} \right ]
</math>

右辺の第1項は'''変分下界''' <math>\mathcal{L}_{\theta, \phi}(\mathbf{x})</math> あるいは'''ELBO'''と呼ばれ、第2項は事後分布-近似事後分布間の[[カルバック・ライブラー情報量]]に相当する。すなわち次の式が成立している：

: <math>\mathcal{L}_{\theta, \phi}(\mathbf{x})
=  \log p_{\theta}(\mathbf{x})
 - \mathrm{KL}(q_{\phi}(\mathbf{z}|\mathbf{x})\|p_{\theta}(\mathbf{z}|\mathbf{x}))</math>

ここで <math>\mathrm{KL} \geq 0</math> （[[ギブスの不等式]]）より、変分下界最大化は次の2つの意味を持つ：

* 近似事後分布の近似精度最大化（<math>\mathrm{KL} \approx 0</math>）
* 生成モデルの尤度最大化（<math>\underset{\theta}{\operatorname{argmax}} \log p_{\theta}(\mathbf{x})</math>）

ゆえに変分下界最大化は最尤推定の代替として利用できる。

===目標===
[[標本 (統計学)|標本]] <math>X</math> に対する変分下界を最大化する <math>(\theta,\phi)</math> を目標とする。すなわち次の式で表される：

: <math>\underset{\theta, \phi}{\operatorname{argmax}} \ 
\mathbb{E}_{X}
  [
    \mathcal{L}_{\theta, \phi}(X)
  ]
= \underset{\theta, \phi}{\operatorname{argmax}}
\sum_{x \in X}\mathcal{L}_{\theta, \phi}(\mathbf{x})
</math>

===アルゴリズム===

変分下界は一般には計算が簡単ではない。そこで <math>q_{\phi}(\mathbf{z}|\mathbf{x})</math> が適切な仮定を満たすという条件下で変分下界の推定量を導入する<sup>[[#原論文]]</sup>{{rp|2.3節}}。[[標本 (統計学)|標本]] <math>X</math> に対し確率勾配法を用いてSGVB推定量を極大化しモデルの最適化をおこなう<sup>[[#原論文]]</sup>{{rp|2.3節}}。

===他の推論アルゴリズムとの比較===

本章で想定しているセッティングにおいて、既知の手法の有用性は限定的である<sup>[[#原論文]]</sup>{{rp|2.1節}}：
* [[最尤法]]は本章のセッティングでは<math>p_{\theta}(\mathbf{x})=\int p_{\theta}(\mathbf{x}|\mathbf{z})p_{\theta}(\mathbf{z})\mathrm{d}\mathbf{z}</math>が容易に計算できるケースでないと使えない。
* [[EMアルゴリズム]]は<math>p_{\theta}(\mathbf{z}|\mathbf{x})</math>の計算が容易であるケースでないと使えない。
* [[変分ベイズ法]]は<math>p_{\theta}(\mathbf{z}|\mathbf{x})</math>が[[平均場近似]]できる場合にしか使えない。
* [[モンテカルロEMアルゴリズム]]は実行速度が遅い為大きなデータ集合に対しては使えない。

例えば<math>p_{\theta}(\mathbf{x}|\mathbf{z})</math>がニューラルネットワークにより定義されているケースでは、上述した既知の手法は使えないが、本手法であれば適用できる。後述する変分オートエンコーダーはまさにこのケースであり、<math>p_{\theta}(\mathbf{x}|\mathbf{z})</math>をニューラルネットワークにより定義している。

=== 意義 ===
この最適化により以下の事ができるようになる：
* 見つけた{{mvar|θ}}を使う事で<math>p_{\theta}(\mathbf{z})</math>、<math>p_{\theta}(\mathbf{x}|\mathbf{z})</math>に従う確率変数{{mvar|'''z'''}}、{{mvar|'''x'''}}を生成する生成モデルを作成
* <math>q_{\phi}(\mathbf{z}|\mathbf{x})</math>により<math>p_{\theta}(\mathbf{z}|\mathbf{x})</math>を推定
==変分オートエンコーダーの概要==

'''変分オートエンコーダー'''とは、オートエンコーディング変分ベイズアルゴリズムを使って学習するニューラルネットワーク（[[#原論文|原論文]]では1層もしくは2層のパーセプトロン<sup>[[#原論文]]</sup>{{rp|Appendix C}}）ベースの生成モデルである。

===セッティング===
変分オートエンコーダーでは、潜在変数{{Math|1='''''z'''''}}が従う確率密度関数<math>p_{\theta}(\mathbf{z})</math>が標準正規分布
: <math>\mathbf{z}\sim\mathcal{N}({\boldsymbol 0},I)</math>    ...(D1)
に従っており<sup>[[#原論文]]</sup>{{rp|Appendix B}}、{{mvar|'''x'''}}の従う条件つき確率密度関数<math>p_{\theta}(\mathbf{x}|\mathbf{z})</math>が
: <math>\mathbf{x}\sim\mathcal{N}({\boldsymbol \mu}_D,{\boldsymbol \sigma}_D^2I)</math>、ここで<math>({\boldsymbol \mu}_D,{\boldsymbol \sigma}_D^2) = D_{\theta}(\mathbf{z})</math>       ...(D2)
という形であるものとする<sup>[[#原論文]]</sup>{{rp|Appendix C.2}}。上で<math>D_{\theta}(\cdot)</math>はパラメーター{{mvar|θ}}を持つニューラルネットワークである。

さらに事後分布<math>p_{\theta}(\mathbf{z}|\mathbf{x})</math>を近似する条件つき確率密度関数<math>q_{\phi}(\mathbf{z}|\mathbf{x})</math>として

: <math>\mathbf{z}\sim\mathcal{N}({\boldsymbol \mu}_E,{\boldsymbol \sigma}_E^2I)</math>、ここで<math>({\boldsymbol \mu}_E,{\boldsymbol \sigma}_E^2) = E_{\phi}(\mathbf{x})</math>　　…(E1)
という形のものを考える<sup>[[#原論文]]</sup>{{rp|Appendix C.2}}。上で<math>E
_{\phi}(\cdot)</math>はパラメーター<math>\phi</math>を持つニューラルネットワークである。

{{mvar|'''z'''}}の次元は{{mvar|'''x'''}}の次元より短く取る。これは<math>E_{\phi}(\cdot)</math>を用いる事で、データ{{mvar|'''x'''}}をもっと短いデータ{{mvar|'''z'''}}に「圧縮」し、<math>D_{\theta}(\cdot)</math>を用いる事で{{mvar|'''z'''}}から{{mvar|'''x'''}}を「復元」できる事を意味する（ただし実際には<math>E_{\phi}(\cdot)</math>や<math>D_{\theta}(\cdot)</math>の後に正規乱数を取る操作があるので、「圧縮」したデータを「復元」しても元に戻らない）。このため
[[符号理論]]との類推から、<math>E_{\phi}(\cdot)</math>を'''エンコーダー'''、<math>D_{\theta}(\cdot)</math>を'''デコーダー'''と呼ぶ。

===アルゴリズム===

変分オートエンコーダーの学習アルゴリズムは与えられたデータ集合<math>X=\{\mathbf{x}^{(1)},\ldots,\mathbf{x}^{(N)}\}</math>に対し、以上のような状況下でオートエンコーディング変分ベイズアルゴリズムを用いる事で、２つのニューラルネットワーク<math>D_{\theta}(\cdot)</math>、<math>E
_{\phi}(\cdot)</math>のパラメーター{{mvar|θ}}、<math>\phi</math>を決定するものである。

一方、変分オートエンコーダーの生成アルゴリズムでは、まずは(D1)式のように標準正規分布に従い{{mvar|'''z'''}}を生成し、生成した{{mvar|'''z'''}}と学習済みの{{mvar|θ}}を使って(D2)式のように{{mvar|'''x'''}}を生成する。

==オートエンコーディング変分ベイズアルゴリズムの詳細==

===SGVB推定量===
変分下界は一般には計算が簡単ではない。ゆえに変分下界の推定量である'''SGVB推定量'''（Stochastic Gradient Variational Bayes estimator、確率的勾配変分ベイズ推定量）を導入する<sup>[[#原論文]]</sup>{{rp|2.3節}}。
====仮定====
SGVB推定量を導入する為、何らかの（容易に計算可能な）可微分関数と（容易にサンプルを抽出できる）確率分布 <math>\mathcal{E}</math> を用いて
: <math>\mathbf{z}=g_{\phi}(\mathbf{x},{\boldsymbol \varepsilon})</math>、ここで<math>{\boldsymbol \varepsilon}\sim\mathcal{E}</math>　　　...(P1)
とする事で確率密度関数<math>q_{\phi}(\mathbf{z}|\mathbf{x})</math>に従ったサンプルを抽出できる事を仮定する<sup>[[#原論文]]</sup>{{rp|2.3節}}。

例えばVAEの場合は(E1)より
: <math>\mathcal{E}=\mathcal{N}(\mathbf{0},I)</math>、<math>g_{\phi}(\mathbf{x},{\boldsymbol \varepsilon})={\boldsymbol \mu}_E+{\boldsymbol \sigma}_E^2\odot {\boldsymbol \varepsilon}</math>　　　...(P2)
としてこの仮定を満たしている。ここで「<math>\odot</math>」は[[アダマール積|成分毎の積]]である。

後でSGVB推定量を定義する際に仮定(P1)を使う事で、本来は確率分布<math>q_{\phi}(\mathbf{z}|\mathbf{x})</math>で定義する部分を可微分で確定的な関数{{mvar|g}}に置き換える事でSGVB推定量の可微分性を保証する。これによりSGVB推定量を微分して勾配法により<math>(\theta,\phi)</math>の最適解を求める事ができるようになる。[[#原論文|原論文]]ではこのように確率分布を可微分な確定的関数に置き換えるテクニックを'''reparameterization trick'''と呼んでいる<sup>[[#原論文]]</sup>{{rp|2.4節}}。

====推論量====
簡単な計算により変分下界は

: <math>\mathcal{L}_{\theta, \phi}(\mathbf{x})
=\mathbb{E}_{q_{\phi}(\mathbf{z}|\mathbf{x})}[\log p_{\theta}(\mathbf{x}|\mathbf{z}))]-\mathrm{KL}(q_{\phi}(\mathbf{z}|\mathbf{x})\|p(\mathbf{z}))
</math>
と書き換えられる事が示せる（ここで<math>\mathbb{E}[\cdot]</math>は期待値である）ので、仮定(P1)を用いる事で変分下界を推定する'''SGVB推定量'''を
: <math>\tilde{\mathcal{L}}(\theta,\phi,\mathbf{x},({\boldsymbol \varepsilon}^{(\ell)})_{\ell=1,\ldots,L}))
:= {1\over L}\sum_{\ell=1}^L\log p_{\theta}(\mathbf{x}|g_{\phi}(\mathbf{x},{\boldsymbol \varepsilon}^{(\ell)}))-\mathrm{KL}(q_{\phi}(\mathbf{z}|\mathbf{x})\|p(\mathbf{z}))
</math>　　　...(L1)
により定義する<sup>[[#原論文]]</sup>{{rp|2.3節}}。ここで<math>{\boldsymbol \varepsilon}^{(\ell)}</math>（<math>\ell=1,\ldots,L</math>）は <math>\mathcal{E}</math>から独立に抽出した乱数であり、{{mvar|L}}はハイパーパラメーターである。

SGVB推定量を計算するにはカルバック・ライブラー情報量<math>\mathrm{KL}(q_{\phi}(\mathbf{z}|\mathbf{x})\|p(\mathbf{z}))
</math>を計算できる必要がある。[[#原論文|原論文]]ではこの値が計算できないときの為の推定量も提案しているが<sup>[[#原論文]]</sup>{{rp|2.3節}}、本項では割愛する。

===アルゴリズム===
オートエンコーディング変分ベイズアルゴリズムは[[確率的勾配降下法]]によりSGVB推定量を極大化する{{Mvar|θ}}、<math>\phi</math>を求めるものである<sup>[[#原論文]]</sup>{{rp|2.3節 Algorithm 1}}。以下で{{Mvar|L}}、{{Mvar|M}}はハイパーパラメーターである。

* [[標本 (統計学)|標本]] <math>X</math> を入力として受け取る。
* {{Mvar|θ}}、<math>\phi</math>を初期化する。
* {{Mvar|θ}}、<math>\phi</math>が事前に定められた収束条件を満たすまで以下を繰り返す
** {{Mvar|X}}のサイズ{{mvar|M}}の部分集合{{Mvar|X'}}をランダムに選ぶ
** 各<math>\mathbf{x}\in X'</math>に対し<math>{\boldsymbol \varepsilon}_\mathbf{x}^{(1)},\ldots,{\boldsymbol \varepsilon}_\mathbf{x}^{(L)}</math>を<math>\mathcal{E}</math>に従って選ぶ。
** <math>\sum_{\mathbf{x}\in X'}\nabla_{\theta,\phi}\tilde{\mathcal{L}}(\theta,\phi,\mathbf{x},({\boldsymbol \varepsilon}_\mathbf{x}^{(\ell)})_{\ell=1,\ldots,L})
</math>を使って{{Mvar|θ}}、<math>\phi</math>を更新
* {{Mvar|θ}}、<math>\phi</math>を出力

==変分オートエンコーダーの詳細==

すでに述べたように、変分オートエンコーダーの学習アルゴリズムは、<math>p_{\theta}(\mathbf{z})</math>、<math>p_{\theta}(\mathbf{x}|\mathbf{z})</math>、<math>q_{\phi}(\mathbf{x}|\mathbf{z})</math>からのサンプリングが(D1)、(D2)、(E1)に従ってできるケースにおいてオートエンコーディング変分ベイズアルゴリズムを実行するというものである。

従って変分オートエンコーダーの学習アルゴリズムを書きくだす上で必要となる作業は、(D1)、(D2)、(E1)に従っているケースにおいてオートエンコーディング変分ベイズアルゴリズムにおけるSGVB推定量が具体的にどのような形になるのかを調べるだけである。

===SGVB推定量の具体的な形===

本節では変分オートエンコーダーのケースにおいてSGVB推定量

: <math>\tilde{\mathcal{L}}(\theta,\phi,\mathbf{x},({\boldsymbol \varepsilon}^{(\ell)})_{\ell=1,\ldots,L}))
= {1\over L}\sum_{\ell=1}^L\log p_{\theta}(\mathbf{x}|g_{\phi}(\mathbf{x},{\boldsymbol \varepsilon}^{(\ell)}))-\mathrm{KL}(q_{\phi}(\mathbf{z}|\mathbf{x})\|p(\mathbf{z}))
</math>　　　...(L1、再掲)
の具体的な形を求める。

(P2)、(E1)、(D2)より、
: <math>({\boldsymbol \mu}_E,{\boldsymbol \sigma}_E^2) = E_{\phi}(\mathbf{x})</math>、<math>({\boldsymbol \mu}^{(\ell)}_D,({\boldsymbol \sigma}^{(\ell)}_D)^2) = D_{\theta}({\boldsymbol \mu}_E+{\boldsymbol \sigma}_E^2\odot{\boldsymbol \varepsilon}^{(\ell)})</math>
とすると、 <math>p_{\theta}(\mathbf{x}|g_{\phi}(\mathbf{x},{\boldsymbol \varepsilon}^{(\ell)}))</math>が正規分布<math>\mathcal{N}({\boldsymbol \mu}^{(\ell)}_D,({\boldsymbol \sigma}^{(\ell)}_D)^2I)</math>の確率密度関数であることから、
: <math>\log p_{\theta}(\mathbf{x}|g_{\phi}(\mathbf{x},{\boldsymbol \varepsilon}^{(\ell)}))
=-\frac{K}{2}\log 2\pi
-\frac{1}{2}\sum_{k=1}^K\left({(x_k-\mu^{(\ell)}_{D,k})^2\over (\sigma^{(\ell)}_{D,k})^2}-\log\sigma^{(\ell)}_{D,k}\right)
</math>　　
である。ここで{{mvar|K}}は{{mvar|'''x'''}}のデータ長であり、{{mvar|x{{sub|k}}}}、{{mvar|μ{{sup|(l)}}{{sub|D,k}}}}、{{mvar|σ{{sup|(l)}}{{sub|D,k}}}}はそれぞれ{{mvar|'''x'''}}、{{mvar|'''μ'''{{sup|(l)}}{{sub|D}}}}、{{mvar|'''σ'''{{sup|(l)}}{{sub|D}}}}の第{{mvar|k}}成分である。

一方、(L1)の第2項を具体的に計算すると以下のようになる<sup>[[#原論文]]</sup>{{rp|Appendix D}}：
:<math>\mathrm{KL}(q_{\phi}(\mathbf{x}|\mathbf{z})\|p(\mathbf{z}))
={1\over 2}\sum_{j=1}^J\left(1-\mu_{E,j}{}^2-\sigma_{E,j}{}^2+\log \sigma_{E,j}{}^2\right)</math>
ここで{{mvar|J}}は{{mvar|'''z'''}}のデータ長であり、{{mvar|μ{{sub|E,j}}}}、{{mvar|σ{{sub|E,j}}}}はそれぞれ{{mvar|'''μ'''{{sub|E}}}}、{{mvar|'''σ'''{{sub|E}}}}の第{{mvar|j}}成分である。


まとめると、
: <math>\tilde{\mathcal{L}}(\theta,\phi,\mathbf{x},({\boldsymbol \varepsilon}^{(\ell)})_{\ell=1,\ldots,L}))
= -\frac{K}{2}\log 2\pi-{1\over L}\sum_{\ell=1}^L\sum_{k=1}^K
\left({(x_k-\mu^{(\ell)}_{D,k})^2\over (\sigma^{(\ell)}_{D,k})^2}-\log\sigma^{(\ell)}_{D,k}\right)
-{1\over 2}\sum_{j=1}^J\left(1-\mu_{E,j}{}^2-\sigma_{E,j}{}^2+\log \sigma_{E,j}{}^2\right)
</math>　　　...(L2)
ここで、
: <math>({\boldsymbol \mu}_E,{\boldsymbol \sigma}_E^2)
 = ((\mu_{E,j})_{j=1,\ldots,J},((\sigma_{E,j})_{j=1,\ldots,J})
=E_{\phi}(\mathbf{x})</math>
: <math>({\boldsymbol \mu}^{(\ell)}_D,({\boldsymbol \sigma}^{(\ell)}_D)^2)
 = ((\mu^{(\ell)}_{D,j})_{j=1,\ldots,K},((\sigma^{(\ell)}_{D,j})_{j=1,\ldots,K})
 = D_{\theta}({\boldsymbol \mu}_E+{\boldsymbol \sigma}_E^2\odot{\boldsymbol \varepsilon}^{(\ell)})</math>

===アルゴリズム===
以上の結果から、変分オートエンコーダーは以下のようになる：

学習：
* オートエンコーディング変分ベイズアルゴリズムを実行。ただし<math>\mathcal{E}=\mathcal{N}(\mathbf{0},I)</math>とし、<math>\tilde{\mathcal{L}}</math>は(L2)のものを使う。

生成：
* 学習済みの<math>\phi</math>を入力として受けとる
* <math>\mathcal{N}(\mathbf{0},I)</math>に従って{{Mvar|'''z'''}}を選ぶ
* <math>({\boldsymbol \mu}_D,{\boldsymbol \sigma}_D^2) = D_{\phi}(\mathbf{z})</math>を計算する。
* <math>\mathcal{N}({\boldsymbol \mu}_D,{\boldsymbol \sigma}_D^2I)</math>に従って{{Mvar|'''x'''}}を選び、{{Mvar|'''x'''}}を出力する。

==参考文献==
* 原論文
**{{Cite web |date=2014-05-01
|url=https://arxiv.org/abs/1312.6114
|title=Auto-Encoding Variational Bayes
|format=PDF
|author=Diederik P Kingma
|coauthors=Max Welling
|accessdate=2020-02-01
|ref=原論文
|publisher=[[arXiv]]}}
* 関連論文
**{{Cite web |date=2014-10-31
|url=https://arxiv.org/abs/1406.5298
|title=Semi-Supervised Learning with Deep Generative Models
|format=PDF
|author=Diederik P. Kingma
|coauthors=Danilo J. Rezende, Shakir Mohamed, Max Welling
|accessdate=2020-02-01
|ref=CVAE
|publisher=[[arXiv]]}}
* 解説論文
**{{Cite web |date=2019-12-11
|url=https://arxiv.org/abs/1906.02691
|title=An Introduction to Variational Autoencoders
|format=PDF
|author=Diederik P. Kingma
|coauthors=Max Welling
|accessdate=2020-02-01
|ref=解説論文
|publisher=[[arXiv]]}}
**{{Cite web |date=2016/08/13
|url=https://arxiv.org/abs/1606.05908
|title=Tutorial on Variational Autoencoders
|format=PDF
|author=Carl Doersch
|accessdate=2020/02/27
|ref=解説論文
|publisher=[[arXiv]]}}

== 関連項目 ==
* [[オートエンコーダ]]

{{デフォルトソート:へんふんおーとえんこーたー}}
[[Category:人工ニューラルネットワーク]]
[[Category:教師なし学習]]