バックプロパゲーション

テンプレート:Pathnav テンプレート:Machine learning bar バックプロパゲーション（テンプレート:Lang-en-short）または誤差逆伝播法（ごさぎゃくでんぱほう）^[1]はニューラルネットワークの学習アルゴリズムである^[2]。

概要

バックプロパゲーションは数理モデルであるニューラルネットワークの重みを層の数に関わらず更新できる（学習できる）アルゴリズムである。ディープラーニングの主な学習手法として利用される。

そのアルゴリズムは次の通りである：

ニューラルネットワークに学習のためのサンプルを与える。
ネットワークの出力を求め、出力層における誤差を求める。その誤差を用い、各出力ニューロンについて誤差を計算する。
個々のニューロンの期待される出力値と倍率 (scaling factor)、要求された出力と実際の出力の差を計算する。これを局所誤差と言う。
各ニューロンの重みを局所誤差が小さくなるよう調整する。
より大きな重みで接続された前段のニューロンに対して、局所誤差の責任があると判定する。
そのように判定された前段のニューロンのさらに前段のニューロン群について同様の処理を行う。

アルゴリズム名が示唆するように、エラー（および学習）は出力ノードより前方のノードへと伝播する。技術的に言えば、バックプロパゲーションはネットワーク上の変更可能な重みについて、誤差の傾斜を計算するものである^[3]。この傾斜はほとんどの場合、誤差を最小にする単純なアルゴリズムである確率的最急降下法で使われる。「バックプロパゲーション」という用語はより一般的な意味でも使われ、傾斜を求める手順と確率的最急降下法も含めた全体を示す。バックプロパゲーションは通常すばやく収束して、対象ネットワークの誤差の局所解(区間を限定したときの極小値、極値参照)を探し出す。人工ニューロン(または「ノード」)で使われる活性化関数は可微分でなければならない。また、ガウス・ニュートン法とも密接に関連する。

バックプロパゲーションのアルゴリズムは何度か再発見されており、逆積算モードにおける自動微分という汎用技法の特殊ケースと見ることもできる。

数理最適化問題の一種であるため、バッチ学習・オンライン学習のいずれかが採用される。典型的には確率的勾配降下法を用いたミニバッチ学習が行われる。

目的

ネットワーク $\hat{y} = f (x; w)$ に対する誤差関数 $E (\hat{y}, y)$ を定義したとき、現在の重み $w_{k} = a_{n o w}$ における $E$ の傾きすなわち偏微分値 ${\frac{\partial E}{\partial w_{k}} |}_{w_{k} = a_{n o w}}$ がわかれば、最適化手法である勾配法を用いて誤差 $E$ が小さくなるように $w_{k}$ を更新（=学習）できる。学習アルゴリズムであるバックプロパゲーションの目的はこの勾配値を得て重みを学習することである。膨大数の偏微分値を自動微分により高速計算することで、極めて多次元の最適化計算の実用的な高速化が可能となる。

テクニック

バックプロパゲーションを用いて（深層）ニューラルネットワークモデルを素早く・最適解へ収束させるために様々なテクニックが提唱されている。

標準的なテクニックをヤン・ルカンらが1998年にまとめていて^[4]、2010年に Xavier Glorot らが追証・発展させている^[5]。以下に要約する。詳細はそれぞれの論文を参照。

オンライン学習において訓練データが一周したら毎回シャッフルし直す
入力は、平均を0にし、主成分分析により線形相関を取り除き、分散が1になるように線形変換する。面倒だったら主成分分析は省略しても良い。
目標値（出力）は活性化関数を通す場合は、二次導関数が最大になる範囲内を使用するべきである。 $1.7159 \tanh (2 x / 3)$ の場合は −1〜1 で、tanh(x) の場合は $- 0.5 \cosh^{- 1} (2)$ 〜 $0.5 \cosh^{- 1} (2)$ = −0.65848 〜 0.65848 である。
初期値: 各層で平均0分散1、かつ連続一様分布^[6]
- 入力ベース: $U (- \sqrt{3 / {fan}_{in}}, \sqrt{3 / {fan}_{in}})$ by ヤン・ルカン
- 入出力ベース: $U (- \sqrt{6 / {fan}_{in} + {fan}_{out}}, \sqrt{6 / {fan}_{in} + {fan}_{out}})$ by Xavier Glorot
勾配法: 様々なパラメータ更新法が提案され利用されている（確率的勾配降下法#変種を参考）。
活性化関数
- 原点を通過すなわち f(0)=0
  - 例: $\tanh (x)$ 、 $\frac{x}{1 + | x |}$ ^[5]、逆に標準シグモイド関数は f(0) = 0.5 のため不適切
- 入出力範囲 f(±1)=±1^[7]
  - 例: $1.7159 \tanh (2 x / 3)$
- ReLU（ランプ関数、アナログ閾素子（テンプレート:Lang-en-short）^[8]）: 経験的に良い性能^[9]^[10]

高速化

GPU

行列の掛け算はGPGPUが得意としており、高速に計算できる。PythonではTheanoなどのライブラリおよびそれを間接的に使用してる機械学習のライブラリなどがある。

CPUによる並列化

CPUのメニーコアやSIMDを有効活用する簡単な方法は行列演算ライブラリを使用する方法である。行列演算ライブラリとしては、例えばインテルのCPU向けではIntel Math Kernel Libraryなどがある。

バックプロパゲーションは完了までに非常に時間のかかる反復処理である。マルチコアのコンピュータでマルチスレッド技法を使えば、収斂までにかかる時間を大幅に短縮することができる。バッチ学習を行う場合、マルチスレッドでバックプロパゲーションのアルゴリズムを実行するのが比較的簡単である。

訓練データをそれぞれのスレッド毎に同程度の大きさに分割して割り当てる。それぞれのスレッドで順方向と逆方向のプロパゲーションを行う。重みとしきい値のデルタをスレッド毎に合計していく。反復の周回毎に全スレッドを一時停止させて、重みとしきい値のデルタを合計し、ニューラルネットワークに適用する。これを反復毎に繰り返す。このようなバックプロパゲーションのマルチスレッド技法がEncog Neural Network Frameworkで使われている^[11]。

歴史

バックプロパゲーションに相当（連鎖律+勾配法）するニューラルネットワーク学習手法は何度も再発見されてきた。

1960年, テンプレート:仮リンク & マーシャン・ホフ. ^[12]^[13]: Widrow-Hoff法（デルタルール）、隠れ層のない2層のニューラルネットワークでの出力誤差からの確率的勾配降下法
1967年, 甘利俊一^[14]^[15]: 隠れ層のある3層のニューラルネットワーク
1969年, テンプレート:仮リンク& テンプレート:仮リンク^[16]^[17]: 多段動的システム最適化手法として提案
1974年, テンプレート:仮リンク^[18]: ニューラルネットワークにおける応用を示唆
1986年, デビッド・ラメルハート、ジェフリー・ヒントン、テンプレート:仮リンク^[19]^[20]: backwards propagation of errors（後方への誤差伝播）の略からバックプロパゲーションの名で再発明、以後定着

21世紀におけるディープラーニング（4層以上）ではバックプロパゲーションが学習法として多く用いられる。

限界

損失超平面が極小値 (テンプレート:Lang-en-short) を持ちうるため、勾配降下で広域最適解 (テンプレート:Lang-en-short) に収束する保証がない (Remelhart, 1986^[21])
一カ所でも勾配消失を起こすとそれより下層は学習が進まなくなるため、層数が増えるほど勾配消失を起こす確率が増大していく
勾配が0に近い部分が存在する活性化関数を使っていると勾配消失を起こしやすい
テンプレート:要出典範囲
テンプレート:要出典範囲

脚注

テンプレート:Reflist

外部リンク

テンプレート:Normdaten

↑ 逆誤差伝搬法（ぎゃくごさでんぱんほう）と呼ばれることもあるが，電波伝播に対する電波伝搬と同じく誤読に起因する誤字である。
↑ "We describe a new learning procedure, back-propagation, for networks of neurone-like units." p.533 of Rumelhart (1986)
↑ Paul J. Werbos (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc.
↑ テンプレート:Cite journal
↑ ^5.0 ^5.1 テンプレート:Cite journal
↑ Multilayer Perceptron — DeepLearning 0.1 documentation
↑ ヤン・ルカンらによる
↑ テンプレート:Cite book
↑ テンプレート:Cite journal
↑ テンプレート:Cite journal
↑ J. Heaton http://www.heatonresearch.com/encog/mprop/compare.html Applying Multithreading to Resilient Propagation and Backpropagation
↑ テンプレート:Cite journal
↑ テンプレート:Cite journal
↑ テンプレート:Cite journal
↑ テンプレート:Cite journal
↑ テンプレート:Cite book
↑ テンプレート:Cite book
↑ Paul J. Werbos. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Harvard University, 1974
↑ テンプレート:Cite book
↑ テンプレート:Cite journal
↑ "The most obvious drawback of the learning procedure is that the error-surface may contain local minima so that gradient descent is not guaranteed to find a global minimum." p.536 of Rumelhart, et al. (1986). Learning representations by back-propagating errors. Nature.

[1] 逆誤差伝搬法（ぎゃくごさでんぱんほう）と呼ばれることもあるが，電波伝播に対する電波伝搬と同じく誤読に起因する誤字である。

[2] "We describe a new learning procedure, back-propagation, for networks of neurone-like units." p.533 of Rumelhart (1986)

[3] Paul J. Werbos (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc.

[4] テンプレート:Cite journal

[Glorot2010-5] 5.0 ^5.1 テンプレート:Cite journal

[deep_tutorial-6] Multilayer Perceptron — DeepLearning 0.1 documentation

[7] ヤン・ルカンらによる

[8] テンプレート:Cite book

[9] テンプレート:Cite journal

[nature201505-10] テンプレート:Cite journal

[MultiProp-11] J. Heaton http://www.heatonresearch.com/encog/mprop/compare.html Applying Multithreading to Resilient Propagation and Backpropagation

[12] テンプレート:Cite journal

[13] テンプレート:Cite journal

[14] テンプレート:Cite journal

[15] テンプレート:Cite journal

[16] テンプレート:Cite book

[17] テンプレート:Cite book

[18] Paul J. Werbos. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Harvard University, 1974

[Alpaydin2010-19] テンプレート:Cite book

[Rumelhart1986-20] テンプレート:Cite journal

[21] "The most obvious drawback of the learning procedure is that the error-surface may contain local minima so that gradient descent is not guaranteed to find a global minimum." p.536 of Rumelhart, et al. (1986). Learning representations by back-propagating errors. Nature.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

バックプロパゲーション

目次

概要

目的

テクニック

高速化

GPU

CPUによる並列化

歴史

限界

脚注

関連項目

外部リンク

ナビゲーションメニュー

バックプロパゲーション

概要

目的

テクニック

高速化

GPU

CPUによる並列化

歴史

限界

脚注

関連項目

外部リンク

ナビゲーション メニュー

検索

ナビゲーションメニュー