準ニュートン法

提供: testwiki
ナビゲーションに移動 検索に移動

準ニュートン法(じゅんニュートンほう、テンプレート:Lang-en-short)とは、非線形連立方程式の解、あるいは連続最適化問題関数極大・極小解を見つけるためのアルゴリズムである。準ニュートン法はニュートン法を元にしており、非線形連立方程式の解を求めることが基本になるが、最適化問題においては、関数の停留点を見つけるために、関数の勾配=0の連立方程式を解くという立場から考えることができる。以下は、主に最適化問題の立場からの説明である。

概要

通常のニュートン法は最適解の近傍が二次関数で近似できると仮定し、一階および二階の導関数を解の探索に用いる。高次元空間上で定義される関数に対しては、最小化(最大化)したい関数の勾配ベクトルおよびヘッセ行列を用いる。一方で、準ニュートン法ではヘッセ行列を陽に計算する必要がない。その代わりにヘッセ行列が最適化の繰り返し計算の過程で得られる勾配ベクトルにより近似される。準ニュートン法は多次元関数の零点 (関数の値が0となる場所) を探すアルゴリズムの一種であるセカント法(割線法)の一般化であると見ることも出来る。多次元の問題においてはセカント方程式は1次元の場合と違い一意に定まらず、劣決定問題となるが、準ニュートン法は近似の制約が異なっており、具体的には現在の推定ヘッセ行列を低ランク行列成分を用いて更新する。

最初の準ニュートン法のアルゴリズムは物理学者のW.C. Davidonがアルゴンヌ国立研究所で研究中に提案したものである。彼が1959年に提案した最初の準ニュートン法は、1963年にFletcherとPowellが世に広め、後にDFP法(Davidon-Fletcher-Powell法)とよばれるようになったが、1970年後半、より効率的なBFGS法の登場により、今日ではあまり用いられていない。現在最も用いられている準ニュートン法のアルゴリズムはSR1法(対称ランクワン法、symmetric rank-one)、BHHH法、そしてBFGS法(提案者であるBroyden, Fletcher, Goldfarb, Shannoの頭文字から)である。大規模問題に対応させる方法の一つとして記憶制限準ニュートン法が1980年に発表され[1]、BFGS法を記憶制限準ニュートン法にした物としてL-BFGS法があり[2]、良く用いられるアルゴリズムの1つである。

SR1法は行列の更新が行列の正定値性を保存しないため、不定値の行列のヘッセ行列に対しても用いることが出来る。またブロイデン法は行列が対称行列でなくとも良く、通常の連立方程式の解を求めるのにも使うことが出来る。

通常のニュートン法と比べたときの準ニュートン法の最大の利点はヘッセ行列の逆行列を計算する必要がない更新法があるという点である。ニュートン法や、それを部分的に用いる内点法のアルゴリズムはこのヘッセ行列の逆行列を計算する部分が計算のボトルネックとなることが多い。これに対して準ニュートン法はヘッセ行列の逆行列自体を直接近似できる。

手法の説明

ニュートン法と同様、関数 f(𝒙) の解を見つけるために二次の近似を用いる。f(𝒙) の二階のテイラー展開

f(𝒙k+Δ𝒙)f(𝒙k)+f(𝒙k)Δ𝒙+12Δ𝒙𝑩Δ𝒙

となる。この式で f は勾配を表し、𝑩 はヘッセ行列の近似を表す。勾配 f はさらに次のように近似される。

f(𝒙k+Δ𝒙)f(𝒙k)+𝑩Δ𝒙

この勾配が0になると仮定するとニュートン・ステップが次の式で計算される。

Δ𝒙=𝑩1f(𝒙k)

そこでヘッセ行列の近似𝑩は次の式を満たすように行われる。

f(𝒙k+Δ𝒙)=f(𝒙k)+𝑩Δ𝒙

この方程式はセカント方程式と呼ばれる。f が多次元空間上で定義される関数のとき、この式から 𝑩 を求める問題は劣決定問題になる(式の数よりも未知数の数が多い問題のこと)。このとき 𝑩 を求めて、ニュートン・ステップにより解を更新するという処理はセカント方程式を解くことに帰着される。多くの準ニュートン法はセカント方程式の解の選び方が異なっている。ほとんどの方法では 𝑩=𝑩 という対称性を仮定して解を求める。加えて、以下のリストに示す方法では新たな近似 𝑩k+1 を得るために、その前の近似 𝑩k と、あるノルムの意味において近い解を選ぼうとする。すなわち何らかの正定値行列 𝑽 に対して 𝑩k+1=argmin𝑩𝑩𝑩k𝑽 と成るように 𝑩 を更新する。近似ヘッセ行列の初期値としては単位行列などが用いられる[3]。最適化の解 𝒙k は近似によって得られた 𝑩k を用いたニュートン・ステップにより更新される。

アルゴリズムをまとめると以下のようになる。

  • Δ𝒙k=α𝑩k1f(𝒙k)
  • 𝒙k+1=𝒙k+Δ𝒙k
  • 新しい点での勾配 f(𝒙k+1) を計算し 𝒚k=f(𝒙k+1)f(𝒙k) とする
  • 𝒚k を用いてヘッセ行列の逆行列 𝑩k+11 を直接近似する。近似の式は各手法ごとに以下のリストの通り。
Method 𝑩k+1= 𝑯k+1=𝑩k+11=
DFP法 (𝑰𝒚kΔ𝒙k𝒚kΔ𝒙k)𝑩k(𝑰Δ𝒙k𝒚k𝒚kΔ𝒙k)+𝒚k𝒚k𝒚kΔ𝒙k 𝑯k+Δ𝒙kΔ𝒙k𝒚kTΔ𝒙k𝑯k𝒚k𝒚k𝑯k𝒚k𝑯k𝒚k
BFGS法 𝑩k+𝒚k𝒚k𝒚kΔ𝒙k𝑩kΔ𝒙k(𝑩kΔ𝒙k)Δ𝒙kT𝑩kΔ𝒙k (𝑰𝒚kΔ𝒙k𝒚kΔ𝒙k)𝑯k(𝑰𝒚kΔ𝒙k𝒚kΔ𝒙k)+Δ𝒙kΔ𝒙k𝒚kΔ𝒙k
ブロイデン法 𝑩k+𝒚k𝑩kΔ𝒙kΔ𝒙kΔ𝒙kΔ𝒙k 𝑯k+(Δ𝒙k𝑯k𝒚k)Δ𝒙k𝑯kΔ𝒙k𝑯k𝒚k
ブロイデン公式族 (1φk)𝑩k+1BFGS+φk𝑩k+1DFP,φ[0,1]
SR1法 𝑩k+(𝒚k𝑩kΔ𝒙k)(𝒚k𝑩kΔ𝒙k)(𝒚k𝑩kΔ𝒙k)Δ𝒙k 𝑯k+(Δ𝒙k𝑯k𝒚k)(Δ𝒙k𝑯k𝒚k)(Δ𝒙k𝑯k𝒚k)𝒚k

実装

準ニュートン法は現在、汎用的に用いられている最適化アルゴリズムの1つであり、多くのプログラミング言語による実装が存在する。

  • NAG数値計算ライブラリには準ニュートン法を用いた関数の最大化・最小化アルゴリズムが存在する。
  • PythonのライブラリであるSciPyでは scipy.optimize.minimize のデフォルトは BFGS である[4]
  • GNU Octaveは関数'funcmin'においてBFGS法を用いている。
  • MATLABのOptimization Toolboxにある関数fminuncでもBFGS法が実装されている。
  • MathematicaRにも一般的な関数の最適化法としてBFGS法が実装されている。

脚注

テンプレート:脚注ヘルプ テンプレート:Reflist

関連項目

テンプレート:最適化アルゴリズム