「マルコフ決定過程」の版間の差分

提供: testwiki
ナビゲーションに移動 検索に移動
imported>Ubnt-intrepid
価値関数: 独立したセクションに抽出
 
(相違点なし)

2024年9月25日 (水) 07:46時点における最新版

マルコフ決定過程(マルコフけっていかてい、テンプレート:Lang-en-short)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていたテンプレート:Sfnが、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因するテンプレート:Sfn。 MDP はロボット工学や自動制御、経済学製造業を含む幅広い分野で用いられている。

概要

3つの状態と2つの行動をもつ簡単な MDP の例

マルコフ決定過程は離散時間における確率制御過程 (stochastic control process) である。 各時刻において過程 (process) はある状態 (state) を取り、意思決定者 (decision maker) はその状態において利用可能な行動 (action) を任意に選択する。 その後過程はランダムに新しい状態へと遷移し、その際に意思決定者は状態遷移に対応した報酬 (reward) を受けとる。

遷移後の状態 s 、および得られる報酬の値 r は現在の状態 s と行動 a のみに依存し、sa が与えられたもとでそれより過去の状態および行動と条件付き独立となる。 言い換えると、マルコフ決定過程の状態遷移はマルコフ性を満たす。

マルコフ決定過程はマルコフ連鎖に(選択可能な)行動、および(行動を計画する動機を与える)報酬を追加し拡張したものであると解釈できる。 逆に言えば、各ステップにとる行動がそのステップにおける状態のみ依存するとき、マルコフ決定過程は等価なマルコフ連鎖に置き換えることが出来る。

定義

MDP は4つの要素の組 (S,A,T,R)で表される。ここで各要素はそれぞれ次を意味する。

  • S は状態の集合であり、状態空間 (state space) と呼ばれる。
  • A は行動の集合であり、行動空間 (action space) と呼ばれる。特に、ある特定の状態 sS で取ることの出来る行動の集合を AsA によって表記する。
  • T は遷移関数 (transition function) と呼ばれ、状態 sS において行動 aAs を取った場合における状態 sS への状態遷移確率を規定する実数値 T(s,a,s)[0,1] を割り当てる。
  • R は報酬関数 (reward function) と呼ばれ、状態 sS から sS に行動 aAs を伴い遷移することによって得られる即時報酬 (immediate reward) またはその期待値を表わす実数値 R(s,a,s) を規定する。

状態空間 S および行動空間 A は、有限集合の場合と(実数値すべての集合のような)無限集合の場合がある。特に SA がともに有限集合であるような MDP は有限マルコフ決定過程 (finite Markov decision process; finite MDP) と呼ばれる。状態空間が有限である場合においては、時刻 t における状態遷移確率は遷移関数によって Pr(st+1=sst=s,at=a)=T(s,a,s) と記述することが出来る。 (状態空間が有限でない)より一般的なケースにおいては、任意の可測集合 SS に対して状態遷移確率は Pr(st+1Sst=s,at=a)=sST(s,a,s)ds によって記述される。

問題設定

MDP における基本的な問題設定は、現在の状態が与えられたときに意思決定者の取る行動を既定する方策 (policy) を求めることである。 具体的には、方策とは MDP のある状態 sS に対して定められる写像であり、次のように意思決定者の行動を規定する。

  • 決定論的方策 (deterministic policy) : at=π(s)
  • 確率的方策 (stochastic policy) : Pr(at=ast=s)=π(s,a)

方策 π は、ある目的関数 (objective function) を最大化するようなものが選ばれる。 目的関数には、現在時刻から始まり十分時間が経過した後の時点における報酬の累積値が用いられる。 いま、時刻 τ において獲得する報酬を rτ と表記すると、累積報酬の実現値は rt+1++rt+H で求められる。ただし、H は評価区間である。 ここで rτ は確率変数であり、その実現値は MDP によって規定される状態遷移確率や方策に基づいて確率的に変動する。 したがって、実際の目的関数としては累積報酬の期待値である 𝔼π[τ=1Hrt+τst=s] が用いられる。 ただし、𝔼π[st=s] は方策 π のもとでの(条件付き)期待値を意味する。 このように有限の時間区間における累積報酬を評価する問題設定は有限時間区間 (finite horizon) と呼ばれる。

行動が連続的に継続されるなどの場合においては、時間区間 H を適切に設定することが困難となる。 そのような場合、無限時間区間 (infinite horizon) での問題設定が用いられる。 通常、期待値の収束性などの理由から有限時間区間における目的関数の H における極限を考えることは不可能であり、典型的には次のように時刻が進むにつれて「割引される」報酬の累積値 𝔼π[τ=0γτrt+τ+1st=s] が用いられる。 ここで γ[0,1] は割引率 (discount rate) と呼ばれる値であり、現在の報酬と未来の報酬との間における重要度の差異を表している。

価値関数

モデルのマルコフ性により、ある時刻における目的関数の値は方策 π を固定した下で状態 stS の関数とみなすことが出来る。 このような考えのもと、ある方策 π:S×A[0,1] に対して定義される Vπ(s)=𝔼π[τ=0γτrt+τ+1st=s]状態価値関数 (state-value function) と呼ぶ。 状態価値関数は、現在の状態 s からはじまり方策 π によって行動を決定することで得られる(割引された)累積報酬の値であると解釈できる。 この状態価値関数 Vπ(s) は、次の整合性条件を満たす。 Vπ(s)=aAπ(s,a)sST(s,a,s)(R(s,a,s)+γVπ(s))

任意の π および sS に対し Vπ*(s)Vπ(s) を満たす方策 π*最適方策 (optimal policy) と呼ぶ。 また、最適方策のもとでの状態価値関数 V*(s)=Vπ*(s) は特に最適状態価値関数 (optimal state-value function)と呼ばれる。 最適状態価値関数は、次のベルマン方程式を満たすテンプレート:SfnV*(s)=maxaAsST(s,a,s)(R(s,a,s)+γV*(s))

アルゴリズム

MDP は線形計画法または動的計画法で解くことができる。ここでは後者によるアプローチを示す.

価値反復法

価値反復法 (value iteration)テンプレート:Sfnは後ろ向き帰納法 (backward induction) とも呼ばれ、ベルマン方程式を満たす価値関数を繰り返し計算により求める。 ロイド・シャープレー が1953年に発表したテンプレート:仮リンクに関する論文テンプレート:Sfnには価値反復法の特殊な場合が含まれるが、このことが認知されたのは後になってからであるテンプレート:Sfn

ステップ iにおける価値関数の計算結果を Vi(s) と表記すると、価値反復法における更新式はつぎのように記述される: Vi+1(s)maxaAssST(s,a,s)(R(s,a,s)+γVi(s))sS

上式をすべての状態において値が収束するまで繰り返したときの値を V(s) とし、最適方策 π* を次式で求める。

π*(s)argmaxaAssST(s,a,s)(R(s,a,s)+γV(s))sS

方策反復法

方策反復法 (policy iteration)テンプレート:Sfnでは、方策固定の下で行われる価値関数の更新 (policy evaluation) と、価値関数固定のもとで行われる方策の更新 (policy improvement) を交互に行うことで最適方策を求める。

  1. 次の線形方程式を解き、価値関数を更新する
    Vπ(s)=aAπ(s,a)sST(s,a,s)(R(s,a,s)+γVπ(s))
  2. 方策を次式で更新する
    π(s)argmaxaAssST(s,a,s)(R(s,a,s)+γVπ(s))sS

これらの操作を π がすべての状態に対し変化しなくなるまで繰り返すことで、最適方策を得る。 方策反復法は離散値を取る方策の値が変化しなくなるという明確な終了条件を持つため有限時間でアルゴリズムが終了するという利点を持つ。

拡張と一般化

部分観測マルコフ決定過程

テンプレート:Seealso

MDP では方策 π(s) を計算する際に現在の状態 s が既知であることを仮定している。 実際には状態観測に不確実性が伴う場合などこの仮定が成り立たない場合が多く、このような場合の一般化として部分観測マルコフ決定過程 (Partially Observable Markov Decision Process; POMDP) が用いられる。

強化学習

テンプレート:Seealso 状態遷移確率 T(s,a,s) や報酬関数 R(s,a,s) が未知の場合,環境との相互作用を通じてこれらの情報を得ながら行動を決定する必要がしばしば生じる.このような問題は強化学習の枠組みで議論されるテンプレート:Sfn

強化学習における代表的な学習アルゴリズムはQ学習と呼ばれるものである。 Q学習では、行動価値関数 (action-value function) と呼ばれる関数 Qπ(s,a) に着目する。ここで Qπ(s,a) は次のように定義される: Qπ(s,a)=𝔼π[t=0γtrt+1|s0=s,a0=a]

いま,最適方策のもとでの行動価値関数 Q*(s,a)=maxπQπ(s,a)V*(s)=maxaQ*(s,a) を満たす。 すなわち、Q* を学習することができれば(モデルのパラメータを直接求めることなく)最適方策を獲得することができる。 Q学習では、各試行における遷移前後の状態と入力、および試行で得られる即時報酬の実現値をもとに Q(s,a) の値を逐次更新する。 実際の学習プロセスでは、すべての状態を十分サンプリングするため確率的なゆらぎを含むよう学習時の行動が選択される。

強化学習では最適化に必要なパラメータの学習を状態遷移確率・報酬関数を介することなくおこなうことが出来る(価値反復法や方策反復法ではそれらの明示的な仕様(各状態間の遷移可能性,報酬関数の関数形など)を与える必要がある)。 状態数(および行動の選択肢)が膨大な場合、強化学習はしばしばニューラルネットワークなどの関数近似と組み合わせられる。

学習オートマトン

機械学習理論における MDP のもう一つの応用は学習オートマトン (Learning Automata) と呼ばれる。 これは環境が確率的な挙動を示す場合における強化学習の一つでもある。 学習オートマトンに関する最初の詳細な論文は 1974 年に Narendra と Thathachar によりまとめられたテンプレート:Sfn(そこでは有限状態オートマトンと明示的に記載されている)。 強化学習と同様,学習オートマトンのアルゴリズムも確率や報酬が未知の場合の問題を解くことができる。 Q学習の違いは,価値関数ではく学習の結果を探すために行動の確率を直接求めることである。 学習オートマトンは収束性が解析学の要領で厳密に証明されているテンプレート:Sfn

制約付きマルコフ決定過程

制約付きマルコフ決定過程 (Constrained Markov Decision Process; CMDP) はマルコフ決定過程の拡張である。 MDP と CMDP には3つの基本的な違いがあるテンプレート:Sfn:

  • ある行動をほかのものの代わりに適用した後で(複数の)コストが発生する
  • CMDP は線形計画法のみで解くことが出来る(動的計画法を用いることはできない)
  • 終端時刻における方策が初期状態に依存する

CMDP の応用例は数多く存在し、最近ではロボット工学におけるモーションプランニングに用いられているテンプレート:Sfn

参考文献

テンプレート:Reflist hide テンプレート:Refbegin

テンプレート:Refend

外部リンク

関連項目

テンプレート:確率論 テンプレート:Computer-stub