平均場ゲーム理論

提供: testwiki
2024年2月22日 (木) 07:26時点におけるimported>Balelevel94による版
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

平均場ゲーム理論(へいきんばゲームりろん、Mean-field game theory)は、非常に大規模な集団における小さな相互作用エージェントによる戦略的意思決定の研究である。

解説

ゲーム理論と確率分析および制御理論の交差点にある。「平均場」という用語の使用は、個々の粒子がシステムに与える影響がごくわずかである多数の粒子のシステムの挙動を考慮する物理学の平均場理論に触発されている。言い換えると、各エージェントは、他のエージェントの決定を考慮して、最小化または最大化の問題に従って行動し、その母集団が多いため、エージェントの数は無限大へ向かうと仮定でき、代表的なエージェントが存在するとも仮定できる。[1]

伝統的なゲーム理論では、研究対象は通常、2人のプレイヤーと離散的な時間空間を持つゲームであり、帰納法によって結果をより複雑な状況に拡張する。ただし、連続状態を持つ連続時間のゲーム(差分ゲームまたは確率的差分ゲーム)の場合、動的相互作用が生成する複雑さのために、この戦略は使用できない。一方、MFGでは、平均代表エージェントを介して多数のプレーヤーを処理できると同時に、複雑な状態のダイナミクスを記述できる。

このクラスの問題は、ボヤン・ヨバノビッチとロバート・W・ローゼンタールによる経済学文献[2]、ミンイ・ファン、ローランド・マルハメ、ピーター・E・ケインズによる工学文献[3][4][5] 、そして数学者ジャン・ミッシェル・ラスリーと ピエール=ルイ・リオンによって独立してほぼ同時に検討された[6][7]


連続時間では、平均場ゲームは通常、個人の最適制御を記述するハミルトン–ヤコビ–ベルマン方程式と、エージェントの集合分布のダイナミクスを記述するフォッカー–プランク方程式で構成される。かなり一般的な仮定の下では、平均場ゲームのクラスが次のようにNプレイヤーのナッシュ均衡Nの極限であることを証明できる[8]


平均場ゲームに関連する概念は、「平均場型制御」である。この場合、ソーシャルプランナーは状態の分布を制御し、制御戦略を選択する。平均場型制御問題の解は、通常、コルモゴロフ方程式と結合した二重随伴ハミルトン-ヤコビ-ベルマン方程式として表すことができる。平均場型ゲーム理論は、単一エージェント平均場型制御のマルチエージェント一般化である[9]

平均場ゲームの一般形式

次の連立方程式を使用して[10] 、典型的な平均場ゲームをモデル化できる。

{tuνΔu+H(x,m,Du)=0(1)tmνΔmdiv(DpH(x,m,Du)m)=0(2)m(0)=m0(3)u(x,T)=G(x,m(T))(4)

この一連の方程式の基本的なダイナミクスは、平均的なエージェントの最適制御問題によって説明できる。平均場ゲームでは、平均的なエージェントは、次の方法で移動αを制御して、母集団の全体的な位置に影響を与えることができる。


dXt=αtdt+2νBt

ν はパラメータであり、 Bt は標準ブラウン運動。 エージェントの動きを制御することにより、エージェントは、期間[0,T]を通じて全体的な予想コストC を最小限に抑えることを目指している。

C=𝔼[0TL(Xs,αs,m(s))ds+G(XT,m(T))]

L(Xs,αs,m(s)) は時間sにおけるランニングコストで G(XT,m(T))は時間Tにおけるターミナルコスト。定義により、時間tと位置xについて、 価値関数u(t,x)は以下のように決定できる。

u(t,x)=infα𝔼[tTL(Xs,αs,m(s))ds+G(XT,m(T))]

価値関数 u(t,x)の定義が与えられると、ハミルトン-ヤコビ方程式 (1) で追跡できる。平均的なプレーヤーの最適なアクションα*(x,t) は として求めることができる。すべてのエージェントは比較的小さく、集団のダイナミクスを単独で変更することはできないので、それらは個別に最適な制御を適応させ、人口はそのように移動する。これは、すべてのエージェントが他の特定の戦略のセットに応じて行動するナッシュ均衡に似ている。最適制御解は、コルモゴロフ-フォッカー-プランク方程式(2)につながる。

有限状態ゲーム

平均場の顕著なカテゴリは、有限数の状態と有限数のプレイヤーあたりのアクションを持つゲームである。これらのゲームでは、ハミルトン-ヤコビ-ベルマン方程式の類似物はベルマン方程式であり、フォッカー-プランク方程式の離散バージョンはコルモゴロフ方程式である。具体的には、離散時間モデルの場合、プレイヤーの戦略はコルモゴロフ方程式の確率行列である。連続時間モデルでは、プレイヤーは遷移率行列を制御することができる。

離散平均場ゲームはタプル 𝒢=(,𝒜,{Qa},𝐦0,{ca},β),で定義でき、 は状態空間、 𝒜 は作用集合、Qa は遷移速度行列、𝐦0は初期状態、{ca}はコスト関数、 β は割引係数である。さらに、混合戦略は測定可能な関数π:𝔼×+𝒫(𝒜), これは各状態 it0 ごとに可能なアクションのセットに対する確率測度 πi(t)𝒫(𝒜) に関連付ける。したがって、πi,a(t)は、時間tにおいて、状態i のプレイヤーが戦略の下で行動aをとる確率である。さらに、レート行列 {Qa(𝐦π(t))}a𝒜 は母集団分布の経時的な進化を定義し、ここで 𝐦π(t)𝒫()は時刻 tにおける母集団分布である[11]

線形二次ガウスゲーム問題

Caines(2009)から、大規模ゲームの比較的単純なモデルは線形二次ガウスモデルである。個々のエージェントのダイナミクスは、確率微分方程式としてモデル化される。dXi=(aiXi+biui)dt+σidWi,i=1,,N,Xii番目のエージェントの状態で, uii番目のエージェントの制御, Wiは 独立のi=1,,Nに対するウィーナー過程である。 個々のエージェントのコストは、Ji(ui,ν)=𝔼{0eρt[(Xiν)2+rui2]dt},ν=Φ(1NkiNXk+η).エージェント間の結合はコスト関数で発生する。

一般および応用用途

平均場ゲームのパラダイムは、分散意思決定と確率的モデリングの間の主要なつながりとなっている。確率的制御の文献から始まり、次のようなさまざまなアプリケーションで急速に採用されている。

金融市場。Carmonaは、MFGパラダイムの枠組みの中でキャストして取り組むことができる金融工学と経済学のアプリケーションをレビューしている[12] 。カルモナは、マクロ経済学、契約理論、金融などのモデルは、より伝統的な離散時間モデルから連続時間への切り替えから大きな恩恵を受けると主張している。彼はレビューの章で、システミックリスク、価格への影響、最適な執行、銀行経営のモデル、高頻度取引、暗号通貨など、連続時間モデルのみを検討している。


群衆の動き。MFGは、個人が特定のコストに関して戦略とパスを最適化しようとする賢いプレーヤーであることを前提としている(合理的期待アプローチとの均衡)。MFGモデルは、予測現象を記述するのに役立つ:前方部分は群衆の進化を記述し、後方部分は予測がどのように構築されるかのプロセスを提供する。さらに、マルチエージェントの微視的モデル計算と比較して、MFGは巨視的シミュレーションの計算コストが低くて済む。一部の研究者は、人口間の相互作用をモデル化し、2つの歩行者グループ間の嫌悪感と渋滞行動[13]、朝の通勤者の出発時間の選択[14]、自動運転車の意思決定プロセスなど[15]、インテリジェントエージェントの意思決定プロセスを研究するためにMFGに目を向けた。


エピデミックの制御と緩和。流行は社会と個人に大きな影響を与えているため、MFGと平均場制御(MFC)は、特にCovid-19パンデミック対応のコンテキストで、根底にある人口動態を研究および理解するための視点を提供する。MFGは、空間効果でSIRタイプのダイナミクスを拡張したり、個人が自分の行動を選択し、病気の蔓延への寄与を制御できるようにするために使用されている。MFCは、空間領域内でのウイルスの拡散を制御し、社会的相互作用を制限する個人の決定を制御し、政府の非医薬品介入をサポートするための最適な戦略を設計するために適用される。[16][17] [18]

出典

テンプレート:Reflist

外部リンク

テンプレート:ゲーム理論