平均場ゲーム理論
平均場ゲーム理論(へいきんばゲームりろん、Mean-field game theory)は、非常に大規模な集団における小さな相互作用エージェントによる戦略的意思決定の研究である。
解説
ゲーム理論と確率分析および制御理論の交差点にある。「平均場」という用語の使用は、個々の粒子がシステムに与える影響がごくわずかである多数の粒子のシステムの挙動を考慮する物理学の平均場理論に触発されている。言い換えると、各エージェントは、他のエージェントの決定を考慮して、最小化または最大化の問題に従って行動し、その母集団が多いため、エージェントの数は無限大へ向かうと仮定でき、代表的なエージェントが存在するとも仮定できる。[1]
伝統的なゲーム理論では、研究対象は通常、2人のプレイヤーと離散的な時間空間を持つゲームであり、帰納法によって結果をより複雑な状況に拡張する。ただし、連続状態を持つ連続時間のゲーム(差分ゲームまたは確率的差分ゲーム)の場合、動的相互作用が生成する複雑さのために、この戦略は使用できない。一方、MFGでは、平均代表エージェントを介して多数のプレーヤーを処理できると同時に、複雑な状態のダイナミクスを記述できる。
このクラスの問題は、ボヤン・ヨバノビッチとロバート・W・ローゼンタールによる経済学文献[2]、ミンイ・ファン、ローランド・マルハメ、ピーター・E・ケインズによる工学文献[3][4][5] 、そして数学者ジャン・ミッシェル・ラスリーと ピエール=ルイ・リオンによって独立してほぼ同時に検討された[6][7]。
連続時間では、平均場ゲームは通常、個人の最適制御を記述するハミルトン–ヤコビ–ベルマン方程式と、エージェントの集合分布のダイナミクスを記述するフォッカー–プランク方程式で構成される。かなり一般的な仮定の下では、平均場ゲームのクラスが次のようにNプレイヤーのナッシュ均衡のの極限であることを証明できる[8]。
平均場ゲームに関連する概念は、「平均場型制御」である。この場合、ソーシャルプランナーは状態の分布を制御し、制御戦略を選択する。平均場型制御問題の解は、通常、コルモゴロフ方程式と結合した二重随伴ハミルトン-ヤコビ-ベルマン方程式として表すことができる。平均場型ゲーム理論は、単一エージェント平均場型制御のマルチエージェント一般化である[9]。
平均場ゲームの一般形式
次の連立方程式を使用して[10] 、典型的な平均場ゲームをモデル化できる。
この一連の方程式の基本的なダイナミクスは、平均的なエージェントの最適制御問題によって説明できる。平均場ゲームでは、平均的なエージェントは、次の方法で移動αを制御して、母集団の全体的な位置に影響を与えることができる。
はパラメータであり、 は標準ブラウン運動。 エージェントの動きを制御することにより、エージェントは、期間を通じて全体的な予想コスト を最小限に抑えることを目指している。
は時間におけるランニングコストで は時間におけるターミナルコスト。定義により、時間と位置について、 価値関数は以下のように決定できる。
価値関数 の定義が与えられると、ハミルトン-ヤコビ方程式 (1) で追跡できる。平均的なプレーヤーの最適なアクション は として求めることができる。すべてのエージェントは比較的小さく、集団のダイナミクスを単独で変更することはできないので、それらは個別に最適な制御を適応させ、人口はそのように移動する。これは、すべてのエージェントが他の特定の戦略のセットに応じて行動するナッシュ均衡に似ている。最適制御解は、コルモゴロフ-フォッカー-プランク方程式(2)につながる。
有限状態ゲーム
平均場の顕著なカテゴリは、有限数の状態と有限数のプレイヤーあたりのアクションを持つゲームである。これらのゲームでは、ハミルトン-ヤコビ-ベルマン方程式の類似物はベルマン方程式であり、フォッカー-プランク方程式の離散バージョンはコルモゴロフ方程式である。具体的には、離散時間モデルの場合、プレイヤーの戦略はコルモゴロフ方程式の確率行列である。連続時間モデルでは、プレイヤーは遷移率行列を制御することができる。
離散平均場ゲームはタプル ,で定義でき、 は状態空間、 は作用集合、 は遷移速度行列、は初期状態、はコスト関数、 は割引係数である。さらに、混合戦略は測定可能な関数, これは各状態 と ごとに可能なアクションのセットに対する確率測度 に関連付ける。したがって、は、時間において、状態 のプレイヤーが戦略の下で行動をとる確率である。さらに、レート行列 は母集団分布の経時的な進化を定義し、ここで は時刻 における母集団分布である[11]。
線形二次ガウスゲーム問題
Caines(2009)から、大規模ゲームの比較的単純なモデルは線形二次ガウスモデルである。個々のエージェントのダイナミクスは、確率微分方程式としてモデル化される。は番目のエージェントの状態で, は番目のエージェントの制御, は 独立のに対するウィーナー過程である。 個々のエージェントのコストは、エージェント間の結合はコスト関数で発生する。
一般および応用用途
平均場ゲームのパラダイムは、分散意思決定と確率的モデリングの間の主要なつながりとなっている。確率的制御の文献から始まり、次のようなさまざまなアプリケーションで急速に採用されている。
金融市場。Carmonaは、MFGパラダイムの枠組みの中でキャストして取り組むことができる金融工学と経済学のアプリケーションをレビューしている[12] 。カルモナは、マクロ経済学、契約理論、金融などのモデルは、より伝統的な離散時間モデルから連続時間への切り替えから大きな恩恵を受けると主張している。彼はレビューの章で、システミックリスク、価格への影響、最適な執行、銀行経営のモデル、高頻度取引、暗号通貨など、連続時間モデルのみを検討している。
群衆の動き。MFGは、個人が特定のコストに関して戦略とパスを最適化しようとする賢いプレーヤーであることを前提としている(合理的期待アプローチとの均衡)。MFGモデルは、予測現象を記述するのに役立つ:前方部分は群衆の進化を記述し、後方部分は予測がどのように構築されるかのプロセスを提供する。さらに、マルチエージェントの微視的モデル計算と比較して、MFGは巨視的シミュレーションの計算コストが低くて済む。一部の研究者は、人口間の相互作用をモデル化し、2つの歩行者グループ間の嫌悪感と渋滞行動[13]、朝の通勤者の出発時間の選択[14]、自動運転車の意思決定プロセスなど[15]、インテリジェントエージェントの意思決定プロセスを研究するためにMFGに目を向けた。
エピデミックの制御と緩和。流行は社会と個人に大きな影響を与えているため、MFGと平均場制御(MFC)は、特にCovid-19パンデミック対応のコンテキストで、根底にある人口動態を研究および理解するための視点を提供する。MFGは、空間効果でSIRタイプのダイナミクスを拡張したり、個人が自分の行動を選択し、病気の蔓延への寄与を制御できるようにするために使用されている。MFCは、空間領域内でのウイルスの拡散を制御し、社会的相互作用を制限する個人の決定を制御し、政府の非医薬品介入をサポートするための最適な戦略を設計するために適用される。[16][17] [18]
出典
外部リンク
- Mean Field Stochastic Control (Slides), 2009 IEEE Control Systems Society Bode Prize Lecture by Peter E. Caines
- テンプレート:Cite book
- Notes on Mean Field Games, from Pierre-Louis Lions' lectures at Collège de France
- テンプレート:In lang Video lectures by Pierre-Louis Lions
- Mean field games and applications by Olivier Guéant, Jean-Michel Lasry, and Pierre-Louis Lions
- ↑ テンプレート:Cite arXiv
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite bookテンプレート:要ページ番号
- ↑ テンプレート:Cite book
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite arXiv
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite arXiv
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal