逸脱度情報量規準

提供: testwiki
ナビゲーションに移動 検索に移動

逸脱度情報量規準(いつだつどじょうほうりょうきじゅん、テンプレート:Lang-en-short、略称: DIC)は、赤池情報量規準(AIC)の階層的モデリング一般化である。特に、統計モデル事後分布マルコフ連鎖モンテカルロ(MCMC)シミュレーションによって得られたベイズテンプレート:仮リンクにおいて有用である。DICは、AIC(赤池情報量基準)と同様に、テンプレート:仮リンクである。DICは、事後分布がおおよそ多変量正規分布である時にのみ有効である。

定義

テンプレート:仮リンクD(θ)=2log(p(y|θ))+Cと定義する。yはデータ、θはモデルの未知のパラメータ、p(y|θ)尤度関数である。Cは異なるモデルを比較する全ての計算で打ち消される定数であり、したがって知る必要はない。

モデルのパラメータの有効な数を計算するために一般的に使われる方法には2種類がある。1つ目の計算法[1]pD=D(θ)D(θ¯)θ¯θの期待値)である。2つ目[2]pD=pV=12var(D(θ))である。パラメータの有効な数が大きい程、モデルはデータを当て嵌めるのがより簡単になり、そのため逸脱度はペナルティーを科される必要がある。

逸脱度情報量規準は、

𝐷𝐼𝐶=pD+D(θ)

あるいは同等に

𝐷𝐼𝐶=D(θ¯)+2pD

として計算される。

この後者の形式から、AICとのつながりがよりはっきりと分かる。

動機

着想は、より小さなDICを持つモデルがより大きなDICを持つモデルよりも好まれるべきだ、というものである。モデルは、よい当て嵌めを好むD¯の値と、(AICと同様に)パラメータの有効な数pDの両方によってペナルティーを科される。D¯はモデル中のパラメータの数が増加するにつれて低下するため、pD項はより小さなパラメータ数を持つモデルを好むことによってこの影響を補償する。

ベイズモデル選択の場合における他の規準に対するDICの優位性は、DICがマルコフ連鎖モンテカルロシミュレーションによって生成されたサンプルから容易に計算される点である、AICはθの極大点での尤度の計算を必要とするが、これはMCMCシミュレーションから容易に得ることができない。しかしDICを計算するためには、単純にθのサンプルにわたるD(θ)の平均としてD¯を計算し、θのサンプルの平均で評価されたDの値としてD(θ¯)を計算する。次に、DICはこれらの近似値から直接得られる。Claeskens and Hjort (2008, Ch. 3.5) は、DICがAICの自然モデル-ロバスト版とテンプレート:仮リンクで同等であることを示している。

仮定

DICの導出において、未来の観察を生成する確率分布の特定のパラメータ付けられた族が真のモデルを包含することが仮定される。この仮定は常に適用できず、このシナリオにおいてモデル検証手続を考慮することが望ましい。

また、観察されたデータは事後分布を構築するためと、推定されたモデルを評価するための両方で使われる。したがって、DICは過剰適合したモデルを選択しがちである。

拡張

最近、上述した問題がテンプレート:Harvtxtによるベイズ予測情報量基準(Bayesian predictive information criterion; BPIC)で解決された。Ando (2010, Ch. 8) は様々なベイズモデル選択規準の議論を提供している。DICの過剰適合問題を避けるため、テンプレート:Harvtxt は予測の観点からベイズモデル選択規準を開発した。この規準は

𝐼𝐶=D¯+2pD=2𝐄θ[log(p(y|θ))]+2pD

として計算される。第一項はモデルがデータにいかに良く当て嵌まっているかの指標であるのに対して、第二項はモデルの複雑さへのペナルティーである。ここで留意すべきは、この式中のテンプレート:Mvarが上述した尤度よりはむしろ予測分布という点である。

出典

テンプレート:Reflist

参考文献

テンプレート:Refbegin

テンプレート:Refend

関連項目

外部リンク