フィッシャー情報量

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:Unreferenced


フィッシャー情報量(フィッシャーじょうほうりょう、テンプレート:Lang-en-shortX(θ)は、統計学情報理論で登場する量で、確率変数X母数θに関して持つ「情報」の量を表す。統計学者ロナルド・フィッシャーに因んで名付けられた。

定義

θ母数とし、X確率密度関数f(x|θ)で表される確率変数とする。 このとき、θ尤度関数L(θ|x)

L(θ|x)=f(x|θ)

で定義され、スコア関数は対数尤度関数の微分

V(x;θ)=θlnL(θ|x)

により定義される。このとき、フィッシャー情報量X(θ)はスコア関数の2次のモーメント

X(θ)=E[V(x;θ)2|θ]=E[(θlnL(θ|x))2|θ]

により定義される。紛れがなければ添え字のXを省略し、(θ)とも表記する。なお、Xに関しては期待値が取られている為、フィッシャー情報量はXの従う確率密度関数f(x|θ)のみに依存して決まる。よってXYが同じ確率密度関数を持てば、それらのフィッシャー情報量は同一である。

スコア関数は

E[V(x;θ)|θ]=0

を満たす事が知られているので、

X(θ)=var(V(x;θ))

が成立する。ここで var分散を表す。

またlnf(x|θ)が二回微分可能で以下の標準化条件

2θ2f(X;θ)dx=0,

を満たすなら、フィッシャー情報量は以下のように書き換えることができる。

(θ)=E[2θ2lnf(X;θ)].

このとき、フィッシャー情報量は、f対数θについての2次の導関数にマイナスを付けたものになる。フィッシャー情報量は、θについての最尤推定量付近のサポート曲線の「鋭さ」としてもとらえることができる。例えば、「鈍い」(つまり、浅い最大値を持つ)サポート曲線は、2次の導関数として小さな値を持つため、フィッシャー情報量としても小さな値を持つことになるし、鋭いサポート曲線は、2次導関数として大きな値を持つため、フィッシャー情報量も大きな値になる。

フィッシャー情報行列

パラメータがN個の場合、つまり、θN次のベクトルθ=(θ1,θ2,,θN)Tであるとき、フィッシャー情報量は、以下で定義されるNxN 行列に拡張される。

(θ)=E[θlnf(X;θ)θTlnf(X;θ)].

これを、フィッシャー情報行列(FIM, Fisher information matrix)と呼ぶ。成分表示すれば、以下のようになる。

((θ))i,j=E[θilnf(X;θ)θjlnf(X;θ)].

フィッシャー情報行列は、NxN正定値対称行列であり、その成分は、N次のパラメータ空間からなるフィッシャー情報距離を定義する。

p個のパラメータによる尤度があるとき、フィッシャー情報行列のi番目の行と、j番目の列の要素がゼロであるなら、2つのパラメータ、θiθj直交である。パラメータが直交であるとき、最尤推定量が独立になり、別々に計算することができるため、扱いやすくなる。このため、研究者が何らかの研究上の問題を扱うとき、その問題に関わる確率密度が直交になるようにパラメーター化する方法を探すのに一定の時間を費やすのが普通である。

基本的性質

フィッシャー情報量は

0(θ)<

を満たす。

またXY独立な確率変数であれば、

X,Y(θ)=X(θ)+Y(θ) (フィッシャー情報量の加算性)

が成立する。すなわち、「(X,Y)θに関して持つ情報の量」は 「Xθに関して持つ情報の量」と 「Yθに関して持つ情報の量」の和である。

よって特に、無作為に取られたn個の標本が持つフィッシャー情報量は、1つの標本が持つフィッシャー情報量のn倍である(観察が独立である場合)。

Cramér–Raoの不等式

θの任意の不偏推定量θ^は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす:

var(θ^)1(θ)

この不等式の直観的意味を説明する為、両辺の逆数を取った上で確率変数Xへの依存関係を明示すると、

X(θ)1var(θ^(X))

となる。一般に推定量はその分散が小さいほど(よって分散の逆数が大きいほど)母数θに近い値を出しやすいので、「よい」推定量であると言える。θを「推定する」という行為は、「よい」推定量θ^(X)を使ってθを可能な限り復元する行為に他ならないが、上の不等式はXから算出されたどんな不偏推定量であってもXが元々持っている「情報」以上に「よい」推定量にはなりえない事を意味する。

十分統計量との関係

一般にT=t(X)統計量であるならば、

T(θ)X(θ)

が成立する。すなわち、「Xから計算される値T=t(X)が持っているθの情報」は「X自身が持っているθの情報」よりも大きくない。

上式で等号成立する必要十分条件はT十分統計量であること。 これはT(X)θに対して十分統計量であるならば、ある関数fおよびgが存在して

f(X;θ)=g(T(X),θ)h(X)

が成り立つ(ネイマン分解基準)事を使って証明できる。

カルバック・ライブラー情報量との関係

Xθを母数θ=(θ1,,θn)を持つ確率変数とすると、カルバック・ライブラー情報量 DKLとフィッシャー情報行列は以下の関係が成り立つ。

DKL(Xθ+hXθ)=th(θ)h2+o(|h|2)

すなわちフィッシャー情報行列はカルバック・ライブラー情報量をテイラー展開したときの2次の項として登場する。(0次、1次の項は0)。

具体例

ベルヌーイ分布

ベルヌーイ分布は、確率θ でもたらされる「成功」と、それ以外の場合に起きる「失敗」という2つの結果をもたらす確率変数が従う分布である(ベルヌーイ試行)。例えば、表が出る確率がθ、裏が出る確率が1 - θであるような、コインの投げ上げを考えれば良い。

n回の独立なベルヌーイ試行が含むフィッシャー情報量は、以下のようにして求められる。なお、以下の式中で、A は成功の回数、B は失敗の回数、n =A +B は試行の合計回数を示している。対数尤度関数の2階導関数は、

2θ2lnf(A;θ)=2θ2ln[θA(1θ)B(A+B)!A!B!]=2θ2[Aln(θ)+Bln(1θ)]=Aθ2B(1θ)2

であるから、

(θ)=E[2θ2ln(f(A;θ))]=nθθ2+n(1θ)(1θ)2

となる。但し、Aの期待値はn θB の期待値はn (1-θ )であることを用いた 。

つまり、最終的な結果は、

(θ)=nθ(1θ),

である。これは、n回のベルヌーイ試行の成功数の平均の分散の逆数に等しい。

ガンマ分布

形状パラメータα、尺度パラメータβのガンマ分布において、フィッシャー情報行列は

(α,β)=(ψ(α)1β1βαβ2)

で与えられる。但し、ψ(α)はディガンマ関数を表す。

正規分布

平均μ、分散σ2正規分布N(μ, σ2)において、フィッシャー情報行列は

(μ,σ2)=(1σ20012(σ2)2)

で与えられる。

多変量正規分布

N個の変数の多変量正規分布についてのフィッシャー情報行列は、特別な形式を持つ。

μ(θ)=(μ1(θ),μ2(θ),,μN(θ)),

であるとし、Σ(θ)μ(θ)共分散行列であるとするなら、

XN(μ(θ),Σ(θ))のフィッシャー情報行列、m,n(0;m,n<N)の成分は以下の式で与えられる。

m,n=μθmΣ1μθn+12tr(Σ1ΣθmΣ1Σθn),

ここで、(..)はベクトルの転置を示す記号であり、tr(..)は、平方行列のトレースを表す記号である。また、微分は以下のように定義される。

μθm=(μ1θm,μ2θm,,μNθm)
Σθm=(Σ1,1θmΣ1,2θmΣ1,NθmΣ2,1θmΣ2,2θmΣ2,NθmΣN,1θmΣN,2θmΣN,Nθm).

脚注


関連項目