フィッシャー情報量のソースを表示
←
フィッシャー情報量
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{unreferenced|date=2016年10月10日}} '''フィッシャー情報量'''(フィッシャーじょうほうりょう、{{lang-en-short|Fisher information }}) <math>\mathcal{I}_X(\theta)</math>は、[[統計学]]や[[情報理論]]で登場する量で、[[確率変数]]<math>X</math>が[[母数]]<math>\theta</math>に関して持つ「情報」の量を表す。[[統計学者]]の[[ロナルド・フィッシャー]]に因んで名付けられた。 ==定義== <math>\theta</math>を[[母数]]とし、<math>X</math>を[[確率密度関数]]が<math>f(x|\theta)</math>で表される[[確率変数]]とする。 このとき、<math>\theta</math>の'''[[尤度関数]]'''<math>L(\theta|x)</math>は :<math>L(\theta|x)=f(x|\theta)\,</math> で定義され、'''スコア関数'''は対数尤度関数の微分 :<math>V(x;\theta)=\frac{\partial}{\partial\theta} \ln L(\theta|x)</math> により定義される。このとき、'''フィッシャー情報量'''<math>\mathcal{I}_X(\theta)</math>はスコア関数の2次の[[モーメント (確率論)|モーメント]] : <math> \begin{align} \mathcal{I}_X(\theta) & =\mathrm{E}[V(x;\theta)^2|\theta] \\ & =\mathrm{E} \left[ \left. \biggl(\frac{\partial}{\partial\theta} \ln L(\theta|x) \biggr)^2 \right|\, \theta \right] \end{align} </math> により定義される。紛れがなければ添え字の<math>X</math>を省略し、<math>\mathcal{I}(\theta)</math>とも表記する。なお、<math>X</math>に関しては期待値が取られている為、フィッシャー情報量は<math>X</math>の従う確率密度関数<math>f(x|\theta)</math>のみに依存して決まる。よって<math>X</math>と<math>Y</math>が同じ確率密度関数を持てば、それらのフィッシャー情報量は同一である。 スコア関数は : <math>\mathrm{E}[V(x;\theta)|\theta]=0\,</math> を満たす事が知られているので、 :<math>\mathcal{I}_X(\theta)=\mathrm{var}(V(x;\theta))</math> が成立する。ここで <math>\mathrm{var}</math> は[[分散 (確率論)|分散]]を表す。 また<math>\ln f(x|\theta)</math>が二回微分可能で以下の標準化条件 :<math>\int \frac{\partial^2}{\partial \theta^2}f(X ; \theta ) \, dx=0,</math> を満たすなら、フィッシャー情報量は以下のように書き換えることができる。 :<math> \mathcal{I}(\theta) =- \mathrm{E} \left[ \frac{\partial^2}{\partial\theta^2} \ln f(X;\theta) \right]. </math> このとき、フィッシャー情報量は、<math>f</math> の[[対数]]の<math>\theta</math>についての2次の[[導関数]]にマイナスを付けたものになる。フィッシャー情報量は、<math>\theta</math>についての最尤推定量付近のサポート曲線の「鋭さ」としてもとらえることができる。例えば、「鈍い」(つまり、浅い最大値を持つ)サポート曲線は、2次の導関数として小さな値を持つため、フィッシャー情報量としても小さな値を持つことになるし、鋭いサポート曲線は、2次導関数として大きな値を持つため、フィッシャー情報量も大きな値になる。 == フィッシャー情報行列 == パラメータが''N''個の場合、つまり、<math>\mathbf{\theta}</math> が''N''次の[[列ベクトル|ベクトル]]<math>\theta = ( \theta_{1}, \theta_{2}, \cdots , \theta_{N} )^T</math>であるとき、フィッシャー情報量は、以下で定義される''N''x''N'' [[行列]]に拡張される。 :<math> \mathcal{I} (\mathbf{\theta} )= \mathrm{E} \left[ \frac{\partial}{\partial \mathbf{\theta}} \ln f(X;\theta) \frac{\partial}{\partial \mathbf{\theta}^T } \ln f(X;\theta) \right]. </math> これを、'''フィッシャー情報行列'''(FIM, Fisher information matrix)と呼ぶ。成分表示すれば、以下のようになる。 :<math> {\left(\mathcal{I} \left(\theta \right) \right)}_{i, j} = \mathrm{E} \left[ \frac{\partial}{\partial\theta_i} \ln f(X;\theta) \frac{\partial}{\partial\theta_j} \ln f(X;\theta) \right]. </math> フィッシャー情報行列は、''N''x''N'' の[[正定値]][[対称行列]]であり、その成分は、''N''次のパラメータ空間からなる[[フィッシャー情報距離]]を定義する。 <math>p</math>個のパラメータによる尤度があるとき、フィッシャー情報行列のi番目の行と、j番目の列の要素がゼロであるなら、2つのパラメータ、<math>\theta_{i}</math>と<math>\theta_{j}</math>は[[直交]]である。パラメータが直交であるとき、[[最尤推定量]]が独立になり、別々に計算することができるため、扱いやすくなる。このため、研究者が何らかの研究上の問題を扱うとき、その問題に関わる確率密度が直交になるようにパラメーター化する方法を探すのに一定の時間を費やすのが普通である。 ==基本的性質== フィッシャー情報量は :<math>0 \leq \mathcal{I}(\theta) < \infty\,</math> を満たす。 また<math>X</math>,<math>Y</math>が[[独立]]な確率変数であれば、 :<math> \mathcal{I}_{X,Y}(\theta) = \mathcal{I}_X(\theta) + \mathcal{I}_Y(\theta)</math> (フィッシャー情報量の加算性) が成立する。すなわち、「<math>(X,Y)</math>が<math>\theta</math>に関して持つ情報の量」は 「<math>X</math>が<math>\theta</math>に関して持つ情報の量」と 「<math>Y</math>が<math>\theta</math>に関して持つ情報の量」の和である。 よって特に、無作為に取られたn個の標本が持つフィッシャー情報量は、1つの標本が持つフィッシャー情報量のn倍である(観察が独立である場合)。 ===Cramér–Raoの不等式=== <math>\theta</math>の任意の[[不偏推定量]]<math>\hat{\theta}</math>は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす: : <math>\mathrm{var}(\hat{\theta})\ge \frac{1}{\mathcal{I}(\theta)}\,</math> この不等式の直観的意味を説明する為、両辺の逆数を取った上で確率変数<math>X</math>への依存関係を明示すると、 : <math>\mathcal{I}_X(\theta)\ge\frac{1}{\mathrm{var}(\hat{\theta}(X))}\,</math> となる。一般に推定量はその分散が小さいほど(よって分散の逆数が大きいほど)母数<math>\theta</math>に近い値を出しやすいので、「よい」推定量であると言える。<math>\theta</math>を「推定する」という行為は、「よい」推定量<math>\hat{\theta}(X)</math>を使って<math>\theta</math>を可能な限り復元する行為に他ならないが、上の不等式は<math>X</math>から算出されたどんな不偏推定量であっても<math>X</math>が元々持っている「情報」以上に「よい」推定量にはなりえない事を意味する。 ===十分統計量との関係=== 一般に<math>T =t(X)</math>が[[統計量]]であるならば、 :<math> \mathcal{I}_T(\theta) \leq \mathcal{I}_X(\theta) </math> が成立する。すなわち、「<math>X</math>から計算される値<math>T=t(X)</math>が持っている<math>\theta</math>の情報」は「<math>X</math>自身が持っている<math>\theta</math>の情報」よりも大きくない。 上式で等号成立する必要十分条件は<math>T</math>が[[十分統計量]]であること。 これは<math>T(X)</math>が <math>\theta</math>に対して十分統計量であるならば、ある関数<math>f</math>および<math>g</math>が存在して :<math> f(X;\theta) = g(T(X), \theta) h(X) </math> が成り立つ([[ネイマン分解基準]])事を使って証明できる。 ==カルバック・ライブラー情報量との関係== <math>X_\theta</math>を母数<math>\vec{\theta}=(\theta_1,\ldots,\theta_n)</math>を持つ確率変数とすると、[[カルバック・ライブラー情報量]] <math>D_{\mathrm{KL}}</math>とフィッシャー情報行列は以下の関係が成り立つ。 :<math>D_{\mathrm{KL}}(X_{\vec{\theta} + \vec{h}}\|X_{\vec{\theta}}) = \frac{{}^t\vec{h} \cdot \mathcal{I}(\vec{\theta})\cdot \vec{h}}{2} + o(|\vec{h}|^2)</math> すなわちフィッシャー情報行列はカルバック・ライブラー情報量を[[テイラー展開]]したときの2次の項として登場する。(0次、1次の項は0)。 ==具体例== ===ベルヌーイ分布=== [[ベルヌーイ分布]]は、確率θ でもたらされる「成功」と、それ以外の場合に起きる「失敗」という2つの結果をもたらす確率変数が従う分布である([[ベルヌーイ試行]])。例えば、表が出る確率がθ、裏が出る確率が1 - θであるような、コインの投げ上げを考えれば良い。 n回の独立なベルヌーイ試行が含むフィッシャー情報量は、以下のようにして求められる。なお、以下の式中で、''A'' は成功の回数、''B'' は失敗の回数、''n'' =''A'' +''B'' は試行の合計回数を示している。対数尤度関数の2階導関数は、 :<math> \begin{align} \frac{\partial^2}{\partial\theta^2} \ln{f(A;\theta)} & = \frac{\partial^2}{\partial\theta^2} \ln \left[ \theta^A(1-\theta)^B\frac{(A+B)!}{A!B!} \right] \\ & = \frac{\partial^2}{\partial\theta^2} \left[ A \ln (\theta) + B \ln(1-\theta) \right] \\ & = -\frac{A}{\theta^2} - \frac{B}{(1-\theta)^2} \end{align} </math> であるから、 :<math> \begin{align} \mathcal{I}(\theta) & = -\mathrm{E} \left[ \frac{\partial^2}{\partial\theta^2} \ln(f(A;\theta)) \right] \\ & = \frac{n\theta}{\theta^2} + \frac{n(1-\theta)}{(1-\theta)^2} \end{align} </math> となる。但し、''A''の期待値は''n θ''、''B'' の期待値は''n'' (1-''θ'' )であることを用いた 。 つまり、最終的な結果は、 :<math>\mathcal{I}(\theta) = \frac{n}{\theta(1-\theta)},</math> である。これは、n回のベルヌーイ試行の成功数の平均の分散の逆数に等しい。 === ガンマ分布 === 形状パラメータα、尺度パラメータβの[[ガンマ分布]]において、フィッシャー情報行列は :<math> \mathcal{I}(\alpha, \beta) = \begin{pmatrix} \psi'(\alpha) & \frac{1}{\beta} \\ \frac{1}{\beta} & \frac{\alpha}{\beta^2} \end{pmatrix} </math> で与えられる。但し、ψ(α)は[[ディガンマ関数]]を表す。 === 正規分布 === 平均μ、分散σ<sup>2</sup>の[[正規分布]]N(μ, σ<sup>2</sup>)において、フィッシャー情報行列は :<math> \mathcal{I}(\mu, \sigma^2) = \begin{pmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2(\sigma^2)^2} \end{pmatrix} </math> で与えられる。 === 多変量正規分布 === N個の変数の[[多変量正規分布]]についてのフィッシャー情報行列は、特別な形式を持つ。 :<math>\mu(\theta) = \begin{pmatrix} \mu_{1}(\theta), \mu_{2}(\theta), \cdots , \mu_{N}(\theta) \end{pmatrix},</math> であるとし、<math>\Sigma(\theta)</math>が<math>\mu(\theta)</math>の[[分散共分散行列|共分散行列]]であるとするなら、 <math>X</math>~<math>N(\mu(\theta), \Sigma(\theta))</math>のフィッシャー情報行列、<math>\mathcal{I}_{m,n} \, (0\le;m,n<N)</math>の成分は以下の式で与えられる。 :<math> \mathcal{I}_{m,n} = \frac{\partial \mu}{\partial \theta_m} \Sigma^{-1} \frac{\partial \mu^\top}{\partial \theta_n} + \frac{1}{2} \mathrm{tr} \left( \Sigma^{-1} \frac{\partial \Sigma}{\partial \theta_m} \Sigma^{-1} \frac{\partial \Sigma}{\partial \theta_n} \right), </math> ここで、<math>(..)^\top</math>はベクトルの[[転置行列|転置]]を示す記号であり、<math>\mathrm{tr}(..)</math>は、平方行列の[[跡 (線型代数学)|トレース]]を表す記号である。また、微分は以下のように定義される。 :<math> \frac{\partial \mu}{\partial \theta_m} =\begin{pmatrix} \frac{\partial \mu_1}{\partial \theta_m}, & \frac{\partial \mu_2}{\partial \theta_m}, & \cdots, & \frac{\partial \mu_N}{\partial \theta_m} \end{pmatrix} </math> :<math> \frac{\partial \Sigma}{\partial \theta_m} = \begin{pmatrix} \frac{\partial \Sigma_{1,1}}{\partial \theta_m} & \frac{\partial \Sigma_{1,2}}{\partial \theta_m} & \cdots & \frac{\partial \Sigma_{1,N}}{\partial \theta_m} \\ \\ \frac{\partial \Sigma_{2,1}}{\partial \theta_m} & \frac{\partial \Sigma_{2,2}}{\partial \theta_m} & \cdots & \frac{\partial \Sigma_{2,N}}{\partial \theta_m} \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \frac{\partial \Sigma_{N,1}}{\partial \theta_m} & \frac{\partial \Sigma_{N,2}}{\partial \theta_m} & \cdots & \frac{\partial \Sigma_{N,N}}{\partial \theta_m} \end{pmatrix}. </math> == 脚注 == <references/> ==関連項目== *[[情報理論]] *[[測度]] *[[情報量]] *[[情報エントロピー]] {{DEFAULTSORT:ふいつしやあしようほうりよう}} [[Category:情報理論]] [[Category:推定理論]] [[Category:ロナルド・フィッシャー]] [[Category:数学のエポニム]] [[Category:数学に関する記事]]
このページで使用されているテンプレート:
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Unreferenced
(
ソースを閲覧
)
フィッシャー情報量
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報