相互情報量

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:情報理論 相互情報量(そうごじょうほうりょう、テンプレート:Lang-en-short)または伝達情報量(でんたつじょうほうりょう、テンプレート:Lang-en-short)は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表すである。最も典型的な相互情報量の物理単位ビットであり、2 を底とする対数が使われることが多い。

定義

形式的には、2つの離散確率変数 XY の相互情報量は以下で定義される。

I(X;Y)=y𝒴x𝒳p(x,y)logp(x,y)p(x)p(y),

ここで、p(x,y)XY同時分布関数、p(x)p(y) はそれぞれ XY周辺確率分布関数である。

連続確率変数の場合、総和の代わりに定積分を用いる。

I(X;Y)=𝒴𝒳p(x,y)logp(x,y)p(x)p(y)dxdy,

ここで、p(x,y)XY の同時分布密度関数であり、p(x)p(y) はそれぞれ XY の周辺確率密度関数である。

どちらの場合でも相互情報量は負とならず(I(X;Y)0)、対称性がある(I(X;Y)=I(Y;X))。

これらの定義は対数の底が明示されていない。離散確率変数の場合、最も一般的な相互情報量の尺度はビットであるため、底として 2 を指定することが多い。一方、連続確率変数の場合、ネイピア数e=2.718..をとることが多い。

直観的には、相互情報量は XY が共有する情報量の尺度であり、一方の変数を知ることでもう一方をどれだけ推測できるようになるかを示す。例えば、XY が独立であれば、X をいくら知っても Y に関する情報は得られないし、逆も同様である。このとき、相互情報量はゼロである。逆に、XY が同じであれば、XY は全情報を共有しているという事ができ、X を知れば Y も知ることになり、逆も同様である。結果として、相互情報量は Y(すなわち X)単独の情報量(エントロピー)と同じとなる。

相互情報量は、以下のような意味で相互の依存性(非独立性)の尺度でもある。これは一方向から考えると分かり易い。XY が独立なら、p(x,y)=p(x)p(y) であるから、次が成り立つ。

logp(x,y)p(x)p(y)=log1=0.

したがって、離散確率変数の場合も連続確率変数の場合もI(X;Y)=0 となる。実際は逆も成り立ち、I(X;Y)=0 であることと、XY が独立な確率変数であることは同値である。

また、後述するようにXY が独立な場合の同時分布と実際の同時分布の(擬)距離を示す量であるとも考えられる。

他の情報量との関係

相互情報量は次のようにも表せる。

I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X)=H(X)+H(Y)H(X,Y)

ここで、H(X)H(Y) は周辺エントロピーH(X|Y)H(Y|X)条件付きエントロピーH(X,Y)XY結合エントロピーである。H(X)H(X|Y) であるため、相互情報量は常に非負であることがわかる。

直観的に、エントロピー H(X) が確率変数の不確かさの尺度であるとすれば、H(X|Y) は「Y を知った後にも残る X の不確かさの量」と見ることができ、最初の行の右辺は「X の不確かさの量から Y を知った後に残った X の不確かさの量を引いたもの」となり、「Y を知ったことで削減される X の不確かさの量」と等価である。これは、相互情報量が2つの確率変数について互いにもう一方を知ったことで得られる別の一方に関する情報量という直観的定義とも合っている。

離散の場合、H(X|X)=0 であるから、H(X)=I(X;X) となる。従って I(X;X)I(X;Y) であり、ある確率変数は他のどんな確率変数よりも自分自身についての情報を多くもたらすという基本原理が定式化されている。

相互情報量は、2つの確率変数 XY周辺分布の積 p(x)p(y)同時分布 p(x,y)カルバック・ライブラー情報量で表すこともできる。

I(X;Y)=DKL(p(x,y)p(x)p(y))

さらに、p(x,y)=p(x|y)p(y) を用いて変形すると、次のようになる。

I(X;Y)=yp(y)xp(x|y)logp(x|y)p(x)=yp(y)DKL(p(x|y)p(x))=𝔼Y{DKL(p(x|y)p(x))}

従って、相互情報量は、p(x|y)p(x) に対するカルバック・ライブラー情報量の期待値として解釈することもできる。ここで、p(x|y)Y を与えられた時の X の条件付き分布、p(x)X の確率分布である。p(x|y)p(x) の分布に差があればあるほど、情報利得(カルバック・ライブラー情報量)は大きくなる。

多変数の場合

多確率変数の相互情報量は、一般に次のように表される。ただし、𝒚q 次元ベクトルである。

I(𝒚)={j=1qH(yj)}H(𝒚)

これは、二確率変数の相互情報量の自然な拡張と見なせる。

応用

多くの場合、相互情報量を最大化させ(つまり相互依存性を強め)、条件付きエントロピーを最小化させるという方向で使われる。以下のような例がある。

関連項目

参考文献

テンプレート:参照方法

  • テンプレート:Cite journal
  • Coombs, C. H., Dawes, R. M. & Tversky, A. (1970), Mathematical Psychology: An Elementary Introduction, Prentice-Hall, Englewood Cliffs, NJ.
  • Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in H Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14—30.
  • Kenneth Ward Church and Patrick Hanks. Word association norms, mutual information, and lexicography, Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, 1989.
  • Guiasu, Silviu (1977), Information Theory with Applications, McGraw-Hill, New York.
  • テンプレート:Cite book
  • Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85(1), 1-10.
  • Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
  • Press, W. H., Flannery, B. P., Teukolsky, S. A. & Vetterling, W. T. (1988), Numerical Recipes in C: The Art of Scientific Computing, Cambridge University Press, Cambridge.
  • テンプレート:Cite journal
  • Witten, Ian H. & Frank, Eibe (2005), Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, Amsterdam.
  • Yao, Y. Y. (2003) Information-theoretic measures for knowledge discovery and data mining, in Entropy Measures, Maximum Entropy Principle and Emerging Applications , Karmeshu (ed.), Springer, pp. 115-136.
  • Peng, H.C., Long, F., and Ding, C., "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp.1226-1238, 2005. Program

外部リンク

テンプレート:確率論