カルバック・ライブラー情報量

提供: testwiki
2024年8月9日 (金) 21:07時点におけるimported>Cewbotによる版 (解消済み仮リンク大偏差理論を内部リンクに置き換えます (今回のBot作業のうち3.3%が完了しました))
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

テンプレート:情報理論 カルバック・ライブラー情報量(カルバック・ライブラーじょうほうりょう、テンプレート:Lang-en-short)は2つの確率分布の差異を計る尺度である。

確率論情報理論で利用され様々な呼び名がある。以下はその一例である:

ただしこの計量は距離の公理を満たさないので、数学的な意味での距離ではない。

応用上は、「真の」確率分布 テンプレート:Mvar とそれ以外の任意の確率分布 テンプレート:Mvar に対するカルバック・ライブラー情報量が計算される事が多い。たとえば テンプレート:Mvar はデータ、観測値、正確に計算で求められた確率分布などを表し、テンプレート:Mvar は理論値、モデル値、テンプレート:Mvar の予測値などを表す。

この概念は1951年ソロモン・カルバックリチャード・ライブラーが2つの分布の間の directed divergence として用いたのが最初であり、ベクトル解析におけるダイバージェンスとは異なる概念である。

カルバック・ライブラー情報量は離散分布のみならず連続分布に対しても定義されており、連続分布に対するカルバック・ライブラー情報量は変数変換について不変である。したがって、情報理論の他の量(自己情報量エントロピー)よりも基本的であるともいえる。というのも、それらは離散的でない確率については未定義だったり、変数変換に対して不変ではなかったりするからである。

定義

テンプレート:Mvarテンプレート:Mvar離散確率分布とするとき、テンプレート:Mvarテンプレート:Mvar に対するカルバック・ライブラー情報量は以下のように定義される。

DKL(PQ)=iP(i)logP(i)Q(i)=𝔼P[logP(i)Q(i)]

ここで テンプレート:Mathテンプレート:Math はそれぞれ確率分布 テンプレート:Mvarテンプレート:Mvar に従う確率変数の値が テンプレート:Mvar となる確率である。

一方 テンプレート:Mvarテンプレート:Mvar連続確率分布の場合は以下のように定義される。

DKL(PQ)=p(x)logp(x)q(x)dx=𝔼P[logp(x)q(x)]

ここで、テンプレート:Mvarテンプレート:Mvar はそれぞれ テンプレート:Mvarテンプレート:Mvar確率密度関数を表す。

より一般に、テンプレート:Mvarテンプレート:Mvar可測集合 テンプレート:Mvar 上の確率測度で、テンプレート:Mvarテンプレート:Mvar がなんらかの測度 テンプレート:Mvar に対して絶対連続な場合には、

DKL(PQ)=XdPdμlogdP/dμdQ/dμdμ

と定義できる。ここで テンプレート:Mathテンプレート:Mathラドン・ニコディム導関数である。

これらの式に出てくる対数の底は、情報の単位をビットとするときは テンプレート:Math とし、ナットを単位とするときはネイピア数 テンプレート:Mvar を底とする。カルバック・ライブラー情報量に関わる方程式の多くは対数の底と無関係である。

直観的意味

最尤推定量による説明

有限次元のパラメータ テンプレート:Mvar によって特徴づけられる確率密度関数 テンプレート:Math を用いて テンプレート:Math を推定するという文脈では、カルバック・ライブラー情報量の経験量の最小化

minθ1ni=1nlogp(Xi)q(Xi|θ)

は、(対数変換した)最尤法

maxθ1ni=1nlogq(Xi|θ)

と同値な問題になる。すなわち、最尤推定量は、カルバック・ライブラー情報量を経験的に最小化する推定方法だと考えられる。

ベイズ確率による説明

テンプレート:Mvar確率変数とし、各 テンプレート:Mvar に対し テンプレート:Mvarテンプレート:Mvar である確率 テンプレート:Mathテンプレート:Math であったとする(ベイズ確率でいう事前分布)。いま テンプレート:Mvar に関する新たなデータ テンプレート:Mvar を知ったとし、その結果 テンプレート:Mvar の従う(条件付き)確率 テンプレート:Mathテンプレート:Math になったとする(ベイズ確率でいう事後分布)。

このとき、テンプレート:Mvarテンプレート:Mvar に関しどのくらいの情報を提供したといえるであろうか。情報量が事象の不確かさを図る尺度であったことを思い出されたい。テンプレート:Mvar を知る前の テンプレート:Mvar の不確かさ(すなわち自己情報量)は テンプレート:Math であるが、テンプレート:Mvar を知ることでそれは テンプレート:Math に減る。したがって テンプレート:Mvar によって テンプレート:Mvar に関して

(logQ(x))(logP(x))=logP(x)Q(x)

だけの自己情報量を得たことになる。テンプレート:Mvarテンプレート:Mvar に従って変わるので、この値の(事後確率分布による)平均値をとると、

xP(x)logP(x)Q(x)

となる。これはカルバック・ライブラー情報量と一致する。

すなわち、カルバック・ライブラー情報量は、テンプレート:Mvar に関してデータ テンプレート:Mvar から得られる情報量の平均値を表していることになる。以上の理由により、カルバック・ライブラー情報量は情報利得(Information gain)とも呼ばれる。

符号化による説明

情報量H である確率変数X は平均ビット数が(ほぼ)H であるビット列に符号化できる(ハフマン符号)が、平均ビット数が H 未満であるようには符号化できない(情報源符号化定理)事が知られている。つまり、確率変数 X を符号化しようと考えた場合、H がビット数の最小値である。今確率変数 X が本当は分布 P に従っているのに、誤って分布 Q に従っていると判断してしまった場合、本来の最小値よりも多くのビット数を必要としてしまう。カルバック・ライブラー情報量は、このような誤りを犯してしまった場合に余分にかかってしまうビット数の平均値を表す。

カルバック・ライブラー情報量は、サノフの定理を通して大偏差理論の一部に位置づけられる。集合 {1,2,...,r} 上の確率分布全体の集合を P とし、KPコンパクト集合とする。このとき、確率分布 p ∈ P から独立同分布にしたがって生成した確率変数列 x1, x2,..., xN から導かれる経験分布が K に含まれる確率のレート関数は、カルバック・ライブラー情報量で与えられる:

limN1Nlog[qK]=infq*KD(q*p)

端的に述べれば、確率分布 p のくじ引きを繰り返し引いたときに経験分布 q が得られる確率は、p から q へのカルバック・ライブラー情報量 D(q||p) をレート関数として試行回数の増加とともに減衰することを意味する[1]

裏表が等しい確率で出るコイントスを100回繰り返して1回しか表が出ない確率が、1/100の確率で表が出るコイントスを100回繰り返して裏と表がちょうど50回ずつ出る確率よりも高いことは、直感的に理解できる。これは、カルバック・ライブラー情報量が対称性を持たないことの直感的な理解を与える。

性質

カルバック・ライブラー情報量は常に負でない値となる。

DKL(PQ)0

これはギブスの不等式として知られており、DKL(P||Q) がゼロとなるのは P = Q であるときだけである。従って、エントロピー H(P) は交差エントロピー H(P,Q) の下限値となる。この交差エントロピーは P ではなく Q に基づく符号を使ったときに予測されるビット数を表している。従って、KLダイバージェンスは、X から x という値を特定する情報を得るために、P という真の分布ではなく Q という確率分布に対応した符号を使ったときに余分にかかると予想されるビット数を表しているのである。

カルバック・ライブラー情報量を確率分布空間における距離と呼ぶ場合もあるが、カルバック・ライブラー情報量には対称性がないため、距離と呼ぶのは正しくない。一般に

DKL(PQ)DKL(QP).

さらに言えば、DKL(P||Q) は三角不等式を満足しない

情報理論における他の量との関係

情報理論の他の様々な量は、カルバック・ライブラー情報量の特殊なケースの応用として解釈できる。

自己情報量との関係

I(m)=DKL(δim{pi}),

ここでδimクロネッカーのデルタ

相互情報量との関係

I(X;Y)=DKL(P(X,Y)P(X)P(Y))=𝔼X{DKL(P(Y|X)P(Y))}=𝔼Y{DKL(P(X|Y)P(X))}
H(X)=𝔼x{I(x)}=logNDKL(P(X)PU(X))

ここでN は確率変数X の値域の元の数で、PU(X)X の値域上の一様分布。

条件付きエントロピーの場合は以下のようになる:

H(X|Y)=logNDKL(P(X,Y)PU(X)P(Y))=logNDKL(P(X,Y)P(X)P(Y))DKL(P(X)PU(X))=H(X)I(X;Y)=logN𝔼Y{DKL(P(X|Y)PU(X))}
DKL(PQ)=xp(x)logq(x)+xp(x)logp(x)=H(P,Q)H(P)

関連項目

脚注

参考文献

  • Fuglede B, and Topsøe F., 2004, Jensen-Shannon Divergence and Hilbert Space Embedding, IEEE Int Sym Information Theory.
  • Kullback, S., and Leibler, R. A., 1951, On information and sufficiency, Annals of Mathematical Statistics 22: 79-86.
  • Rubner, Y., Tomasi, C., and Guibas, L. J., 2000. The Earth Mover's distance as a metric for image retrieval. International Journal of Computer Vision, 40(2): 99-121.
  • Kullback, S. Information Theory and Statistics. Dover reprint.
  • Matlab code for calculating KL divergence

テンプレート:確率論