カルバック・ライブラー情報量

テンプレート:情報理論 カルバック・ライブラー情報量（カルバック・ライブラーじょうほうりょう、テンプレート:Lang-en-short）は2つの確率分布の差異を計る尺度である。

確率論と情報理論で利用され様々な呼び名がある。以下はその一例である：

カルバック・ライブラー・ダイバージェンス（KLダイバージェンス）
情報ダイバージェンス（テンプレート:Lang-en-short）
情報利得（テンプレート:Lang-en-short）
相対エントロピー（テンプレート:Lang-en-short）
カルバック・ライブラー距離

ただしこの計量は距離の公理を満たさないので、数学的な意味での距離ではない。

応用上は、「真の」確率分布テンプレート:Mvar とそれ以外の任意の確率分布テンプレート:Mvar に対するカルバック・ライブラー情報量が計算される事が多い。たとえばテンプレート:Mvar はデータ、観測値、正確に計算で求められた確率分布などを表し、テンプレート:Mvar は理論値、モデル値、テンプレート:Mvar の予測値などを表す。

この概念は1951年、ソロモン・カルバックとリチャード・ライブラーが2つの分布の間の directed divergence として用いたのが最初であり、ベクトル解析におけるダイバージェンスとは異なる概念である。

カルバック・ライブラー情報量は離散分布のみならず連続分布に対しても定義されており、連続分布に対するカルバック・ライブラー情報量は変数変換について不変である。したがって、情報理論の他の量（自己情報量やエントロピー）よりも基本的であるともいえる。というのも、それらは離散的でない確率については未定義だったり、変数変換に対して不変ではなかったりするからである。

定義

テンプレート:Mvar、テンプレート:Mvar を離散確率分布とするとき、テンプレート:Mvar のテンプレート:Mvar に対するカルバック・ライブラー情報量は以下のように定義される。

D_{K L} (P ‖ Q) = \sum_{i} P (i) \log \frac{P (i)}{Q (i)} = 𝔼_{P} [\log \frac{P (i)}{Q (i)}]

ここでテンプレート:Math、テンプレート:Math はそれぞれ確率分布テンプレート:Mvar、テンプレート:Mvar に従う確率変数の値がテンプレート:Mvar となる確率である。

一方テンプレート:Mvar、テンプレート:Mvar が連続確率分布の場合は以下のように定義される。

D_{K L} (P ‖ Q) = \int_{- \infty}^{\infty} p (x) \log \frac{p (x)}{q (x)} d x = 𝔼_{P} [\log \frac{p (x)}{q (x)}]

ここで、テンプレート:Mvar、テンプレート:Mvar はそれぞれテンプレート:Mvar、テンプレート:Mvar の確率密度関数を表す。

より一般に、テンプレート:Mvar、テンプレート:Mvar が可測集合テンプレート:Mvar 上の確率測度で、テンプレート:Mvar、テンプレート:Mvar がなんらかの測度テンプレート:Mvar に対して絶対連続な場合には、

D_{K L} (P ‖ Q) = \int_{X} \frac{d P}{d μ} \log \frac{d P / d μ}{d Q / d μ} d μ

と定義できる。ここでテンプレート:Math、テンプレート:Math はラドン・ニコディム導関数である。

これらの式に出てくる対数の底は、情報の単位をビットとするときはテンプレート:Math とし、ナットを単位とするときはネイピア数テンプレート:Mvar を底とする。カルバック・ライブラー情報量に関わる方程式の多くは対数の底と無関係である。

直観的意味

最尤推定量による説明

有限次元のパラメータテンプレート:Mvar によって特徴づけられる確率密度関数テンプレート:Math を用いてテンプレート:Math を推定するという文脈では、カルバック・ライブラー情報量の経験量の最小化

\min_{θ} \frac{1}{n} \sum_{i = 1}^{n} \log \frac{p (X_{i})}{q (X_{i} | θ)}

は、（対数変換した）最尤法

\max_{θ} \frac{1}{n} \sum_{i = 1}^{n} \log q (X_{i} | θ)

と同値な問題になる。すなわち、最尤推定量は、カルバック・ライブラー情報量を経験的に最小化する推定方法だと考えられる。

ベイズ確率による説明

テンプレート:Mvar を確率変数とし、各テンプレート:Mvar に対しテンプレート:Mvar がテンプレート:Mvar である確率テンプレート:Math がテンプレート:Math であったとする（ベイズ確率でいう事前分布）。いまテンプレート:Mvar に関する新たなデータテンプレート:Mvar を知ったとし、その結果テンプレート:Mvar の従う（条件付き）確率テンプレート:Math がテンプレート:Math になったとする（ベイズ確率でいう事後分布）。

このとき、テンプレート:Mvar はテンプレート:Mvar に関しどのくらいの情報を提供したといえるであろうか。情報量が事象の不確かさを図る尺度であったことを思い出されたい。テンプレート:Mvar を知る前のテンプレート:Mvar の不確かさ（すなわち自己情報量）はテンプレート:Math であるが、テンプレート:Mvar を知ることでそれはテンプレート:Math に減る。したがってテンプレート:Mvar によってテンプレート:Mvar に関して

(- \log Q (x)) - (- \log P (x)) = \log \frac{P (x)}{Q (x)}

だけの自己情報量を得たことになる。テンプレート:Mvar はテンプレート:Mvar に従って変わるので、この値の（事後確率分布による）平均値をとると、

\sum_{x} P (x) \log \frac{P (x)}{Q (x)}

となる。これはカルバック・ライブラー情報量と一致する。

すなわち、カルバック・ライブラー情報量は、テンプレート:Mvar に関してデータテンプレート:Mvar から得られる情報量の平均値を表していることになる。以上の理由により、カルバック・ライブラー情報量は情報利得(Information gain)とも呼ばれる。

符号化による説明

情報量が H である確率変数X は平均ビット数が（ほぼ）H であるビット列に符号化できる(ハフマン符号)が、平均ビット数が H 未満であるようには符号化できない(情報源符号化定理)事が知られている。つまり、確率変数 X を符号化しようと考えた場合、H がビット数の最小値である。今確率変数 X が本当は分布 P に従っているのに、誤って分布 Q に従っていると判断してしまった場合、本来の最小値よりも多くのビット数を必要としてしまう。カルバック・ライブラー情報量は、このような誤りを犯してしまった場合に余分にかかってしまうビット数の平均値を表す。

テンプレート:仮リンクによる説明

カルバック・ライブラー情報量は、サノフの定理を通して大偏差理論の一部に位置づけられる。集合 {1,2,...,r} 上の確率分布全体の集合を P とし、K⊂Pをコンパクト集合とする。このとき、確率分布 p ∈ P から独立同分布にしたがって生成した確率変数列 x₁, x₂,..., x_N から導かれる経験分布が K に含まれる確率のレート関数は、カルバック・ライブラー情報量で与えられる：

\begin{matrix} \lim_{N \to \infty} \frac{1}{N} \log ℙ [q \in K] & = - \inf_{q^{*} \in K} D (q^{*} ‖ p) \end{matrix}

端的に述べれば、確率分布 p のくじ引きを繰り返し引いたときに経験分布 q が得られる確率は、p から q へのカルバック・ライブラー情報量 D(q||p) をレート関数として試行回数の増加とともに減衰することを意味する^[1]。

裏表が等しい確率で出るコイントスを100回繰り返して1回しか表が出ない確率が、1/100の確率で表が出るコイントスを100回繰り返して裏と表がちょうど50回ずつ出る確率よりも高いことは、直感的に理解できる。これは、カルバック・ライブラー情報量が対称性を持たないことの直感的な理解を与える。

性質

カルバック・ライブラー情報量は常に負でない値となる。

D_{K L} (P ‖ Q) \geq 0

これはギブスの不等式として知られており、D_KL(P||Q) がゼロとなるのは P = Q であるときだけである。従って、エントロピー H(P) は交差エントロピー H(P,Q) の下限値となる。この交差エントロピーは P ではなく Q に基づく符号を使ったときに予測されるビット数を表している。従って、KLダイバージェンスは、X から x という値を特定する情報を得るために、P という真の分布ではなく Q という確率分布に対応した符号を使ったときに余分にかかると予想されるビット数を表しているのである。

カルバック・ライブラー情報量を確率分布空間における距離と呼ぶ場合もあるが、カルバック・ライブラー情報量には対称性がないため、距離と呼ぶのは正しくない。一般に

D_{K L} (P ‖ Q) \neq D_{K L} (Q ‖ P) .

さらに言えば、D_KL(P||Q) は三角不等式を満足しない。

情報理論における他の量との関係

情報理論の他の様々な量は、カルバック・ライブラー情報量の特殊なケースの応用として解釈できる。

自己情報量との関係

I (m) = D_{K L} (δ_{i m} ‖ {p_{i}}),

ここで $δ_{i m}$ はクロネッカーのデルタ。

相互情報量との関係

\begin{matrix} I (X; Y) & = D_{K L} (P (X, Y) ‖ P (X) P (Y)) \\ = 𝔼_{X} {D_{K L} (P (Y | X) ‖ P (Y))} \\ = 𝔼_{Y} {D_{K L} (P (X | Y) ‖ P (X))} \end{matrix}

シャノン・エントロピーとの関係

\begin{matrix} H (X) & = 𝔼_{x} {I (x)} \\ = \log N - D_{K L} (P (X) ‖ P_{U} (X)) \end{matrix}

ここでN は確率変数X の値域の元の数で、P_U(X) はX の値域上の一様分布。

条件付きエントロピーの場合は以下のようになる：

\begin{matrix} H (X | Y) & = \log N - D_{K L} (P (X, Y) ‖ P_{U} (X) P (Y)) \\ = \log N - D_{K L} (P (X, Y) ‖ P (X) P (Y)) - D_{K L} (P (X) ‖ P_{U} (X)) \\ = H (X) - I (X; Y) \\ = \log N - 𝔼_{Y} {D_{K L} (P (X | Y) ‖ P_{U} (X))} \end{matrix}

交差エントロピーとの関係

\begin{matrix} D_{K L} (P ‖ Q) & = - \sum_{x} p (x) \log q (x) + \sum_{x} p (x) \log p (x) \\ = H (P, Q) - H (P) \end{matrix}

脚注

↑ テンプレート:Cite book

参考文献

Fuglede B, and Topsøe F., 2004, Jensen-Shannon Divergence and Hilbert Space Embedding, IEEE Int Sym Information Theory.
Kullback, S., and Leibler, R. A., 1951, On information and sufficiency, Annals of Mathematical Statistics 22: 79-86.
Rubner, Y., Tomasi, C., and Guibas, L. J., 2000. The Earth Mover's distance as a metric for image retrieval. International Journal of Computer Vision, 40(2): 99-121.
Kullback, S. Information Theory and Statistics. Dover reprint.
Matlab code for calculating KL divergence

テンプレート:確率論

[1] テンプレート:Cite book

[1]

カルバック・ライブラー情報量

目次

定義

直観的意味

最尤推定量による説明

ベイズ確率による説明

符号化による説明

テンプレート:仮リンクによる説明

性質

情報理論における他の量との関係

自己情報量との関係

相互情報量との関係

シャノン・エントロピーとの関係

交差エントロピーとの関係

関連項目

脚注

参考文献

ナビゲーションメニュー

カルバック・ライブラー情報量

定義

直観的意味

最尤推定量による説明

ベイズ確率による説明

符号化による説明

テンプレート:仮リンクによる説明

性質

情報理論における他の量との関係

自己情報量との関係

相互情報量との関係

シャノン・エントロピーとの関係

交差エントロピーとの関係

関連項目

脚注

参考文献

ナビゲーション メニュー

検索

ナビゲーションメニュー