微分エントロピー

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:情報理論

微分エントロピー(びぶんエントロピー、テンプレート:Lang-en-short)または連続エントロピー(continuous entropy)は情報理論における概念で、シャノン情報量確率変数が持つ平均的テンプレート:仮リンクの尺度)を連続型確率分布にまで拡張するクロード・シャノンの試みに端を発する。情報量の概念を連続量まで真に拡張したものに テンプレート:仮リンク(LDDP)がある。本記事で述べる微分エントロピーは文献でよく目にするものだが、LDDPに制限を加えた特別な場合の一つであり、離散的情報量の持つ基本的な性質のいくつかを失っている。

定義

X を、確率密度関数 f関数の台𝒳 である確率変数とする。微分エントロピー h(X) または h(f)

h(X)=𝒳f(x)logf(x)dx

と定義される[1]テンプレート:Rp

明示的な確率密度関数は持っていないが、明示的なテンプレート:仮リンク表示 Q(p) を持っている確率変数(確率分布)に対しては h(Q)Q(p) の微分として定義できる。つまり、分位点密度関数 Q(p) により

h(Q)=01logQ(p)dp

と定義する[2]テンプレート:Rp

離散型の場合と類似して、微分エントロピーの単位は対数の底に依存する(通常は底を2とし、単位はビットとする)。対数の底による違いについては en:logarithmic units を参照。関連した概念である結合テンプレート:仮リンク相対微分エントロピーも同様に定義される。

離散的な場合とは異なり、微分エントロピーには X の計測単位に依存して横ずれが生じる[3]テンプレート:Rp。例えば、ある量をミリメートルで測ったときの微分エントロピーは、同じ量をメートルで測ったときよりも log(1000) だけ大きな値になる。無次元量の微分エントロピーは、その 1/1000 を計量の基本単位として表示したときの微分エントロピーよりも log(1000) だけ大きな値になる。

確率密度関数は1を超える値をとり得るから、離散的なエントロピーの性質を微分エントロピーにも適用するときは注意を要する。例えば、一様分布 𝒰(0,1/2)負の微分エントロピー

0122log(2)dx=log(2)

を持つ。

一方で相互情報量 I(X;Y) は、連続量に対しても2情報の依存度合の尺度として基本的に重要である。この量は実質的に、離散的な XY にそれぞれ「分割(partition)」を施していき、分割幅を限りなく細かくしていったときの極限に相当するからである。I(X;Y)XY を線形な位相同型(自身および逆が連続である写像)で変換しても不変である[4]ばかりでなく非線形同型写像による変換の下でも不変である[5]。相互情報量は、空間的に連続的な値を許すような伝送を介する状況下での2情報量の関係を表現することができる。

離散的なエントロピーが持つ性質の微分エントロピーへの拡張については en:limiting density of discrete points を参照。

微分エントロピーの性質

h(X1,,Xn)=i=1nh(Xi|X1,,Xi1)i=1nh(Xi)
  • 平行移動不変である。つまり任意の定数 c に対し
h(X+c)=h(X)[1]テンプレート:Rp
  • 一般に、任意の可逆な写像の下で不変ではない。
特に、定数 a に対しては
h(aX)=h(X)+log|a|
ベクトル値確率変数 𝐗可逆な正方行列 𝐀 に対しては
h(𝐀𝐗)=h(𝐗)+log(|det𝐀|)[1]テンプレート:Rp
  • 一般に、あるベクトル値確率変数から同じ次元のベクトル値確率変数への変換 𝐘=m(𝐗) があるとき、対応するエントロピーは
h(𝐘)h(𝐗)+f(x)log|mx|dx
を満たす。ここで |mx| は変換 mヤコビ行列式である[6]。この不等式は変換が全単射のとき等式になる。さらに m が回転、平行移動、またはそれらの合成であるとき、ヤコビ行列式の値は常に1であり、h(Y)=h(X) となる。
h(𝐗)12log(det2πeK)=12log[(2πe)ndetK]
等号が成立するのは X多変量正規分布に従うとき、かつそのときに限る[1]テンプレート:Rp

しかし、微分エントロピーは他のいくつかの望ましい性質を持っていない:

  • 微分エントロピーはテンプレート:仮リンクの下で不変でない。最も有用になるのは変量が無次元の場合である。
  • 微分エントロピーは負になり得る。

これらの欠点に対応するため微分エントロピーを修正したものが relative information entropy であり、これは不変測度因子を含んでいる。en:limiting density of discrete points を参照。

正規分布のときに最大になること

定理

平均 μ, 分散 σ2 が固定されたとき、微分エントロピーが最大になるのは分布が正規分布のときである[1]テンプレート:Rp

証明

g(x) を平均 μ ・分散 σ2 の正規分布の確率密度関数とし、f(x) を同一の平均と分散を持つ任意の確率密度関数とする。

2分布間のカルバック・ライブラー情報量

0DKL(f||g)=f(x)log(f(x)g(x))dx=h(f)f(x)log(g(x))dx

を考える。ここで

f(x)log(g(x))dx=f(x)log(12πσ2e(xμ)22σ2)dx=f(x)log12πσ2dx+log(e)f(x)((xμ)22σ2)dx=12log(2πσ2)log(e)σ22σ2=12(log(2πσ2)+log(e))=12log(2πeσ2)=h(g)

である。よって h(g)h(f)0

例:指数分布

X がパラメータ λ指数分布に従う、つまり確率密度関数が

f(x)=λeλx for x0

であるとする。この微分エントロピーは

he(X) =0λeλxlog(λeλx)dx
=(0(logλ)λeλxdx+0(λx)λeλxdx)
=logλ0f(x)dx+λE[X]
=logλ+1

ここで、計算の簡易化のため対数の底を e としていることを明示するため、h(X) ではなく he(X) と書いている。

推定誤差との関係

微分エントロピーは推定量の平均二乗誤差に対する、一つの下限を与える。任意の連続型確率変数 X とその推定統計量 X^ に対し、以下が成り立つ[1]

E[(XX^)2]12πee2h(X)

等号が成立するのは X が正規分布に従い、X^X の平均であるとき、かつそのときに限る。

様々な分布の微分エントロピー

下記の表で、Γ(x)=0ettx1dtガンマ関数ψ(x)=ddxlnΓ(x)=Γ(x)Γ(x)ディガンマ関数B(p,q)=Γ(p)Γ(q)Γ(p+q)ベータ関数、γEオイラーの定数である[7]テンプレート:Rp

微分エントロピー一覧
分布名 確率密度関数 エントロピー(単位:ナット 関数の台
連続一様分布 f(x)=1ba ln(ba) [a,b]
正規分布 f(x)=12πσ2exp((xμ)22σ2) ln(σ2πe) (,)
指数分布 f(x)=λexp(λx) 1lnλ [0,)
レイリー分布 f(x)=xσ2exp(x22σ2) 1+lnσ2+γE2 [0,)
ベータ分布 f(x)=xα1(1x)β1B(α,β) for 0x1 lnB(α,β)(α1)[ψ(α)ψ(α+β)]
(β1)[ψ(β)ψ(α+β)]
[0,1]
コーシー分布 f(x)=γπ1γ2+x2 ln(4πγ) (,)
テンプレート:仮リンク f(x)=22k/2Γ(k/2)xk1exp(x22) lnΓ(k/2)2k12ψ(k2)+k2 [0,)
カイ二乗分布 f(x)=12k/2Γ(k/2)xk21exp(x2) ln2Γ(k2)(1k2)ψ(k2)+k2 [0,)
アーラン分布 f(x)=λk(k1)!xk1exp(λx) (1k)ψ(k)+lnΓ(k)λ+k [0,)
F分布 f(x)=n1n12n2n22B(n12,n22)xn121(n2+n1x)n1+n22 lnn1n2B(n12,n22)+(1n12)ψ(n12)
(1+n22)ψ(n22)+n1+n22ψ(n1+n22)
[0,)
ガンマ分布 f(x)=xk1exp(xθ)θkΓ(k) ln(θΓ(k))+(1k)ψ(k)+k [0,)
ラプラス分布 f(x)=12bexp(|xμ|b) 1+ln(2b) (,)
ロジスティック分布 f(x)=ex(1+ex)2 2 (,)
対数正規分布 f(x)=1σx2πexp((lnxμ)22σ2) μ+12ln(2πeσ2) [0,)
マクスウェル分布 f(x)=1a32πx2exp(x22a2) ln(a2π)+γE12 [0,)
テンプレート:仮リンク f(x)=2βα2Γ(α2)xα1exp(βx2) lnΓ(α/2)2β12α12ψ(α2)+α2 (,)
パレート分布 f(x)=αxmαxα+1 lnxmα+1+1α [xm,)
t分布 f(x)=(1+x2/ν)ν+12νB(12,ν2) ν+12(ψ(ν+12)ψ(ν2))+lnνB(12,ν2) (,)
三角分布 f(x)={2(xa)(ba)(ca)for axc,2(bx)(ba)(bc)for c<xb, 12+lnba2 [0,1]
ワイブル分布 f(x)=kλkxk1exp(xkλk) (k1)γEk+lnλk+1 [0,)
多変量正規分布 fX(x)=
exp(12(xμ)Σ1(xμ))(2π)N/2|Σ|1/2
12ln{(2πe)Ndet(Σ)} N

これらの多くについては脚注参照[8]テンプレート:Rp

関連項目

脚注

テンプレート:Reflist

外部リンク