情報量

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:Otheruses テンプレート:混同 テンプレート:情報理論

情報量(じょうほうりょう)やエントロピーテンプレート:Lang-en-short)は、情報理論の概念で、あるできごと(事象)が起きた際、それがどれほど起こりにくいかを表す尺度である。ありふれたできごと(たとえば「風の音」)が起こったことを知ってもそれはたいした「情報」にはならないが、逆に珍しいできごと(たとえば「曲の演奏」)が起これば、それはより多くの「情報」を含んでいると考えられる。情報量はそのできごとが本質的にどの程度の情報を持つかの尺度であるとみなすこともできる。

なおここでいう「情報」とは、あくまでそのできごとの起こりにくさ(確率)だけによって決まる数学的な量でしかなく、個人・社会における有用性とは無関係である。たとえば「自分が宝くじに当たった」と「見知らぬAさんが宝くじに当たった」は、前者の方が有用な情報に見えるが、両者の情報量は全く同じである(宝くじが当たる確率は所与条件一定のもとでは誰でも同じであるため)。

自己情報量(自己エントロピー)と平均情報量(エントロピー)

それぞれのできごとの情報量だけでなく、それらのできごとの情報量の平均値も情報量と呼ぶ。両者を区別する場合には、前者を自己情報量自己エントロピーとも)、後者を平均情報量エントロピーとも)と呼ぶ。

自己情報量

事象 E が起こる確率P(E) とするとき、事象 E が起こったことを知らされたとき受け取る自己情報量 I(E) は、以下で定義される:

I(E)=log1P(E)=logP(E)

確率は 0P(E)1 なので自己情報量 I(E) は非負である。また対数の単調増加性により、起こりにくい事象(=生起確率が低い事象)の情報量ほど値が大きい。

対数として何を選んでも情報量の値が定数倍変わるだけなので本質的な差はない。慣習的に底に2を選ぶことが多い。底が2の場合、1/2n の確率で起こる事象の情報量は n である。

直観的意味

整数uに対し、uの対数logmum進法でのuの桁数にほぼ等しい値を表す。したがって、確率1/uで起こる事象の情報量は、ほぼuの桁数になる。

情報量の加法性

情報量は加法性を持つ。すなわち独立な事象AとBに対し、事象「AもBも起こる」の情報量は、Aの情報量とBの情報量の和である。これは以下で証明される。

I(A,B)=logP(A,B)=log(P(A)P(B))=(logP(A)+logP(B))=I(A)+I(B)

例えば、52枚のトランプから無作為に1枚を取り出すという試行を考える。「取り出したカードはハートの4である」という事象の情報量は、前述の定義から テンプレート:Math であると分かる。ここで、「取り出したカードのスートはハートである」という事象と「取り出したカードの数字は4である」という事象の二つを考えると、前者の情報量は テンプレート:Math、後者は テンプレート:Math である。この両者の和は テンプレート:Math となり、「取り出したカードはハートの4である」という事象の情報量と等しい。これは「独立した情報の和が、全体の情報量と一致する」という直感的要請に合致する。

導出

情報量に対する直感的要請には「発生確率が低いほど大きく(単調減少性)」「確率に関して連続的に変化し(連続性)」「独立同時事象の情報量が周辺事象の情報量和に等しい(加法性)」の三条件が挙げられる。この3条件を満たす関数はコーシーの函数方程式を利用することでClogpと一意に求まる。よって情報量の定義は上記の3条件から一意に導出できる。典型的には対数の底を2としてテンプレート:Mathで1となるようにCを設定(テンプレート:Math)する。

平均情報量(エントロピー)

(Ω,,P)確率空間とする。全事象 テンプレート:Mvar分割 テンプレート:Mvar が与えられたときテンプレート:Refnest[1]、各事象 AiA の自己情報量 I(Ai) で定義した値

H(P)=AiAP(Ai) I(Ai)=AiAP(Ai)logP(Ai)

確率測度 テンプレート:Mvarエントロピー テンプレート:Math と呼ぶ(平均情報量シャノン情報量情報論のエントロピーとも)。ただし、ここで P(Ai)=0 のときは、P(Ai)logP(Ai)=0 とみなす。これは limp0+plogp=0 であることによる。

また、離散型確率変数 テンプレート:Mvar確率分布 テンプレート:Mvar に従う場合には、 テンプレート:Mvarエントロピー テンプレート:Math を自己情報量 テンプレート:Mvar期待値によって定義する。すなわち、

H(X)=𝔼P[I(X)]=xXfX(x)logfX(x)

である[2]。ここで テンプレート:Mathテンプレート:Mvar確率質量関数である[3]

0I() より、エントロピーは常に非負である。

確率変数 テンプレート:Mvarテンプレート:Mvar の組 テンプレート:Math も確率変数とみなせる。この確率変数の値の発生確率すなわち同時確率PX,Y(X,Y) とすると、 テンプレート:Math のエントロピー H(X,Y)

H(X,Y)=𝔼PX,Y[I(X,Y)]=(x,y)(X,Y)PX,Y(x,y)logPX,Y(x,y)

になる。これを結合エントロピーと呼ぶ。

テンプレート:Math が互いに独立な確率変数である場合には、H(X,Y)H(X)+H(Y) に一致する。すなわち、全体の情報量 H(X,Y) は、それぞれの確率変数の情報量の和である。

しかし、 テンプレート:Mvarテンプレート:Mvar が互いに独立ではない場合は、H(X,Y)H(X)+H(Y) は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量と呼び、

I(X,Y)=H(X)+H(Y)H(X,Y)

で表す。相互情報量は常に非負の値になる。

事象テンプレート:Mvar が生じているという条件下における事象テンプレート:Mvar条件付き情報量logPr(AB) によって定める。確率変数 テンプレート:Mvar が与えられたとき、事象「X=x」の条件付き情報量 logPr(X=xB)テンプレート:Mvar に関する加重平均を条件付きエントロピーと言い、

H(XB)=𝔼PXB[I(XB)]=xXPr(X=xB)logPr(X=xB)

で表す。

さらに確率変数 テンプレート:Mvar が与えられたとき、事象「Y=y」が生じているという条件下における条件付きエントロピーH(XY=y)テンプレート:Mvar に関する加重平均

H(XY)=yYPr(Y=y)H(XY=y)=xX,yYPr(X=x,Y=y)logPr(X=xY=y)

も、やはり条件付きエントロピーと呼ぶ。

エントロピーの基本的性質

  • 情報量は確率だけによって決まる。
  • 情報量は非負の値または無限大を取る。
  • テンプレート:Mvar ビットのビット列の空間(情報源)から(一様ランダムとは限らない方法で)ランダムにビット列を選んだときのエントロピーは、テンプレート:Mvar 以下になる。エントロピーが テンプレート:Mvar になる必要十分条件は、ビット列が一様ランダムに選ばれることである。
  • 確率変数 XY が独立である必要十分条件は、H(X)+H(Y)=H(X,Y) が成立することである。

コイン投げの例

あるコインを投げたときに表が出る確率を p、裏が出る確率を 1p とする。このコインを投げたときに得られる平均情報量(エントロピー)は、

H(X)=plogp(1p)log(1p)

である。

この関数f(p)=plogp(1p)log(1p)エントロピー関数と呼ぶ。

図を見ると分かるように、p=0p=1 では テンプレート:Mvar はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。 テンプレート:Mvar が最大になるのは p=1/2 のときであり、一般にすべての事象(できごと)が等確率になるときにエントロピーが最大になる。

連続系のエントロピー

実数値を取る確率変数Xの確率密度関数をp(x)とするとき、Xのエントロピーを

h(X)=p(x)logp(x)dx

によって定義する。

Xが有限集合に値を取る確率変数である場合には、Xのシャノン情報量H(X)も定義できる。Xn通りの値を取るとき、H(X)h(X)は、

h(X)=H(Un)H(X)

を満たす。

ただし、ここでUnn元集合上の一様分布とする(すなわちH(Un)=logn)。

Renyiエントロピー

Ωを、台が有限集合である確率空間とする。PΩ上の確率分布とし、αを非負の実数とする。

α1のとき、Pのdegee αRenyiエントロピー

Hα(P)=log(AΩP(A)α)1α

によって定義する。 また、α=1,の場合には、Renyiエントロピーを

{H1(P)=limα1Hα(P)H(P)=limαHα(P)

によって定義する。

単にRenyiエントロピーと言った場合はH2(P)を意味することも多い。

さらに、確率変数Xが確率分布Pに従うとき、Hα(X)Hα(X)=Hα(P)によって定義する。

Renyiエントロピーは以下の性質を満たす:

  • H0(P)=log#Ω が成立する。
  • H1(P) はシャノン情報量 H(P)=AΩP(A)logP(A) と一致する。
  • α が2以上の整数の場合には、 Hα(P)=11αlogPr(X1==Xα) が成立する。ここで、 X1,,Xα は確率分布 P に従う独立同一分布であって、 Pr(X1==Xα)x1,,xα をそれぞれX1,,Xα に従って選んだときにx1==xα が成立する確率とする。
  • H(P)=minAΩ{logP(A)} が成立する。この H(P)minエントロピーともいう。

歴史

「エントロピー」の概念は1865年ルドルフ・クラウジウスがギリシャ語の「変換」を意味する言葉を語源として、熱力学における気体のある状態量として導入した。これは統計力学では微視的な状態数の対数に比例する量として表される。1929年にはレオ・シラードが、気体についての情報を観測者が獲得することと統計力学におけるエントロピーとの間に直接の関係があることを示し、現在 1 ビット(1 シャノン)と呼ぶ量が統計力学で k ln 2 に対応するという関係を導いていた[4]

現在の情報理論におけるエントロピーの直接の導入は1948年クロード・シャノンによるもので、その論文『通信の数学的理論』でエントロピーの概念を情報理論に応用したテンプレート:Sfn。シャノン自身は熱統計力学でこの概念と関連する概念がすでに使われていることを知らずにこの定義に到達したが、その名称を考えていたとき同僚フォン・ノイマンが、熱統計力学のエントロピーに似ていることから示唆したもので、フォン・ノイマンは「統計エントロピーが何なのかを理解してる人は少ないから、議論になったら有利であろう」と語ったとされる[5][6]。しかしシャノンはフォン・ノイマンとの会話は認めつつその影響を否定している[7]

なお、シャノン以前にもラルフ・ハートレー1928年に、集合Aに対してlog#Aという量を考察している(“#A”はA元数)。log#AA上の一様分布のエントロピーに一致する。現在では、log#AAハートレー・エントロピーと呼ぶ[8]

単位

情報量は本来無次元の量である。しかし、対数の底として何を用いたかによって値が異なるので,単位を付けて区別している。前述のように、情報量は確率の逆数の桁数の期待値なので、単位も桁数のそれを流用する。この為、対数の底として2、e、10を選んだときの情報量の単位は、それぞれビット(bit)、ナット(nat)、ディット(dit)である。

また、今のところ主流ではないものの、1997年に日本工業規格 JIS X 0016:1997(これは国際規格 ISO/IEC 2382-16:1996と一致している)は、これらの量を表す単位を別に定めている。

対数の底と単位
通常の単位 JISおよびISOが定めた単位 備考
2 ビット (bit) シャノン (shannon) lb, 二進対数
e=2.718… ナット (nat) ナット (nat) ln, 自然対数
10 ディット (dit) ハートレー (hartley) lg, 常用対数

単位「シャノン」、「ハートレー」の名称は、それぞれ情報量の概念を提案したクロード・シャノンラルフ・ハートレーにちなむ。

脚注

テンプレート:脚注ヘルプ

  1. 標本空間テンプレート:Mvar上の(部分)集合族を事象族と呼ぶことがある。あるいは事象の集合系を事象系と呼ぶこともある。事象系が全事象の分割であるとき、それらの確率との組を完全事象系と呼ぶことがある(このとき確率の総和は1である)。
  2. テンプレート:Cite book
  3. テンプレート:MathPX(x)=P(X=x)=P({ωΩX(ω)=x})と書くこともある。
  4. Szilard, L. (1929) テンプレート:Lang 53:840–856
  5. 『ファインマン計算機科学』 p. 96 ファインマンによる脚注*8で、「言い伝えによれば」と断りのうえでこの説を紹介している。
  6. 韓太舜、小林欣吾『情報と符号の数理』
  7. CLAUDE E. SHANNON: An Interview Conducted by Robert Price, 28 July 1982
  8. なお、JIS X 0016:1997 で定義される選択情報量(decision content)も同じ定義である。「互いに排反な事象から成る有限集合中の事象の数の対数。」

参考文献

関連項目

外部リンク

テンプレート:Normdaten テンプレート:確率論 テンプレート:データ圧縮