シャノンの情報源符号化定理

テンプレート:情報理論情報理論において、シャノンの情報源符号化定理（シャノンのじょうほうげんふごうかていり、テンプレート:Lang-en）は、データ圧縮の可能な限界と情報量（シャノンエントロピー）の操作上の意味を確立する定理である。1948年のクロード・シャノンの論文『通信の数学的理論』で発表された。シャノンの第二基本定理（通信路符号化定理）に対してシャノンの第一基本定理とも言う。

情報源符号化定理によれば、（独立同分布(iid)の確率変数のデータの列の長さが無限大に近づくにつれて）、符号化率（記号1つ当たりの平均符号長）が情報源のシャノンエントロピーよりも小さいデータを、情報が失われることが事実上確実ではないように圧縮することは不可能である。しかし、損失の可能性が無視できる場合、符号化率を任意にシャノンエントロピーに近づけることは可能である。

シンボルコードの情報源符号化定理は、入力語（確率変数と見なされる）のエントロピーとターゲットアルファベットの大きさの関数として、符号語の可能な期待される長さに上限と下限を設定する。

提示

情報源符号化とは、情報源の記号（の列）からアルファベット記号（通常はビット）の列への写像である。情報源の記号は二進数ビットから正確に復元できる（可逆圧縮）か、何らかの歪みを伴って復元される（非可逆圧縮）。これが、データ圧縮の背後にあるコンセプトである。

情報源符号化定理

情報源符号化定理(Shannon 1948)^[1]は以下のように非形式的に提示されている(MacKay 2003, pg. 81,^[2] Cover:Chapter 5^[3])。

情報量テンプレート:Math を持つテンプレート:Mvar 個の独立同分布の確率変数は、テンプレート:Mathのとき、無視できるほどの情報損失のリスクをもってテンプレート:Math ビット以上に圧縮できる。しかし、テンプレート:Math ビット以下に圧縮されたとき、情報が失われることは事実上確実である。

シンボルコードの情報源符号化定理

テンプレート:Math を2つの有限のアルファベットとし、テンプレート:Math とテンプレート:Math をそれぞれのアルファベットからの全ての有限語の集合とする。

テンプレート:Mvar をテンプレート:Math の値をとる確率変数とし、テンプレート:Math をテンプレート:Math からテンプレート:Math への一意復号可能な符号とする（ここで、テンプレート:Math）。テンプレート:Mvar を単語長テンプレート:Math で与えられる確率変数とする。

テンプレート:Math がテンプレート:Mvar の最小単語長さという意味で最適であるとき、

\frac{H (X)}{\log_{2} a} \leq 𝔼 S < \frac{H (X)}{\log_{2} a} + 1

である。(Shannon 1948)

証明

情報源符号化定理の証明

テンプレート:Mvar が独立同分布(iid)な情報源であるとき、その時系列テンプレート:Math は、離散値の場合はエントロピーテンプレート:Math　、連続値の場合は差分エントロピーで独立同分布となる。情報源符号化定理によれば、情報源のエントロピーより大きい任意のレートの任意のテンプレート:Math に対して、十分に大きいテンプレート:Mvar と、情報源テンプレート:Math の独立同分布なテンプレート:Mvar 個の複写をとり、これをテンプレート:Math この二進数ビットに写像するエンコーダがあり、それは、少なくともテンプレート:Math の確率で、情報源記号テンプレート:Math が二進数ビットから復元できる。

達成可能性の証明。いくつかのテンプレート:Math を修正し、

p (x_{1}, \dots, x_{n}) = \Pr [X_{1} = x_{1}, \dots, X_{n} = x_{n}] .

とする。テンプレート:仮リンクテンプレート:Math は、以下のように定義される。

A_{n}^{ε} = {(x_{1}, \dots, x_{n}) : | - \frac{1}{n} \log p (x_{1}, \dots, x_{n}) - H_{n} (X) | < ε}

テンプレート:仮リンク(AEP)が示すところによると、十分に大きいテンプレート:Mvar に対して、情報源によって生成された列が典型集合テンプレート:Math に含まれる確率は 1 に近づく。特に、十分に大きいテンプレート:Mvar に対しては、 $P ((X_{1}, X_{2}, \dots, X_{n}) \in A_{n}^{ε})$ は任意に 1 に近く、具体的には $1 - ε$ より大きくすることができる。

典型集合の定義は、典型集合にある列が以下を満足することを意味する。

2^{- n (H (X) + ε)} \leq p (x_{1}, \dots, x_{n}) \leq 2^{- n (H (X) - ε)}

注意:

テンプレート:Mathから導かれる列 $(X_{1}, X_{2}, \dots X_{n})$ の確率はテンプレート:Math より大きい。
$p (x_{1}, x_{2}, \dots x_{n})$ の左側（下限）からは $| A_{n}^{ε} | \leq 2^{n (H (X) + ε)}$ となる。
$p (x_{1}, x_{2}, \dots x_{n})$ の右側（上限）および全体集合テンプレート:Math の全確率に対する下限からは $| A_{n}^{ε} | \geq (1 - ε) 2^{n (H (X) - ε)}$ となる。

よって、 $| A_{n}^{ε} | \leq 2^{n (H (X) + ε)}, n . (H (X) + ε)$ ビットはこの集合の任意の文字列を指すのに十分である。

エンコードアルゴリズム : エンコーダは、入力列が典型集合内にあるかどうかをチェックする。そうであれば、典型集合内の入力列のインデックスを出力する。そうでなければ、エンコーダは任意のテンプレート:Math 桁の数を出力する。入力列が典型集合内にある限り（少なくともテンプレート:Math の確率で）、エンコーダは何の誤りも生じない。従って、エンコーダの誤りの確率の上限はテンプレート:Mvar である。

逆の証明。その逆は、テンプレート:Math より小さいサイズの集合が 1 から離れる確率の集合をカバーすることを示すことで証明できる。

シンボルコードの情報源符号化定理の証明

テンプレート:Math について、テンプレート:Math をそれぞれ可能なテンプレート:Math の語長とする。 $q_{i} = a^{- s_{i}} / C$ と定義する。ここで、テンプレート:Mvar はテンプレート:Math となるように選択される。

\begin{matrix} H (X) & = - \sum_{i = 1}^{n} p_{i} \log_{2} p_{i} \\ \leq - \sum_{i = 1}^{n} p_{i} \log_{2} q_{i} \\ = - \sum_{i = 1}^{n} p_{i} \log_{2} a^{- s_{i}} + \sum_{i = 1}^{n} p_{i} \log_{2} C \\ = - \sum_{i = 1}^{n} p_{i} \log_{2} a^{- s_{i}} + \log_{2} C \\ \leq - \sum_{i = 1}^{n} - s_{i} p_{i} \log_{2} a \\ \leq 𝔼 S \log_{2} a \end{matrix}

ここで、2行目はギブスの不等式に、5行目はクラフトの不等式による。

C = \sum_{i = 1}^{n} a^{- s_{i}} \leq 1

よってテンプレート:Math である。

2行目の不等式について、

s_{i} = ⌈ - \log_{a} p_{i} ⌉

とすると、

- \log_{a} p_{i} \leq s_{i} < - \log_{a} p_{i} + 1

であり

a^{- s_{i}} \leq p_{i}

であり

\sum a^{- s_{i}} \leq \sum p_{i} = 1

よって、クラフトの不等式には、これらの語長を持つ接頭辞のない符号が存在する。従って、最小のテンプレート:Mvar は以下を満たす。

\begin{matrix} 𝔼 S & = \sum p_{i} s_{i} \\ < \sum p_{i} (- \log_{a} p_{i} + 1) \\ = \sum - p_{i} \frac{\log_{2} p_{i}}{\log_{2} a} + 1 \\ = \frac{H (X)}{\log_{2} a} + 1 \end{matrix}

非定常独立系への拡張

離散時間非定常独立情報源のための固定レート可逆情報源符号化

典型集合テンプレート:Math を

A_{n}^{ε} = {x_{1}^{n} : | - \frac{1}{n} \log p (X_{1}, \dots, X_{n}) - \overline{H_{n}} (X) | < ε}

と定義する。

次に、与えられたテンプレート:Math に対して、テンプレート:Mvar が十分に大きい場合、テンプレート:Math である。あとは、典型集合の列をエンコードするだけであり。情報源符号化の通常の方法は、この集合の濃度が $2^{n (\overline{H_{n}} (X) + ε)}$ であることを示す。従って、テンプレート:Math より大きい確率で符号化するには、平均してテンプレート:Math ビットで十分である。ここで、テンプレート:Mvar を大きくすることによって、テンプレート:Mvar とテンプレート:Mvar を任意に小さくすることができる。

脚注

テンプレート:Reflist

↑ 引用エラー: 無効な <ref> タグです。「Shannon」という名前の注釈に対するテキストが指定されていません
↑ 引用エラー: 無効な <ref> タグです。「MacKay」という名前の注釈に対するテキストが指定されていません
↑ 引用エラー: 無効な <ref> タグです。「Cover」という名前の注釈に対するテキストが指定されていません

[Shannon-1] 引用エラー: 無効な <ref> タグです。「Shannon」という名前の注釈に対するテキストが指定されていません

[MacKay-2] 引用エラー: 無効な <ref> タグです。「MacKay」という名前の注釈に対するテキストが指定されていません

[Cover-3] 引用エラー: 無効な <ref> タグです。「Cover」という名前の注釈に対するテキストが指定されていません

[1]

[2]

[3]

シャノンの情報源符号化定理

目次

提示

情報源符号化定理

シンボルコードの情報源符号化定理

証明

情報源符号化定理の証明

シンボルコードの情報源符号化定理の証明

非定常独立系への拡張

離散時間非定常独立情報源のための固定レート可逆情報源符号化

関連項目

脚注

ナビゲーションメニュー

シャノンの情報源符号化定理

提示

情報源符号化定理

シンボルコードの情報源符号化定理

証明

情報源符号化定理の証明

シンボルコードの情報源符号化定理の証明

非定常独立系への拡張

離散時間非定常独立情報源のための固定レート可逆情報源符号化

関連項目

脚注

ナビゲーション メニュー

検索

ナビゲーションメニュー