簡潔データ構造

提供: testwiki
ナビゲーションに移動 検索に移動

簡潔データ構造 (かんけつデータこうぞう、テンプレート:Lang-en-short) とは計算機科学の用語で、情報理論的下界に「近い」領域量だけを使いつつ、(他の圧縮形式とは異なり)効率的に質問を受け付けることができるデータ構造を指す。その概念は最初 Jacobson [1] によってテンプレート:仮リンク平面的グラフを符号化するために導入された。通常のロスなしデータ圧縮アルゴリズムとは異なり、簡潔データ構造は事前の展開操作をせずに使用することができる。テンプレート:仮リンクは関連する考え方に基づいているが、圧縮データ構造ではデータ構造のサイズは表現しようとする特定のデータに依存する。

あるデータを保持するために必要な情報理論的に最小のビット数がZだとする。このデータの表現形式は、

  • Z+O(1)ビットの領域を必要とする場合、テンプレート:仮リンク
  • Z+o(Z)ビットの領域を必要とする場合、簡潔 (succinct)、
  • O(Z)ビットの領域を必要とする場合、コンパクト (compact)

であると呼ばれる。

implicit データ構造は通常、なんらかの順列を用いて情報を保持することに帰着される。よく知られる事例としてはヒープが挙げられる。

簡潔辞書

簡潔索引つき辞書(簡潔ビットベクトル、完備辞書とも呼ぶ)は、rank/select 辞書とも呼ばれ、二分木k分木、多重集合[2]や、接尾辞木接尾辞配列などの多数の簡潔表現手法の基礎をなしている[3]。基本的な問題設定は、 U=[0n)={0,1,,n1}の空間中で部分集合Sを保持するというものであり、通常 B[i]=1 iff iS とするビット配列として部分集合を表現する。索引つき辞書は通常の辞書の操作(参照、および動的辞書の場合は挿入と削除)に加えて、次の二つの操作をサポートする。

  • 𝐫𝐚𝐧𝐤q(x)=|{k[0x):B[k]=q}|
  • 𝐬𝐞𝐥𝐞𝐜𝐭q(x)=min{k[0n):𝐫𝐚𝐧𝐤q(k)=x}

ただし、q{0,1}とする。

ある単純な表現方法 [4] では n+o(n) ビットの領域(元のビット配列と、o(n) の補助データ構造)を使って rankselect を定数時間でサポートできる。この方法はテンプレート:仮リンクと似た考え方に基づいており、固定サイズの部分問題に行き着くまでに定数回数の再帰呼び出しだけで済む。ビット配列 B はサイズ l=lg2n大ブロックとサイズs=lgn/2小ブロックに分割される。大ブロック一つごとに、最初のビットのrankが別の表 Rl[0n/l) に保持される。この表の各エントリには lgn ビットが必要で、合計 (n/l)lgn=n/lgn ビットの領域を使う。大ブロックの中では、もう一つの表 Rs[0l/s) を使って、そのブロックに含まれる l/s=2lgn 個の小ブロックのrankを保持する。ここでの違いは、各エントリで、そのエントリが入っている大ブロックの最初のビットのrankからの差分だけを保持すればよいので、 lgl=lglg2n=2lglgn ビットだけが必要になることである。このため、この表は合計 (n/s)lgl=4nlglgn/lgn ビットになる。そして、小ブロック内の i[0,s) ビットに対しては、s ビットの全てのビット列に対するrank質問の答えを保持するルックアップ表 Rp を使うことができる。このテーブルには 2slgs=O(nlglgn) ビットの領域を必要とする。 これらの補助表は o(n) の領域だけを使うため、このデータ構造はrank質問を O(1) 時間と n+o(n) ビットの領域でサポートする。

次の定数時間アルゴリズムを用いると、𝐫𝐚𝐧𝐤1(x)の質問に定数時間で答えることができる。

𝐫𝐚𝐧𝐤1(x)=Rl[x/l]+Rs[x/s]+Rp[xx/s,x mod s]

実用上は、ルックアップ表 Rp をビット命令とより小さい表で置き換え、小ブロックで立っているビットの数を調べるようにすることができる。多くの場合、こうすることで大きなデータセットで簡潔データ構造を用いる際の、キャッシュミスの増大とそれによって起こるルックアップ表がキャッシュから追い出されるという問題に対処できる[5]。select質問は、rankに用いたものと同じ補助データ構造と二分探索とを合わせることで容易にサポートできるが、そのやり方では最悪の場合 O(lgn) の時間がかかる。3n/lglgn+O(nlgnlglgn)=o(n) ビットの追加領域を用いる、より複雑なデータ構造により、selectは定数時間でサポートできる[6]。こうした解決法の多くでは、実用上、漸近的な特長が効果を発揮する至らない場合、O()記法に隠れた定数が支配的となる。その場合、長ワード命令とワードサイズに揃えたブロックを利用した実装のほうが効率的であることが多い[7]

エントロピー圧縮型辞書

n+o(n) の領域のアプローチは、 [n) のなかには異なる m-部分集合が(言い換えるなら、長さnでちょうどm個の1があるビット列が)(nm) 個あることに注意すると、さらに改善できる。このとき、Bを保持するのに必要なビット数の情報理論的下界は、(m,n)=lg(nm)である。この下界を達成する(静的な)簡潔辞書は存在し、 必要とする領域は(m,n)+o((m,n)) である[8]。そのデータ構造はさらに、(m,n)+O(m+nlglgn/lgn)の領域量でrankselectをサポートするように拡張することができる[2]。この下界は、辞書を保持する領域を (m,n)+O(ntt/lgtn+n3/4) とし、質問に必要な時間を O(t) とすることで領域と時間のトレードオフに帰着させることができる[9]

応用例

可変長のアイテムの列を符号化する必要がある場合は、単に個々のアイテムを区切り記号なしで順に並べればよい。それと別に、アイテムの始まりの位置に1を、それ以外の位置に0を置いた二値配列を符号化する。この補助ビット列で select 関数を用いるとあるインデクス値のアイテムの開始位置を高速に求めることができる[10]

別の例として二分木の表現がある。ノードnのあらゆる二分木は、親の参照、左右の子の参照、部分木のサイズの取得など、各ノードに対する多数の操作を定数時間でサポートしながら 2n+o(n) ビットで表現できる。 ノード数 n の異なる二分木の数は (2nn)/(n+1) である。大きな n に対しては、これはおよそ 4n にしたがう。このため、符号化には少なくともおよそ log2(4n)=2n ビットが必要である。したがって簡潔二分木に必要な領域量はノードごとに 2 ビットである。

参考文献

推奨文献