局所性鋭敏型ハッシュ

局所性鋭敏型ハッシュ（きょくしょせいえいびんがたハッシュ、テンプレート:Lang-en）とは高次元のデータを確率的な処理によって次元圧縮するための手法である。ハッシュの基本的な考え方は類似したデータが高確率で同じバケットに入るようにデータを整理するというものである。多くの場合においてこのバケットの数は入力されるデータサンプルの数よりもずっと小さくなる。

定義

局所性鋭敏型ハッシュを行うためのパラメータの集合をLSH族(Locality Sensitive Hashing Family)と呼ぶ。LSH族は距離空間 $ℳ = (M, d)$ と閾値 $R > 0$ 、近似因子 $c > 1$ によって定義される。LSH族^[1]^[2]は2点 $p, q \in ℳ$ について次の2つの性質、

$d (p, q) \leq R$ ならば $h (p) = h (q)$ となる確率は $P_{1}$ 以上である。
$d (p, q) \geq c R$ ならば $h (p) = h (q)$ となる確率は $P_{2}$ 以下である。

を満たす関数 $h : ℳ \to S$ により与えられる族であり， $h$ は $ℱ$ から一様乱数にしたがって選択される。このとき $d (p, q)$ は2点 $p, q$ の距離を表す関数であり、 $P_{1} > P_{2}$ となるよう設計する。このような族 $ℱ$ は $(R, c R, P_{1}, P_{2})$ に鋭敏であるという。

これに準ずる定義として、領域 $U$ における類似度関数 $ϕ : U \times U \to [0, 1]$ によるものがある^[3]。局所性鋭敏型ハッシュの性質は、ハッシュ関数の集合 $H$ と確率分布 $D$ により与えられる。あるハッシュ関数 $h$ は集合 $H$ から確率分布 $D$ により選ばれるが、 $D$ とは領域 $U$ に存在する2点 $a, b$ について、

P r_{h \in H} [h (a) = h (b)] = ϕ (a, b)

を満たすような確率分布である。

手法

ハミング距離に基づく標本化

LSH族を構築するためのもっとも単純な手法はハミング距離に基づくものである。これは $d$ 次元のベクトル ${0, 1}^{d}$ に対して適応できる。この手法は $d$ 次元のベクトルについて $i$ 番目の座標値をハッシュ値として与えるような族 $ℱ$ により定義され、 $ℱ$ とは例えば $ℱ = {h : {0, 1}^{d} \to {0, 1} ∣ h (x) = x_{i}, i = 1 . . . d}$ のように与えられる。ここで $ℱ$ から $h$ を任意に選ぶということは、入力点から任意にビットを選択するということに他ならない。この時、族は次の性質を持つ。

P_{1} = 1 - R / d

,

P_{2} = 1 - c R / d

安定分布に基づく手法

ハッシュ関数 $h_{𝐚, b} (υ) : ℛ^{d} \to 𝒩$ を $d$ 次元のベクトル $v$ を整数の集合に移すような関数であると定義する^[4]。ハッシュ関数 $h$ は2つの乱数 $a, b$ によって定義される。ここで $a$ とは安定分布から独立に選ばれる乱数であり、 $b$ とは $[0, r]$ から一様に選ばれる実乱数である。 $a$ および $b$ が選ばれたとき、ハッシュ関数 $h_{𝐚, b}$ は

h_{𝐚, b} (υ) = ⌊ \frac{𝐚 \cdot υ + b}{r} ⌋

のように与えられる。

この他にもデータをより適切に対応させるハッシュ関数が提案されている^[5]。例えばk-平均法に基づくハッシュ関数などは大域的最適解を与えることが保証されていないものの実用的なハッシュ関数として知られている。

出典

テンプレート:脚注ヘルプ

局所性鋭敏型ハッシュ

目次

定義

手法

ハミング距離に基づく標本化

安定分布に基づく手法

出典

関連項目

ナビゲーションメニュー

局所性鋭敏型ハッシュ

定義

手法

ハミング距離に基づく標本化

安定分布に基づく手法

出典

関連項目

ナビゲーション メニュー

検索

ナビゲーションメニュー