t分布型確率的近傍埋め込み法

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:Machine learning bar t分布型確率的近傍埋め込み法(ティーぶんぷかくりつてききんぼううめこみほう、テンプレート:Lang-en、略称: t-SNE)は、高次元データの個々のデータ点に2次元または3次元マップ中の位置を与えることによって可視化のための統計学的手法である。サム・ロウェイスとジェフリー・ヒントンにより最初に開発された確率的近傍埋め込み法[1]を基にしており、ラウレンス・ファン・デル・マーテンがt分布版を提唱した[2]。高次元データの可視化のため2次元または3次元の低次元空間へ埋め込みに最適な非線形次元削減手法である。具体的には、高次元のデータ集合を2次元または3次元へ配置する際に、高い確率で類似した集合が近傍に、異なる集合が遠方となるように対応付ける。

t-SNEのアルゴリズムは主に2つの段階で構成される。第一に、高次元データの各対について類似する集合が選択される可能性が高く、一方で異なる集合が選択される可能性が極めて小さくなるように確率分布を構築する。第二に、低次元マップ上の集合について同様な確率分布を定義し、2つの分布間のカルバック・ライブラー情報量を最小化する低次元マップ内の点の位置を求める。元のアルゴリズムは二点の類似度の指標にユークリッド距離を使用しているが、これは必要に応じ適切に変更する必要がある。

t-SNEは、コンピュータセキュリティ研究[3]、音楽分析[4]、癌研究,[5]バイオインフォマティクス[6]、および生物医学信号処理[7]を含む、幅広い応用の可視化に利用されている。人工ニューラルネットワークによって学習された高レベルの表現の可視化にもよく使用される[8]

多くの場合、t-SNEで表示された図ではクラスターが見えるが、可視化されたクラスターは選択したパラメータにより強く影響される可能性があるため、t-SNEのパラメータをよく理解することが必要である。そのような「クラスター」は、非クラスターのデータにも現れることがあり[9]、したがって誤った発見かもしれない。したがって、パラメータを選択して結果を検証を繰り返す探索が必要となる可能性がある[10][11]。t-SNEはよく分離されたクラスターを復元できることが多く、特別なパラメーターを選択により単純な形のテンプレート:仮リンク形状を近似することが実証されている。[12]

詳細

高次元のN個のデータ集合𝐱1,,𝐱N与えられているとする。高次元データ集合の類似度の特徴を反映した低次元上に表現されたN個のデータ集合Y(𝐲1,,𝐲N) を求めるのが目的である。

t-SNEのパラメータとしてコスト関数のパラメータのパープレキシティ (perplexity) と最適化のパラメーターの反復計算回数T、学習率η、モーメンタムα(t)をそれぞれ与える。ファン・デル・マーテンによればt-SNEの性能は異なるパープレキシティの設定に対してはかなり頑健で、最適なパープレキシティは使用するデータにより異なるが典型的には5から50までの間の値が用いられる。

最初に高次元のデータ集合について各対の類似度を計算する。ファン・デル・マーテンとヒントンは「データ点xiに対してデータ点xjxiを中心とするガウス分布の確率密度分布に比例して選ばれるならば、xjxiの類似度は条件付き確率pj|iと表される」[2]と説明した。

pji=exp(𝐱i𝐱j2/2σi2)kiexp(𝐱i𝐱k2/2σi2),

ただし同じ点の対に対してはpii=0となる。

σiはガウス分布の偏差で、次のパープレキシティの関係式を満たす偏差σi二分法により求める。

Perp(Pi)=2H(Pi)
H(Pi)=jpjilog2pji

ここでH(Pi)シャノンエントロピーである。密集していてデータ集合空間が小さければσiは小さい値となる。

次に同時確率pijを次の式で求める。

pij=pji+pij2N

ただしi=j の場合は0となる。 pii=0

平均0のガウス分布の無作為標本を初期解Y(0)とする。

最後にt=1からt=Tまで以下の手順をT回の繰り返しにより解Y(T)を求める。

t-1番目の解Y(t1) に対する低次元上の類似度を計算する。

自由度1のt分布コーシー分布)を利用した同時確率。

qij=(1+𝐲i𝐲j2)1kl(1+𝐲k𝐲l2)1

ただし同じ点の対に対しては0とする。qii=0

pijの分布Pとqijの分布Qについてのカルバック・ライブラー情報量を目的関数とし、最小となる解Y(t)求める。

KL(P||Q)=ijpijlogpijqij

各iについて目的関数の勾配を計算する。

δCδyi=4j(pijqij)(yiyj)(1+yiyj2)1

目的関数の勾配と以前の解よりt番目の解Y(t)を計算する。

Y(t)=Y(t1)+ηδCδY+α(t)(Y(t1)Y(t2))

Y(T)を図示することで高次元のデータ集合のクラスターを把握できる。

弱点

  • 一般的な次元削減課題をどのように実行するかが不明確である。
  • 比較的局所的な性質によりデータの固有次元の呪いに敏感になる。
    • ガウス関数はユークリッド距離 xixjを使用しているため、次元の呪いの影響を受け、高次元でデータを距離により区別する能力が失われる。pijはほとんど同じ値となる(高次元で定数に漸近する)。これを軽減するために、各点の固有の次元に基づいて、冪乗変換により距離を調節する手法が提案されている。[13]
  • t目的関数の大域的最小値への収束が保証されていない。
    • 同じアルゴリズムパラメータでも得られる解が異なることがある。

脚注

テンプレート:Reflist

外部リンク