パープレキシティのソースを表示

{{出典の明記| date = 2022年7月}}
{{混同|Perplexity|x1=AIサービスの}}
{{Wiktionary|perplexity}}

[[情報理論]]において、'''パープレキシティ'''（{{Lang-en-short|perplexity}}）は、[[確率分布]]や[[統計モデル|確率モデル]]が[[標本 (統計学)|サンプル]]をどの程度正確に[[予測]]するかを示す指標である。確率モデルを比較するために使用することができる。パープレキシティが低いということは、確率分布がサンプルを予測するのに優れていることを示している。

== 確率分布のパープレキシティ ==
離散[[確率分布]] <math>p</math> のパープレキシティ <math>PP</math> は次のように定義される。

: <math>\mathit{PP}(p) := 2^{H(p)}=2^{-\sum_x p(x)\log_2 p(x)}=\prod_x p(x)^{-p(x)}</math>

ここで、<math>H(P)</math> は分布の[[エントロピー (情報理論)|エントロピー]]（ビット単位）であり、 <math>x</math> はイベントの範囲である。(基数は<math>2</math>である必要はない。そのエントロピーとべき乗の'''基数が同じ'''場合、パープレキシティは基数に依存しない。) この尺度は、ある学問領域では（次数<math>1</math>の真の）[[多様度指数|多様性]]{{Enlink|Diversity index|英語版|en}}としても知られている。

[[確率変数]] <math>X</math> のパープレキシティは、その可能な値 <math>x</math> に対する分布のパープレキシティと定義することができる。

<math>p</math> が公平な <math>k</math> 面ダイス（<math>k</math> 個の離散イベントに対する一様分布）をモデル化している特別な場合、そのパープレキシティは <math>k</math> である。パープレキシティが <math>k</math> の確率変数は、公平な <math>k</math> 面ダイスと同じ不確実性を持ち、その確率変数の値について「<math>k</math> 点パープレックス（<span lang="en" dir="ltr"><math>k</math>-ways perplexed</span>）」であるという。（公平な <math>k</math> 面ダイスでない限り、<math>k</math> を超える値が可能であるが、これらの値の中には <math>1/k</math> より大きい確率を持つものがあり、それを合計すると全体の値が減少するため、全体の不確実性は増加しない）。

パープレキシティは、予測問題の難しさを示す尺度として使われることがある。しかし、必ずしも正確ではない。2つの選択肢があり、そのうち1つの確率が 0.9 だとすると、最適な戦略で正解する確率は 90 %である。パープレキシティは <math display="inline">2^{-0.9 \log_2{0.9} -{0.1} \log_2{0.1}} = 1.38</math>である。パープレキシティの逆数（公平な <math>k</math> 面ダイスの場合、正しく推測できる確率を表す）は、0.9 ではなく、1/1.38 =  0.72 である。

パープレキシティはエントロピーの指数化<!-- exponentiation -->であり、より明確な量である。エントロピーとは、たとえば理論的に最適な可変長符号を使用して、確率変数の結果を符号化するために必要なビット数の期待値、あるいは平均値を示す尺度である。これは、確率変数の結果を学習することによる期待[[情報]]利得<!-- expected information gain -->と等価と考えることができる。

== 確率モデルのパープレキシティ ==
未知の確率分布 ''p'' のモデルは、''p'' から抽出された訓練サンプルに基づいて提案されることがある。提案された確率モデル ''q'' が与えられたとき、同じく ''p'' から抽出された別のテストサンプル ''x''<sub>1</sub>, ''x''<sub>2</sub>, ..., ''x<sub>N</sub>'' をどの程度予測できるかを問うことによって ''q'' を評価することができる。モデル ''q'' のパープレキシティは次のように定義される。

: <math>b^{- \frac{1}{N} \sum_{i=1}^N \log_b q(x_i)} = \left(\prod_i q(x_i) \right)^{-1/N}</math>

ここで、 <math>b</math> は通常 2 とされる。未知分布 ''p'' のより優れたモデル ''q'' は、テストイベントにより高い確率 ''q''(''x<sub>i</sub>'') を割り当てる傾向がある。したがって、そのパープレキシティは低くなり、テストサンプルに当惑することは少なくなる。

上記の指数は、''q'' に基づく最適な符号を使用した場合に、テストイベント ''x<sub>i</sub>'' を表現するのに必要な平均ビット数と考えることができる。パープレキシティが低いモデルは、テストサンプルを圧縮することに優れていて、 ''q''(''x<sub>i</sub>'') が高くなる傾向にあるため、テスト要素あたり必要とするビット数は平均して少なくなる。

指数 <math>- \frac{1}{N} \sum_{i=1}^N \log_b q(x_i)</math> は、[[交差エントロピー]]と解釈することもできる。

: <math>H(\tilde{p},q) = -\sum_x \tilde{p}(x) \log_b q(x)</math>

ここで、 <math>\tilde{p}</math> はテストサンプルの{{Ill2|経験分布関数|en|Empirical distribution function|label=経験分布}}を表す（すなわち、サイズ ''N'' のテストサンプルに ''x'' が ''n'' 回出現した場合、<math>\tilde{p}(x) = n/N</math>）。
[[カルバック・ライブラー情報量]]の定義により、これは<math display="block">H(\tilde p) + D_{KL}(\tilde p \| q)</math>とも等しく、これは <math>\geq H(\tilde p)</math> となる。したがって、<math>q = \tilde p</math> のときに、パープレキシティは最小となる。

== 単語ごとのパープレキシティ ==
<!-- 下記、Template:更新 は、英語版記事からの引き継ぎ -->
{{更新|date=2023年5月|section=1|[[言語モデル]]の革命的な進歩にもかかわらず、2007年以来更新されていない。}}

[[自然言語処理]]（NLP）において、[[テキストコーパス|'''コーパス''']]は文やテキストの集合であり、'''[[言語モデル]]'''は文やテキスト全体に対する確率分布である。したがって、コーパスに対する言語モデルのパープレキシティを定義することができる。しかし、NLPでは、より一般的に使われる尺度は単語ごとのパープレキシティ（perplexity per word）であり、次のように定義される。<math display="block">\left(\prod_{i=1}^n q(s_i) \right)^{-1/N}</math>ここで、 <math>s_1, ..., s_n</math> はコーパス内の <math>n</math> 個の文、 <math>N</math> はコーパス内の単語数である。

コーパスの平均的な文 ''x<sub>i</sub>'' が言語モデルに応じて <math>2^{-190}</math> の確率を持つとする。そうすると、1文あたり 2<sup>190</sup> という膨大なモデルパープレキシティを生じる。ただし、文の長さで正規化する方法が一般的である。たとえば、テストサンプルの文が 1,000 語で、1単語あたり 7.95 ビットで符号化できたとした場合、1単語あたり 2<sup>7.95</sup> = 247 のモデルパープレキシティを得ることができる。言い換えれば、モデルはテストデータ上で、各単語の 247 の可能性の中から一様に独立して選択しなければならないのと同じくらい混乱している。

=== ブラウン・コーパス ===
1992年に発表された{{Ill2|ブラウン・コーパス|en|Brown Corpus}}（さまざまなトピックやジャンルの100万語のアメリカ[[英語]]）の最小パープレキシティは、実に1単語あたり約 247 であり、{{Ill2|トライグラム|en|Trigram}}モデルを使用した場合の[[交差エントロピー]]は、log<sub>2</sub>247 = 7.95 ビット/単語、または 1.75 ビット/文字に相当する<ref>{{cite journal|last=Brown|first=Peter F.|date=March 1992|title=An Estimate of an Upper Bound for the Entropy of English|url=https://www.cs.cmu.edu/~roni/11761/PreviousYearsHandouts/gauntlet.pdf|journal=Computational Linguistics|volume=18|issue=1|access-date=2007-02-07|display-authors=etal}}</ref>。より専門的なコーパスの場合は、予測可能性が高くなるために、より低いパープレキシティを達成することがよくある。

ところが、ブラウン・コーパスの次の単語が「the」であると単純に推測した場合の精度は 7%になり、予測可能性の尺度としてパープレキシティを単純に使用した 1/247 = 0.4 %ではない。この推定値は、ブラウン・コーパスの{{Ill2|ユニグラム|en|unigram}}統計に基づくもので、パープレキシティ 247 を生成したトライグラム統計に基づくものではない。トライグラム統計を使用すると正しい推測の可能性はさらに向上する。

== 関連項目 ==

* {{Ill2|統計モデル検証|en|Statistical model validation}} - 選択した統計モデルが適切か否かを評価する作業

== 脚注 ==
<references />

<!--
{{Machine learning evaluation metrics}}
[[Category:Entropy and information]]
[[Category:Language modeling]]
-->

{{DEFAULTSORT:はあふれきしてい}}
[[Category:エントロピーと情報]]
[[Category:言語モデル]]
[[Category:数学に関する記事]]