自己相互情報量のソースを表示
←
自己相互情報量
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
'''自己相互情報量'''(じこそうごじょうほうりょう、{{lang-en|pointwise mutual information}}、略称: PMI)は、[[統計学]]、[[確率論]]、[[情報理論]]における関連性の尺度である<ref name="Church1990">{{Cite journal|last=Kenneth Ward Church and Patrick Hanks|date=March 1990|title=Word association norms, mutual information, and lexicography|url=http://aclweb.org/anthology/J90-1003|journal=Comput. Linguist.|volume=16|issue=1|pages=22–29}}</ref>。全ての可能な事象の平均を取る[[相互情報量]](mutual information、MI)とは対照的に、単一の事象を指す。 == 定義 == [[確率変数|離散確率変数]]<math>X, Y</math> に属する[[確率空間|結果]] <math>x, y</math> の組の自己相互情報量は、[[独立 (確率論)|独立性]]の仮定の下で、それらの[[同時分布]]と個々の分布が与えられたときの同時確率の不一致を定量化したものである。数学的には下記の式として表される。 : <math> \operatorname{pmi}(x;y) \equiv \log\frac{p(x,y)}{p(x)\,p(y)} = \log\frac{p(x \mid y)}{p(x)} = \log\frac{p(y \mid x)}{p(y)} </math> 多確率変数の結果の組 <math>y_{1}, y_{2}, \dots, y_{q}</math> の自己相互情報量は、次に与えられる。 : <math> \operatorname{PMI}\left(y_1, y_2, \ldots, y_q\right) =\log \frac{p\left(y_1, y_2, \ldots, y_q\right)}{p\left(y_1\right) p\left(y_2\right) \ldots p\left(y_q\right)} = \log p(\boldsymbol{y}) - \log \prod_{j=1}^q p(y_j) </math> 確率変数 <math>X_{1}, X_{2}, \dots, X_{q}</math> の[[相互情報量]]は、自己相互情報量の期待値である。 : <math> \begin{align} I(\boldsymbol{X}) &{} = D_{\mathrm{KL}} \left(P_{\boldsymbol{X}} {\|} \bigotimes_{X \in \boldsymbol{X}} P_X \right) \\ &{} = \int p(\boldsymbol{x}) \log \frac{p(\boldsymbol{x})}{\prod_{i} p(x_i)} \mathrm{d}\boldsymbol{x} \\ &{} = \int p(\boldsymbol{x}) \left(\log p(\boldsymbol{x}) - \log \prod_{i} p(x_i)\right) \mathrm{d}\boldsymbol{x} \\ &{} = \mathbb{E}_{p\left( \boldsymbol{x} \right)}\left[ \log{ p(\boldsymbol{x}) } - \log{ \prod_{i} p(x_i) } \right] \\ &{} = \mathbb{E}_{p\left( \boldsymbol{x} \right)}\left[\operatorname{PMI}\left(p\left(\boldsymbol{x}\right)\right)\right] \end{align} </math> 対称性がある。 : <math> \operatorname{pmi}(x;y) = \operatorname{pmi}(y;x) </math> 正負の値を取りうるが、<math>X, Y</math> が[[独立 (確率論)|独立し]]ている場合はゼロである。 PMI が負であっても正であっても、すべての共同イベントに対する期待値である相互情報量は正である。<math>X, Y</math> が完全に関連している場合、すなわち、<math>p(x \mid y) = 1</math> または <math>p(y \mid x) = 1</math> のとき、次のような境界が得られる。 : <math> -\infty \leq \operatorname{pmi}(x;y) \leq \min \left\{ -\log p(x), -\log p(y) \right\} </math> なお、<math>p(x \mid y)</math> が一定で <math>p(x)</math> が減少するなら、<math>\operatorname{pmi}(x;y)</math> は増加する。 次の例を考える。 {| class="wikitable" !<math>x</math> !<math>y</math> ! <math>p(x, y)</math> |- | 0 | 0 | 0.1 |- | 0 | 1 | 0.7 |- | 1 | 0 | 0.15 |- | 1 | 1 | 0.05 |} この表を[[周辺分布|周辺化]]して、個々の分布について次のような表が得られる。 {| class="wikitable" ! ! <math>p(x)</math> ! <math>p(y)</math> |- | 0 | 0.8 | 0.25 |- | 1 | 0.2 | 0.75 |} 2を底とする対数用いると、<math>\operatorname{pmi}(x;y)</math> を次のように計算できる。 :<math> \begin{align} \operatorname{pmi}(x = 0; y = 0) &= -1 \\ \operatorname{pmi}(x = 0; y = 1) &= 0.222392 \\ \operatorname{pmi}(x = 1; y = 0) &= 1.584963 \\ \operatorname{pmi}(x = 1; y = 1) &= -1.584963 \end{align} </math> なおこのとき、[[相互情報量]] <math>\operatorname{I}(X;Y) = 0.2141709</math> と計算できる。 == 相互情報量との類似点 == 自己相互情報量は、相互情報量と同様の性質がある。 <math> \begin{align} \operatorname{pmi}(x;y) &= h(x) + h(y) - h(x,y) \\ &= h(x) - h(x \mid y) \\ &= h(y) - h(y \mid x) \end{align} </math> ここで、自己情報量 <math>h(x) = -\log_2 p(X=x)</math> である。 == 正規化自己相互情報量(Normalized PMI) == 自己相互情報量は、区間 <math> [-1, 1] </math> で正規化できる。決して共起しない場合は−1、独立の場合は0、完全に[[共起]]する場合は+1が得られる<ref>{{Cite web |title=Normalized (Pointwise) Mutual Information in Collocation Extraction |url=https://svn.spraakdata.gu.se/repos/gerlof/pub/www/Docs/npmi-pfd.pdf |author=Bouma |first=Gerlof |year=2009 |accessdate=2022-05-02 |publisher=Proceedings of the Biennial GSCL Conference}}</ref>。 : <math> \operatorname{npmi}(x;y) = \frac{\operatorname{pmi}(x;y)}{h(x, y) } </math> ここで、<math>h(x,y)</math>は共同自己情報であり、次のように推定できる。 : <math> -\log_2 p(X=x,Y=y) </math> == PMIの亜種 == 上記のNormalized PMI以外にも多くの亜種がある<ref>Francois Role, Moahmed Nadif. [https://www.researchgate.net/publication/282359004_HANDLING_THE_IMPACT_OF_LOW_FREQUENCY_EVENTS_ON_CO-OCCURRENCE_BASED_MEASURES_OF_WORD_SIMILARITY_KDIR_2011__KDIR-_International_Conference_on_Knowledge_Discovery_and_Information_Retrieval_226-231_Paris_October_26-29_2011._102011 Handling the Impact of Low frequency Events on Co-occurrence-based Measures of Word Similarity:A Case Study of Pointwise Mutual Information.] Proceedings of KDIR 2011 : KDIR- International Conference on Knowledge Discovery and Information Retrieval, Paris, October 26-29 2011</ref>。 == PMIの連鎖律 == [[相互情報量]]と同様、自己相互情報量は連鎖律に従う<ref>{{Cite book|title=INFORMATION DYNAMICS: ITS THEORY AND APPLICATION TO EMBODIED COGNITIVE SYSTEMS|last=Paul L. Williams|url=https://www.researchgate.net/publication/266725181}}</ref>。 : <math>\operatorname{pmi}(x;\,y, z) = \operatorname{pmi}(x;\,y) + \operatorname{pmi}(x;\,z \mid y)</math> これは次のように証明できる。 : <math> \begin{align} \operatorname{pmi}(x;y) + \operatorname{pmi}(x;z \mid y) &= \log\frac{p(x,y)}{p(x) \, p(y)} + \log\frac{p(x,z \mid y)}{p(x \mid y) \, p(z \mid y)} \\ & {} = \log \left[ \frac{p(x, y)}{p(x) \, p(y)} \frac{p(x, z \mid y)}{p(x \mid y) \, p(z \mid y)} \right] \\ & {} = \log \frac{p(x \mid y) \, p(y) \, p(x,z \mid y)}{p(x) \, p(y) \, p(x \mid y) \, p(z \mid y)} \\ & {} = \log \frac{p(y) \, p(x, z \mid y)}{p(x) \, p(y) \, p(z \mid y)} \\ & {} = \log \frac{p(x, y, z)}{p(x) \, p(y, z)} \\ & {} = \operatorname{pmi}(x;yz) \end{align} </math> == 応用 == 自己相互情報量は、情報理論、言語学、化学(化合物のプロファイリングと分析など)など、さまざまな分野で利用できる<ref>{{Cite journal|last=Čmelo|first=I.|last2=Voršilák|first2=M.|last3=Svozil|first3=D.|date=2021-01-10|title=Profiling and analysis of chemical compounds using pointwise mutual information|url=https://doi.org/10.1186/s13321-020-00483-y|journal=Journal of Cheminformatics|volume=13|issue=1|pages=3|DOI=10.1186/s13321-020-00483-y|ISSN=1758-2946}}</ref>。[[計算言語学]]では、自己相互情報量は単語間の[[連語|コロケーション]]や関連正を見つけるために使用されてきた。たとえば、[[コーパス|テキストコーパス]]内の単語の出現と[[共起]]をカウントして、その確率 <math>p(x)</math> および <math>p(x,y)</math> を近似的に求めることができる。次の表は、ウィキペディアの上位5000万語(2015年10月時点)のうち、共起回数が1000回以上でフィルタリングした上で、PMIスコアが最も高い単語と最も低い単語のカウントを示したものである。各カウントの頻度は、その値を50,000,952で割ることで得られる(注:基底 2 ではなく、自然対数を使用して自己相互情報量を計算した)。 {| class="wikitable" style="text-align: center" !''単語1'' !''単語2'' !''単語1''の数 !''単語2''の数 !共起の数 !PMI |- |puerto |rico |1938 |1311 | 1159 | 10.0349081703 |- |hong |kong |2438 | 2694 | 2205 | 9.72831972408 |- |los |angeles |3501 | 2808 | 2791 | 9.56067615065 |- |carbon |dioxide |4265 | 1353 | 1032 | 9.09852946116 |- |prize |laureate |5131 | 1676年 |1210 | 8.85870710982 |- |san |francisco |5237 | 2477 | 1779 |8.83305176711 |- |nobel |prize |4098 | 5131 | 2498 | 8.68948811416 |- |ice |hockey |5607 | 3002 | 1933 |8.6555759741 |- |star |trek |8264 | 1594 | 1489 | 8.63974676575 |- |car |driver |5578 | 2749 | 1384 | 8.41470768304 |- |it |the | 283891 | 3293296 | 3347 | -1.72037278119 |- |are |of |234458 | 1761436 | 1019 | -2.09254205335 |- |this |the | 199882 | 3293296 | 1211 | -2.38612756961 |- |is |of |565679 | 1761436 | 1562 | -2.54614706831 |- |and |of |1375396 | 1761436 | 2949 | -2.79911817902 |- |a |and |984442 | 1375396 | 1457 | -2.92239510038 |- |in |and |1187652 | 1375396 | 1537 | -3.05660070757 |- |to |and |1025659 | 1375396 | 1286 | -3.08825363041 |- |to |in |1025659 | 1187652 | 1066 | -3.12911348956 |- |of |and |1761436 | 1375396 | 1190 | -3.70663100173 |} 良好なコロケーションのペアは、共起確率が各単語の出現確率よりもわずかに低い程度であり、PMIは高い。逆に、出現確率が共起確率よりもかなり高い単語のペアは、PMIが低い。 == 脚注 == {{Reflist}} == 参考文献 == * {{Cite book|last=Fano|first=R M|author-link=Robert Fano|year=1961|title=Transmission of Information: A Statistical Theory of Communications|publisher=MIT Press, Cambridge, MA|url=https://archive.org/details/TransmissionOfInformationAStatisticalTheoryOfCommunicationRobertFano|chapter=chapter 2|isbn=978-0262561693}} == 外部リンク == * [https://archive.today/20070707124600/http://cwl-projects.cogsci.rpi.edu/msr/ Demo at Rensselaer MSR Server] (PMI values normalized to be between 0 and 1) {{DEFAULTSORT:しこそうこしようほうりよう}} [[Category:情報理論]] [[Category:確率論]] [[Category:数学に関する記事]]
このページで使用されているテンプレート:
テンプレート:Cite book
(
ソースを閲覧
)
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Cite web
(
ソースを閲覧
)
テンプレート:Lang-en
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
自己相互情報量
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報