最尤推定のソースを表示

'''最尤推定'''（さいゆうすいてい、{{lang-en-short|maximum likelihood estimation}}という）や'''最尤法'''（さいゆうほう、{{lang-en-short|method of maximum likelihood}}）とは、[[統計学]]において、与えられたデータからそれが従う[[確率分布]]の[[母数]]を[[点推定]]する方法である。

{{Indent|<math>\begin{array}{lcl}
X            & \thicksim & f(X \mid \theta_{0}) \\
\hat{\theta} &     =     & \arg \max\limits_{\theta}L(\theta \mid X=x)=\arg \max\limits_{\theta}f(X=x \mid \theta)
\end{array}</math>}}この方法は[[ロナルド・フィッシャー]]が[[1912年]]から[[1922年]]にかけて開発した。

観測されたデータからそれを生んだ母集団を説明しようとする際に広く用いられる。生物学では[[塩基]]や[[アミノ酸]]配列のような分子データの置換に関する確率モデルに基づいて[[系統樹]]を作成する際に、一番尤もらしくデータを説明する樹形を選択するための有力な方法としても利用される。機械学習では[[ニューラルネットワーク]]（特に[[生成的モデル|生成モデル]]）を学習する際に最尤推定（負の対数尤度最小化として定式化）が用いられる。

==基本的理論==
最尤推定が解く基本的な問題は「パラメータ <math>\theta</math>が不明な確率分布<math>f_D</math>に従う母集団から標本が得られたとき、データを良く説明する良い <math>\theta</math>は何か」である。 

ある母集団が[[確率分布]]関数 <math>f_D</math> と母数 <math>\theta</math>で表される離散確率分布 <math>D</math> を従うとする。そこから <math>n</math> 個の[[標本 (統計学)|標本]] <math>X_1, X_2, ... X_n</math> を取り出すことを考えよう。すると分布関数から、観察されたデータ（標本）が得られる確率を次のように計算できる（離散分布はP=f)：

{{Indent|<math>\mathbb{P}(x_1,x_2,\dots,x_n \mid \theta) = f_D(x_1,\dots,x_n \mid \theta)</math>}}

このとき、母集団分布 <math>D</math>の形（確率分布<math>f_D</math>）はわかっているが母数 <math>\theta</math> は不明な場合、どうしたら <math>\theta</math> を良く'''推定'''できるか？利用できる情報はこの母集団から得られた <math>n</math> 個の標本 <math>X_1, X_2, ... X_n</math> である。

最尤法では 、'''<math>\theta</math>を仮定したときに今回サンプリングされた標本が得られる確率'''に着目する。すなわち上記にある、母数 <math>\theta</math> で条件付けられた確率Pに着目する。異なる '''<math>\theta</math>'''（'''<math>\theta _{a}</math>'''と '''<math>\theta _{b}</math>'''）を仮定して'''<math>P_{\theta_{a}}<P_{\theta_{b}}</math>'''だった場合、これは何を意味するか？ 例えばコイン振りの表確率 <math>\theta</math>を '''<math>\theta _{a}=0.01</math>'''と '''<math>\theta _{b}=0.5</math>'''と仮定し、実際の標本が（表・表・表・表・裏）となって <math>\mathbb{P}(x \mid \theta =0.01) = 0.000...9</math>、<math>\mathbb{P}(x \mid \theta =0.5) = 0.03125</math>（'''<math>P_{\theta_{a}}<<P_{\theta_{b}}</math>'''）だった場合、これは何を意味するか？

直感的には「'''<math>\theta _{b}=0.5</math>'''の方がそれっぽい」と考えられる。すなわち2つの <math>\theta</math>を仮定したとき、片方ではほぼあり得ない現象が起きたことになり、もう片方ではまぁありうる確率の現象が起きたと考えられるので、より<math>\mathbb{P}(x \mid \theta)</math>が大きい方が'''尤もらしい'''と'''推定'''しているのである。もちろん奇跡的に稀な表が続いた（ '''<math>\theta _{a}=0.01</math>'''である）可能性もありうるが、より尤もらしいのはより起きやすい現象であろう、という論理が最尤推定の根底にある論理である（「起きやすい現象が起きた」と「起きづらい現象が起きた」なら前者と考えるのが合理的、という論理）。

このような論理に基づき、母数 <math>\theta</math> の一番尤もらしい値を探す（<math>\theta</math> のすべての可能な値の中から、観察された標本の[[尤度|'''尤'''度]] <math>\mathbb{P}(x \mid \theta)</math>を'''最'''大にするものを探す）方法が最尤推定である。これは他の推定量を求める方法と対照的である。たとえば <math>\theta</math> の[[不偏推定量]]は、 <math>\theta</math> を過大評価することも過小評価することもないが、必ずしも一番尤もらしい値を与えるとは限らない。
[[尤度関数]]を次のように定義する：

{{Indent|<math>L(\theta) = f_D(x_1,\dots,x_n \mid \theta)</math>}}

この関数を母数 <math>\theta</math> のすべての可能な値から見て最大になるようにする。そのような値 <math>\hat{\theta}</math> を母数<math>\theta</math> に対する'''最尤推定量'''（さいゆうすいていりょう、maximum likelihood estimator、これも'''MLE'''と略す）という。最尤推定量は（適当な仮定の下では）しばしば'''[[尤度方程式]]'''（ゆうどほうていしき、likelihood equation）
:<math>\frac{\partial}{\partial\theta}\log L(\theta) = 0</math>
の解として求められる。

===注意===
*尤度は <math>\theta</math> を変数とし <math>x_1,x_2,\ldots,x_n</math> を定数とする関数である。
*最尤推定量は唯一ではないこともあるし、存在しないことさえある{{sfn|Romano|Siegel|1986|p=182}}。
*<math>f_D</math> を離散確率分布関数でなく[[確率密度関数]]として考えれば、上の定義は連続確率分布にも当てはまる。

==== 尤度の解釈 ====
尤度 <math>\mathbb{P}(x \mid \theta)</math>は条件付確率の定義から「<math>\theta</math>を仮定したときに今回サンプリングされた標本が得られる確率」である。「観測データから求まる、パラメータが<math>\theta</math>である確率」では'''決してない'''。それは事後確率 <math>\mathbb{P}(\theta \mid x)</math>である。

よって尤度最大の <math>\theta</math>を求める最尤推定は「パラメータが<math>\theta</math>である確率をデータから最大化する統計的推論手法」ではない。起きやすい現象が起きた場合が最も尤もらしいという考えに基づいて、尤度を最大化する <math>\theta</math>を母集団の推定値とする手法が最尤推定である。

=== 他手法との関係性 ===

==== MAP推定 ====
最尤推定は'''[[最大事後確率|最大事後確率推定]]'''（'''MAP推定'''）の特殊例とみなせる。[[ベイズの定理]]より <math>\mathbb{P}(\theta \mid x) \sim \mathbb{L}(\theta \mid x) \cdot \mathbb{P}(\theta)</math> は常に成り立ちここで <math>\mathbb{P}(\theta)</math> を[[一様分布]]と仮定すると、<math>\mathbb{P}(\theta \mid x) \sim \mathbb{L}(\theta \mid x)</math> となってこの最大値推定量はMLEと一致する（c.f. [[計量経済学]]）。

==例==
===離散分布で、母数が離散的かつ有限の場合===
以下、コインを投げて表・裏（あるいは成功・失敗：その確率は0.5とは限らない）のいずれが出るかを見る場合（'''[[ベルヌーイ試行]]'''）を例にとる。

箱の中に3つのコインがあるとしよう。見た目では全く区別がつかないが、表の出る確率<math>p</math>が、それぞれ<math>p=1/3</math>、<math>p=1/2</math>、<math>p=2/3</math> である。（<math>p</math> が、上で <math>\theta</math> と書いた母数にあたる）。箱の中から適当に1つ選んだコインを80回投げ、<math>x_1=\mbox{H}</math> 、 <math>x_2=\mbox{T} </math> 、 <math>\ldots </math> 、 <math>x_{80}=\mbox{T}</math> のようにサンプリングし、表(H)の観察された回数を数えたところ、表(H)が49回、裏が31回であった。さて、投げたコインがどのコインであったと考えるのが一番尤もらしいか？　一番尤もらしいコイン（すなわち、一番尤もらしい<math>p</math>の値）を推定するためには、次のように尤度を計算する：

{{Indent|<math>
\begin{matrix}
\mathbb{P}(\mbox{49H/80}\mid p=1/3) & = & \binom{80}{49}(1/3)^{49}(1-1/3)^{31} = 0.000 \\
&&\\
\mathbb{P}(\mbox{49H/80}\mid p=1/2) & = & \binom{80}{49}(1/2)^{49}(1-1/2)^{31} = 0.012 \\
&&\\
\mathbb{P}(\mbox{49H/80}\mid p=2/3) & = & \binom{80}{49}(2/3)^{49}(1-2/3)^{31} = 0.054 \\
\end{matrix}
</math>}}

こうして母数 <math>\hat{p}=2/3</math> によって尤度が最大となることがわかり、これが <math>p</math> に対する最尤推定量である。

===離散分布で、母数が連続的な場合===
こんどは上の例での箱に入っているコインの数は無限であると仮定する。それぞれがすべての可能な <math>0\leq p \leq 1</math> の値をとるとする。するとすべての可能な <math>0\leq p \leq 1</math> の値に対して次の尤度関数を最大化しなければならない：

{{Indent|<math>
\begin{matrix}
L(p) & = & f_D(\mbox{observe 49 HEADS out of 80}\mid p) = \binom{80}{49} p^{49}(1-p)^{31} \\
\end{matrix}
</math>}}

この関数を最大化するには <math>p</math> に関して[[微分]]しその値を0にすればよい：

{{Indent|<math>
\begin{matrix}
0 & = & \frac{d}{dp} \left( \binom{80}{49} p^{49}(1-p)^{31} \right) \\
  &   & \\
  & \propto & 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\
  &   & \\
  & = & p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right] \\
\end{matrix}
</math>}}

これを解けば <math>p=0</math> 、 <math>p=1</math> 、 <math>p=49/80</math> の3つの解が得られるが、そのうち尤度を最大化するのは明らかに <math>p=49/80</math> である（ <math>p=0</math> と <math>p=1</math> では尤度は0になってしまう）。こうして <math>p</math> に対する最尤推定量は <math>\hat{p}=49/80</math> と求められる。
この結果で、ベルヌーイ試行の成功数49を <math>t</math> と置き、全回数80を <math>n</math> と置けば一般化できる。 <math>n</math> 回のベルヌーイ試行で <math>t</math> 回成功した場合に対する母数 <math>p</math> の最尤推定量は

{{Indent|<math>\hat{p}=\frac{t}{n}</math>}}

となる{{sfn|Lehmann|Casella|1998|p=445}}。

===分布、母数とも連続的な場合===
よく出てくる連続確率分布に、次の[[正規分布]]がある：

{{Indent|<math>f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}</math>}}

この分布に従う <math>n</math> 個の独立なランダム変数標本の密度関数は：

{{Indent|<math>f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^2}}</math>}}

また計算しやすいように書き換えると：

{{Indent|<math>f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}}</math>}}

この分布には[[平均]] <math>\mu</math> と[[分散 (確率論)|分散]] <math>\sigma^2</math> の2つの母数がある。上では1つの母数に対する最大化だけを議論したが、この場合も各母数に対して尤度 <math>L(\mu,\sigma) = f(x_1,,\ldots,x_n \mid \mu, \sigma^2)</math> を最大化すればよい。上の書き方なら <math>\theta=(\mu,\sigma^2)</math> とする（このように母数が複数の場合は母数[[ベクトル]]{{要曖昧さ回避|date=2021年7月}}として扱う）。
尤度を最大にするのは、尤度の[[自然対数]]を最大にするのと同じである（自然対数は単調増加関数であるから）。このような計算法はいろいろな分野でよく利用され、対数尤度は[[情報]]の[[エントロピー]]や[[フィッシャー情報]]と密接な関係がある。

{{Indent|<math>
\begin{matrix}
0 & = & \frac{\partial}{\partial \mu} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\
  & = & \frac{\partial}{\partial \mu} \left( \log\left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\
  & = & 0 - \frac{-2n(\bar{x}-\mu)}{2\sigma^2} \\
\end{matrix}
</math>}}

これを解くと <math>\hat{\mu} = \bar{x} = \sum^{n}_{i=1}x_i/n </math> となる。これはまさに関数の最大値、すなわち  <math>\mu</math> の唯一の極値で、2次微分は負となる。
同様に、 <math>\sigma</math> に関して微分し0とおけば尤度の最大値 <math>\hat{\sigma}^2 = \sum_{i=1}^n(x_i-\hat{\mu})^2/n</math> が得られる。
つまり、正規分布の母数 <math>\theta=(\mu,\sigma^2)</math> に対する最尤推定量は

{{Indent|<math>\hat{\theta}=(\hat{\mu},\hat{\sigma}^2) = (\bar{x},\sum_{i=1}^n(x_i-\bar{x})^2/n)</math>}}

となる{{sfn|Lehmann|Casella|1998|p=445}}。

== 定式化 ==

== 生物の系統推定への応用 ==
最尤法は生物の分子系統推定（分子系統樹作成）にも応用される。系統推定における最尤法は、塩基やアミノ酸配列の置換に関する確率モデルを仮定した上で、想定される樹形ごとに手持ちのデータ（配列の多重アラインメント）が得られる尤度を求め、最も尤度の高い樹形を採用する方法である<ref name=隈2006/>。

[[最大節約法]]や[[距離行列法]]と比較して正確性の高い樹形が得られるとされるが、使用する進化モデルを変更すると系統解析の結果が大きく変化する場合がある<ref name=隈2006>{{Cite journal|和書|title=実践的系統樹推定方法 |author1=隈啓一 |author2=加藤和貴 |year=2006 |volume=44 |issue=3 |pages=185-191 |journal=化学と生物 |url=https://doi.org/10.1271/kagakutoseibutsu1962.44.185 |doi=10.1271/kagakutoseibutsu1962.44.185}}{{フリーアクセス}}</ref>。また、系統樹の枝（解析の対象とする生物の系統）ごとの進化速度が異なる場合、枝長（形質状態の遷移回数）の見積もりを誤って不正確な系統樹を導く場合もある<ref name=松井2021>{{Cite journal|和書|title=分子系統解析の最前線 |author=松井求 |journal=JSBi Bioinformatics Review |volume=2 |issue=1 |pages=30-57 |year=2021 |url= https://doi.org/10.11234/jsbibr.2021.7 |doi=10.11234/jsbibr.2021.7}}{{オープンアクセス}}</ref>。さらに、最大節約法や[[ベイズ法]]と比較して計算速度も遅い<ref name=三中2009>{{Cite journal|和書|url=http://jppa.or.jp/archive/pdf/63_03_66.pdf |author=[[三中信宏]] |journal=植物防疫 |year=2009 |volume=63 |issue=3 |title=分子系統学：最近の進歩と今後の展望 |pages=192-196}}</ref>。こうした欠点はソフトウェアやアルゴリズムの改良により徐々に解消されつつある<ref name=松井2021/>。

2021年時点では最も広く分子系統解析に使用されている系統推定法である<ref name=松井2021/>。最尤法を用いる代表的な系統推定ソフトウェアには{{仮リンク|PAUP*|en|PAUP*}}やTreefinderおよびRAxMLがある<ref name=三中2009/>。

== 理論的妥当性 ==
最尤推定の'''統計的推論としての'''最終目標は、手元の限られたデータ（標本）から真の母集団分布を得ることである。しかし一般に真の母集団分布は観測できず、ゆえに最尤推定された統計モデルが「正しいか」（真の母集団分布と一致するか）は検証が不可能である。人間にできることは推定されたモデルと真の分布のずれ（誤差）がどのように統計的に振る舞うかを検証することだけである（詳しくは汎化誤差）<ref>{{Cite web|和書|author=渡辺澄夫|authorlink=渡辺澄夫 (工学者)|url=http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/nandodemo.html |title=ベイズ推論：いつも何度でも尋ねられること |website=渡辺澄夫 |publisher=東京工業大学 |accessdate=2019-08-01}}</ref>。

最尤推定そのものはあくまで、仮定された分布と観測されたデータから得られる尤度を最大化するパラメータを求める方法論である。最尤推定の枠組みは「常に真の分布と一致した分布を得られる」とは主張していないし「最尤推定を用いることが真の分布へ近い分布を得る唯一最良の方法である」とも主張していない。

これらの疑問点は汎化誤差をはじめとする研究によって検証される。

== 脚注 ==
{{reflist}}

== 参考文献 ==
* {{cite book
|last1      = Lehmann
|first1     = E. L.
|last2      = Casella
|first2     = Geoge
|year       = 1998
|title      = Theory of point estimation
|edition    = Second
|url        = http://bayanbox.ir/view/7633357479825685143/Theory-of-point-estimation.-2nd-edition.pdf
|publisher  = [[Springer]]
|isbn       = 0-387-98502-6
|ref        = harv
}}

* {{cite book
|last1      = Romano
|first1     = Joseph P.
|last2      = Siegel
|first2     = Andrew F.
|year       = 1986
|title      = Counterexamples in Probability And Statistics
|url        = {{google books|irKSXZ7kKFgC|Counterexamples in Probability And Statistics|page=182|plainurl=yes}}
|publisher  = Chapman & Hall/CRC, Taylor & Francis Group
|isbn       = 978-0412989018
|ref        = harv
}}

== 関連項目 ==
* [[最大事後確率]]
* [[一般化モーメント法]]
* [[尤度関数]]
* [[尤度方程式]]
* [[不偏推定量]]
* [[確率分布]]
* [[点推定]]

{{統計学}}

{{DEFAULTSORT:さいゆうすいてい}}
[[Category:推計統計学]]
[[Category:条件付き確率]]
[[Category:系統学]]
[[Category:ロナルド・フィッシャー]]
[[Category:数学に関する記事]]