統計モデルのソースを表示

'''統計モデル'''（とうけいモデル、statistical model）は、[[標本 (統計学)|標本データ]]（およびより大きな[[母集団|統計的母集団]]からの類似データ）の生成に関する一連の統計的仮定を具体化した[[数理モデル]]である。統計モデルは、データの生成過程をかなり理想化して表現していることが多い<ref name="#1">{{Harvnb|Cox|2006}}</ref>。

統計モデルは通常、1つまたは複数の[[確率変数]]と他の非確率変数との間の数学的関係として規定される。統計モデルは「理論の形式的表現」（[[:en:Herman_Adèr|Herman Adèr]]による[[:en:Kenneth_A._Bollen|Kenneth Bollen]]の引用）である<ref>{{Harvnb|Adèr|2008|p=[https://books.google.com/books?id=LCnOj4ZFyjkC&pg=PA280 280]}}</ref>。

すべての統計的[[仮説検定]]とすべての統計的[[推定量]]は、統計モデルを介して導出される。より一般的には、統計モデルは[[統計的推論]]の基礎の一部である。

== 導入 ==
簡単にいうと、統計モデルとは「ある[[事象 (確率論)|事象]]の確率を計算できる」という特別な特徴をもつ{{Ill2|統計的仮定|en|Statistical assumption}}（または統計的仮定の集合）と考えることができる。例として、2つの普通の[[サイコロ]]（6面体）を考える。このサイコロについて、2つの異なる統計的仮定を検討することにする。

最初の統計的仮定：各サイコロにおいて、サイコロの各面（1、2、3、4、5、および6）が現れる確率はいずれも <math>\frac{1}{6}</math> である。この仮定から、両方のサイコロの目が 5 になる確率は次のように計算される。

: <math>\frac{1}{6} \times \frac{1}{6} = \frac{1}{36}</math>

より一般的には、たとえば（1 と 2）、（3 と 3）、（5 と 6）など、あらゆる事象の確率を計算することができる。

もう一つの統計的仮定：各サイコロにおいて、サイコロの目が 5 になる確率は <math>\frac{1}{8}</math> である（サイコロに[[サイコロ#不正なサイコロ|細工が施されている]]ため）。この仮定から、両方のサイコロの目が 5 になる確率は次のように計算される。

: <math>\frac{1}{8} \times \frac{1}{8} = \frac{1}{64}</math>

しかし、他の面が出る確率は不明であり、自明でない事象の確率を計算することはできない。

最初の統計的仮定は統計モデルと見なされる。この仮定だけで、あらゆる事象の確率を計算できるからである。もう一つの統計的仮定は統計モデルと見なされない。その仮定だけでは、あらゆる事象の確率を計算できないからである。

上記の例では、最初の仮定があれば、ある事象の確率を簡単に計算することができる。しかし、別のいくつかの例では、計算が困難であったり現実的でない場合もある（たとえば、数百万年の計算が必要になる）。統計モデルと見なせる過程であれば、そのような困難は許容される。計算が実用的である必要は無く、理論的に可能であればよい。

== 形式的定義 ==
数学の用語を用いると、統計モデルは通常、組 <math>(S, \mathcal{P})</math> として考えられる。ここで、<math>S</math> は可能な観測値の集合、つまり[[標本空間]]、 <math>\mathcal{P}</math> は <math>S</math> 上の[[確率分布]]の集合である<ref name="McCullagh">{{Harvnb|McCullagh|2002}}</ref>。

この定義の背後には、次のような直感がある。観測データを生成する過程によって帰納される「真」の確率分布があると仮定する。<math>\mathcal{P}</math> を用いて、真の分布を適切に近似する分布を含む集合を表す。

<math>\mathcal{P}</math> に真の分布が含まれている必要はなく、実際にはそうであることはほとんどないことに注意されたい。実際、Burnham と Anderson が述べているように、「モデルは現実の単純化または近似であり、したがって現実のすべてを反映することはない」 <ref>{{Harvnb|Burnham|Anderson|2002|loc=§1.2.5}}</ref> &#x2014;それゆえ 「{{Ill2|すべてのモデルは間違っている|en|All models are wrong}}」ということわざがある。

集合 <math>\mathcal{P}</math> は多くの場合パラメータ化され、<math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math> と表される。
ここで、集合 <math>\Theta</math> はモデルの{{Ill2|統計的パラメータ|en|Statistical parameter|label=パラメータ}}を定義する。
一般に、パラメータ化は、異なるパラメータ値が異なる分布を生じることが要求される。すなわち、<math>P_{\theta_1} = P_{\theta_2} \Rightarrow \theta_1 = \theta_2</math> が成立する（[[単射]]である）必要がある。
この要件を満たすパラメータ化は、{{仮リンク|識別可能性|en|Identifiability|label=識別可能}}であると言う<ref name="McCullagh">{{Harvnb|McCullagh|2002}}</ref>。

== 例 ==
子供の集団があり、その集団の中で子供の年齢が[[離散一様分布|一様]]に分布しているとする。子供の身長は、年齢と{{Ill2|確率的|en|Stochastic}}に関係する。たとえば、子供が 7歳であることがわかれば、その子供の身長が 1.5m である確率に影響する。
この関係を次のような[[線形回帰]]モデルで定式化することができる。<math>\mathrm{height}_i = b_0 + b_1 \mathrm{age}_i + \varepsilon_i</math>。ここで、 <math>b_0</math> は切片、<math>b_1</math>は伸長を予測するために年齢に乗じるパラメータ、<math>\varepsilon_i</math>は誤差項、<math>i</math> は子供を識別する添字。この式は、身長が年齢によって予測され、多少の誤差があることを意味している。

許容されるモデルは<sub>、</sub>すべてのデータポイントと整合していなければならない。したがって、直線 <math>\mathrm{height}_i = b_0 + b_1 \mathrm{age}_i</math> は、すべてのデータポイントに正確に合う、つまりすべてのデータポイントが直線上に完全に位置するのでなければ、データのモデルを表す式にはなりえない。誤差項 <math>\varepsilon_i</math> は、モデルがすべてのデータポイントと適合するように、モデルに含めなければならない。

[[統計的推論]]を行うためには、はじめに <math>\varepsilon_i</math> に何らかの確率分布を仮定する必要がある。例えば、<math>\varepsilon_i</math> が平均がゼロの[[独立同分布]]（i.i.d.）[[ガウス分布]]であると仮定できる。この場合、モデルは 3 つのパラメータがある。すなわち、<math>b_0</math>、<math>b_1</math> 、ガウス分布の分散である。

このモデルは、次のように <math>(S, \mathcal{P})</math> の形で形式的に規定することができる。モデルの標本空間 <math>S</math> は、すべての可能な組（年齢、身長）の集合である。<math>\theta = (b_0, b_1, \sigma^2)</math> の可能な値のそれぞれが <math>S</math> 上の分布を決定し、その分布を <math>P_{\theta}</math> とする。<math>\Theta</math> を <math>\theta</math> の全ての可能な値の集合とすると、<math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math> となる。このパラメータ化は識別可能であり、簡単に確認できる。

この例では、（1）<math>S</math> を指定し、（2）<math>\mathcal{P}</math> に関連するいくつかの仮定を立てることでモデルが決定される。 仮定は2つであり、身長は年齢の線形関数で近似できることと、近似の誤差が独立同分布のガウス分布に従うことである。これらの仮定は、<math>\mathcal{P}</math> を要求どおり指定するのに十分である。

== 総論 ==
統計モデルは、[[数理モデル]]の特殊なクラスである。統計モデルが他の数学モデルと異なるのは、[[決定論的|非決定論的]]であるという点である。

したがって、数式で規定された統計モデルでは、変数の一部が特定の値を持たず、確率分布を持つ。つまり確率的である。前述の子供の身長の例では <math>\varepsilon_i</math> が確率変数であり、この確率変数がなければ、モデルは決定論的なものとなる。

統計モデルは、モデル化されるデータ生成過程が決定論的であっても、しばしば使用される。たとえば、[[コイントス]]は原理的には決定論的な過程だが、一般的には確率論的モデルとして（[[ベルヌーイ過程]]による）扱われる。

所与のデータ生成過程を表現するために適切な統計モデルを選択することは、時として非常に困難であり、データ生成過程と統計分析の両方の知識が必要になる場合がある。
これに関連して、統計学者のデイヴィッド・コックス{{Enlink|David Cox (statistician)|英語版|en}}は、「対象となる問題から統計モデルへの変換をどのように行うかは、しばしば分析の最も重要な部分となる」と述べている<ref name="#1" />。

Konishi と Kitagawa によると、統計モデルには3つの目的がある<ref>{{Harvnb|Konishi|Kitagawa|2008|loc=§1.1}}</ref>。

* 予測
* 情報の抽出
* 確率的構造の記述

この3つの目的は、Friendly と Meyer が示した予測、推定、説明と本質的に同じであり<ref>{{Harvnb|Friendly|Meyer|2016|loc=§11.6}}</ref>、それぞれ論理的推論の3つの種類、[[演繹|演繹的推論]]、[[帰納|帰納的推論]]、[[仮説的推論]] に対応するものである。

== モデルの次元 ==
<math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math> の統計モデル <math>(S, \mathcal{P})</math> があるとする。<math>\Theta</math> が有限の次元を持つとき、モデルは「{{Ill2|パラメトリックモデル|en|Parametric model|label=''パラメトリック''}}」であるという。
自然数 <math>k</math> を用いて、<math>\Theta \subseteq \mathbb{R}^k</math> と表記する。<math>\mathbb{R}</math> は[[実数]]を表し、原理的には他の集合を用いてもよい。ここで、<math>k</math> はモデルの'''次元'''と呼ばれる。

たとえば、データが単変量[[ガウス分布]]から生じると仮定すると、次のように仮定することになる。

: <math>\mathcal{P}=\left\{P_{\mu,\sigma }(x) \equiv \frac{1}{\sqrt{2 \pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2}\right) : \mu \in \mathbb{R}, \sigma > 0 \right\}</math>

この例では、次元 <math>k</math> は2に等しい。

別の例として、データが点 <math>(x, y)</math> で構成されて直線に沿って分布し、残差が独立同分布のガウス分布（平均ゼロ）に従うと仮定する。こうすることで子供の身長の例で使用したものと同じ統計モデルになる。
統計モデルの次元は3で、直線の切片、直線の傾き、残差の分布の分散である（幾何学では、直線の[[次元]]は1であることに注意）。 

形式的には <math>\theta \in \Theta</math> は<math>k</math> 次元の単一パラメータだが、<math>k</math> 個の独立なパラメータと見なすこともある。
例えば、たとえば、単変量ガウス分布では、 <math>\theta</math> は形式的には2次元の単一パラメータである、平均と標準偏差の2つのパラメータと見なすこともある。

統計モデルは、パラメータ集合 <math>\Theta</math> が無限次元である場合、[[ノンパラメトリック手法|ノンパラメトリック]]である。
有限次元と無限次元の両方のパラメータを持つ場合、その統計モデルは{{Ill2|セミパラメトリック・モデル|en|Semiparametric model}}である。
形式的には、<math>k</math> が <math>\Theta</math> の次元数、<math>n</math> を標本数とすると、セミパラメトリックモデルでもノンパラメトリックモデルでも<math>\lim_{n \to \infty} k = \infty</math> である。
また、<math>\lim_{n \to \infty} k/n = 0</math> ならセミパラメトリックであり、そうでなければノンパラメトリックである。

パラメトリックモデルは、最も一般的に使用されている統計モデルである。
セミパラメトリックモデルとノンパラメトリックモデルについて、デイヴィッド・コックスは、「これらは一般的に、構造や分布形式の仮定が少ないが、通常は独立性に関する強い仮定を含む」と述べている<ref name="#1"/>。

== ネスティッドモデル ==
{{Confused|マルチレベルモデル}}
第1のモデルのパラメータに制約を加えることで、第1のモデルを第2のモデルに変換できる場合、2つの統計モデルは'''入れ子'''（nested）になっている。
例えば、すべてのガウス分布の集合は、その中にゼロ平均ガウス分布の集合を入れ子にしている。
ゼロ平均分布を得るために、全てのガウス分布の集合の平均を制約する。

次の例として、2次モデル

: <math>y = b_{0} + b_1 x + b_2 x^2 + \varepsilon ,\,\varepsilon \sim N(0,\sigma ^{2})</math>

は、その中に線形モデルが入れ子になっている。

: <math>y=b_{0}+b_{1}x+\varepsilon ,\,\varepsilon \sim N(0,\sigma ^{2})</math>

ここで、<math>b_2 = 0</math> となるようにパラメータ <math>b_2</math> に制約を加えた。

これらの例では、最初のモデルは2番目のモデルよりも高い次元を持っている（最初の例では、ゼロ平均モデルは次元1を持つ）。これはよくあることだが、常にそうだとは限らない。次元2の正平均ガウス分布の集合は、すべてのガウス分布の集合に入れ子になっている。

== モデルの比較 ==
{{Also|{{ill2|モデル選択|en|Model selection}}}}
統計モデルを比較することは、多くの[[統計的推論]]において基本的なことである。
実際、{{Harvtxt|Konishi|Kitagawa|2008}}(p. 75) は「統計的推論における問題の大部分は、統計的モデリングに関連する問題であると考えることができ、それらは通常、いくつかの統計モデルの比較として定式化される」と述べている。

モデルを比較するための一般的な基準としては、[[決定係数|''R<sup>2</sup>''（決定係数）]]、[[ベイズ因子]]、[[赤池情報量規準]]、[[尤度比検定]]とその一般化である{{Ill2|相対尤度|en|Relative likelihood}}などがある。

== 条件付き確率モデル ==
'''条件付き確率モデル'''（{{lang-en-short|conditional models}}）は[[条件付き確率]]を表現する確率モデルである<ref>"''a conditional model pθ(y|x) that approximates the underlying conditional distribution p∗(y|x)''" Kingma. (2019). ''[[arxiv:1906.02691|An Introduction to Variational Autoencoders]]''. Foundations and Trends in Machine Learning.</ref>。

条件付き確率モデルの確率分布は <math>p_\theta(x|y)</math> で表現され、<math>y</math> はモデルの'''入力'''（{{lang-en-short|input}}）とも呼ばれる<ref>"''pθ(y|x) ... x is often called the input of the model.''" Kingma. (2019). ''[[arxiv:1906.02691|An Introduction to Variational Autoencoders]]''. Foundations and Trends in Machine Learning.</ref>。

様々な事象が条件付き確率モデルを用いてモデル化できる。例えば以下が挙げられる：

* 画像分類器 <math>p_\theta(class|image)</math>: 画像で条件付けられた（画像を入力とした）所属クラスの確率を出力
* 画像生成器 <math>p_\theta(image|class)</math>: クラスで条件付けられた（クラスを入力とした）画像の確率を出力

モデルの入力を分布に結びつける（parameterizeする）方法は様々存在する。例として分布にカテゴリカル分布 <math>Categorical(x; \boldsymbol{p})</math> を採用し、そのパラメータ <math>\boldsymbol{p}</math> を入力の[[ニューラルネットワーク]]による変換で表現する条件付き確率モデルを考える。これは以下で定式化される：

: <math>p_\theta(x|y) = Categorical(x; \boldsymbol{p}=NeuralNet_\theta(y))</math>

== 脚注 ==
{{Reflist}}

== 参考文献 ==
* Davison, A. C. (2008), ''Statistical Models'', [[:en:Cambridge_University_Press|Cambridge University Press]]
* {{citation|author1-first=M.|author1-last=Drton|author2-first=S.|author2-last=Sullivant|title=Algebraic statistical models|journal=Statistica Sinica|year=2007|volume=17|page=1273–1297|url=http://www3.stat.sinica.edu.tw/statistica/oldpdf/A17n41.pdf}}
* Freedman, D. A. (2009), ''Statistical Models'', [[:en:Cambridge_University_Press|Cambridge University Press]]
* Helland, I. S. (2010), ''Steps Towards a Unified Basis for Scientific Models and Methods'', [[:en:World_Scientific|World Scientific]]
* [[:en:Dirk_Kroese|Kroese, D. P.]]; Chan, J. C. C. (2014), ''Statistical Modeling and Computation'', [[:en:Springer_Science+Business_Media|Springer]]
* {{citation|author-last=Shmueli|author-first=G.|year=2010|title=To explain or to predict?|journal=[[Statistical Science]]|volume=25|issue=3|page=289–310|doi=10.1214/10-STS330|arxiv=1101.0891}}

{{統計学}}

{{DEFAULTSORT:とうけいもてる}}
[[Category:統計学の理論]]
[[Category:統計モデル|*]]
[[Category:科学モデリング]]
[[Category:数学モデリング]]