「確率分布」の版間の差分

提供: testwiki
ナビゲーションに移動 検索に移動
imported>Wint7
出典: 脚注欄を整備。 [fmt]
 
(相違点なし)

2024年3月24日 (日) 06:18時点における最新版

テンプレート:出典の明記 確率分布(かくりつぶんぷ、テンプレート:Lang-en-short)は、確率変数に対して、各々の値をとる確率全体を表したものである。日本産業規格では、「確率変数がある値となる確率,又はある集合に属する確率を与える関数」と定義しているテンプレート:Sfn

概要

例えば、「サイコロ2個を振ったときの出た目の和」は確率変数である。この確率変数 テンプレート:Mvar に対する分布は次の表のようになる。

テンプレート:Mvar の取る値 テンプレート:Mvar 2 3 4 5 6 7 8 9 10 11 12
テンプレート:Math テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac

すなわち、離散型確率変数である場合は、確率分布とは確率変数の値にその確率(確率質量)を対応させる関数確率質量関数)のことであると言うこともできる。しかし、例えば「次に電話がなるまでの時間」といった、連続型確率変数の場合は、確率変数値での確率が全て テンプレート:Math となり、確率分布を確率質量関数で表すことができない。

「次に電話がなるまでの時間」は確率変数である。この確率変数 テンプレート:Mvar の分布が次のようになったとする。

テンプレート:Mvar の値が取る範囲 テンプレート:Mvar 1時間以内 1–2時間後 2–3時間後 3–4時間後 4時間以上先
テンプレート:Math テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac テンプレート:Sfrac

この場合の確率を全て表すには、全ての連続区間での確率を求めることになる。次の電話が テンプレート:Mvar - テンプレート:Mvar 時間後になる確率は次の式で表せる:

P(a<Xb)=(12)a(12)b

累積分布関数 テンプレート:Mvar

FX(t)=P(Xt)={1(12)t,t00,t<0

で定めれば、

P(a<Xb)=FX(b)FX(a)

のように、一変数関数で分布を表現できるので便利である。さらに、テンプレート:Mvar導関数 テンプレート:Mvar確率密度関数と呼ばれ、確率は積分を用いて

P(a<Xb)=abfX(t)dt

と書ける。

通常、連続値をとる確率変数の分布は確率密度関数を用いて記述される。なぜなら、確率密度関数は初等関数で書けるが、累積分布関数は書けない場合が多いからである。

公理主義的な確率論においては、テンプレート:Mvar次元ベクトル値確率変数の確率分布とは、その確率変数の引き起こす像測度のことである。この測度は テンプレート:Mvar次元ユークリッド空間上の確率測度であり、ユークリッド空間の部分集合に対して、確率変数の値がその集合に入る確率を与える関数となる。

単に確率分布というときは、テンプレート:Mvar次元ユークリッド空間などのよく使われる可測空間上で定義された確率測度のことをいう。ただの確率測度と違って空間に散らばっている様子がグラフなどの目に見える形で表現できるので「分布」と呼ばれる。

確率論で、確率変数の分布を考えるのは、その変数だけを確率論的な議論の対象にしたい場合である。例えば、確率変数がある値を取る確率や、期待値分散といった量は変数の分布が分かれば計算できる量である。逆に分布を考えることによって隠れた変数 テンプレート:Mvar[注 1] と確率変数との対応関係は失われてしまい、他の確率変数との関連性も不明になる。例えば、確率変数 テンプレート:Mvarテンプレート:Mvar の分布がそれぞれ テンプレート:Mvarテンプレート:Mvar のように与えられたとしても、2つの変数の関連性は分からないので、テンプレート:Math がある値を取る確率や、積 テンプレート:Mvar の期待値、テンプレート:Math の分散といった量は計算できない。このような量を計算したいときは、テンプレート:Mvarテンプレート:Mvar同時確率分布 テンプレート:Mvar が必要となる。

よく使われる確率分布には、それぞれ名前がついており、性質がよく研究されている。このような分布をもつ確率変数に対して、研究の結果を利用することができる。例えば、確率変数の分布が平均 テンプレート:Math、分散 テンプレート:Math の正規分布だった場合、その変数が テンプレート:Math 以上の値を取る確率は数表から 2.28% である。

定義

確率分布

  • 1次元確率分布とは可測空間 (,()) 上で定義された確率測度のことである。
  • 同様に テンプレート:Mvar 次元確率分布とは (d,(d)) 上で定義された確率測度のことである。

なお、(d)d 上のボレル集合族(集合演算で閉じた部分集合族の一種)である。

確率変数の確率分布

実数値確率変数 テンプレート:Mvar の確率分布 PX:()[0,1]

PX(A)=P(XA),   A()

で定義する。テンプレート:Mvar は確率測度(像測度)である。

同様に d 値確率変数 テンプレート:Mvar の確率分布 PX:(d)[0,1]

PX(A)=P(XA),   A(d)

で定義される確率測度である。

確率変数 テンプレート:Mvar の確率分布が テンプレート:Mvar であるとき、テンプレート:Mvarテンプレート:Mvar に従う確率変数であるといい、記号で テンプレート:Math と書く[1]。例えば、「テンプレート:Mvar は平均 0、分散 1 の正規分布に従う」のように使い、これを

XN(0,1)

のように書く。

累積分布関数

テンプレート:Main 実数値確率変数 テンプレート:Mvar累積分布関数 (テンプレート:Lang, CDF) あるいは一次元確率分布 テンプレート:Mvar の累積分布関数とは

FX(x)=P(Xx)=PX((,x])

で与えられる関数 テンプレート:Mvar のことである。累積を省略して分布関数 (テンプレート:Lang) とも言う。

累積分布関数は定義より右連続であるが、左連続とは限らない。累積分布関数が連続である(左連続でもある)確率分布を連続確率分布という。累積分布関数がとる値が高々可算個である確率分布を離散確率分布という。

確率密度関数

テンプレート:Main 確率分布 テンプレート:Mvar絶対連続ならば、ある可測関数 テンプレート:Math が存在して、確率分布は

P(XA)=PX(A)=AfX(x)dx

と表される(ラドン=ニコディムの定理)。テンプレート:Mvarテンプレート:Mvar のラドン=ニコディム微分であり、零集合を除いて一意である。テンプレート:Mvar を連続型確率変数 テンプレート:Mvar確率密度関数 (probability density function, PDF) という。

確率分布 テンプレート:Mvar が絶対連続であるとは、任意の(ルベーグ測度に関しての)零集合 テンプレート:Mvar に対して、

PX(N)=0

が成り立つことと定義される。これは測度の絶対連続性と同じである。このとき連続確率分布である。

とくに テンプレート:Mvar が区間の場合は

P(a<X<b)=P(aX<b)=P(a<Xb)=P(aXb)=abfX(x)dx

となる。区間の端点は入れても入れなくても確率は同じである。

確率質量関数

テンプレート:Main 離散確率分布のときに確率密度関数に対応する関数として確率質量関数 (probability mass function) がある。確率変数 テンプレート:Mvar のとる値の集合が テンプレート:Math2 だとすると確率質量関数は

fX(xi)=P(X=xi)=PX({xi})

で定まる関数 テンプレート:Mvar のことである。日本語では確率関数とも略されるが、英語の probability function は意味が曖昧な言葉とされる。

多次元確率分布

2つ以上の変数の確率分布を、多次元確率分布と呼ぶ。2変数の確率確率分布を、二次元確率分布と呼ぶテンプレート:Sfn

同時分布

テンプレート:Main 2つ以上の変数の組の確率分布のことを同時分布(どうじぶんぷ、joint distribution)、同時確率分布 (joint probability distribution) というテンプレート:Sfn

周辺分布

テンプレート:Main 同時分布から各変数の分布だけを取り出したものを周辺分布(しゅうへんぶんぷ、テンプレート:Lang)、周辺確率分布と呼ぶ。日本工業規格では、「k次元確率変数部分集合である k - 1変数の同時分布」と定義しているテンプレート:Sfn

確率分布の分類

まず確率変数が連続か離散かで分かれ、連続型確率変数の場合は累積分布関数が連続絶対連続かで分類できる。

  • 離散型確率変数の確率分布
  • 連続型確率変数の確率分布
    • 連続確率分布
      • 絶対連続分布
      • 累積分布関数が連続だが絶対連続では無い確率分布
    • 累積分布関数が連続では無い確率分布

代表的な確率分布

よく使われる確率分布は離散確率分布と絶対連続確率分布である。

離散確率分布

テンプレート:Main サイコロを投げた時に出る目の数字など、確率変数が離散的な値をとる場合の確率分布は離散型確率分布である。パラメトリックな離散確率分布は母数(パラメータ)と台と確率質量関数 テンプレート:Mvar で特徴付けられる。台というのは確率変数のとる値の集合のことである。

連続確率分布(絶対連続分布)

テンプレート:Main ある地点での通行人の体重など、確率変数が連続的な場合の確率分布のうち、累積分布関数が連続な確率分布が連続型確率分布である。パラメトリックな絶対連続分布は母数(パラメータ)と確率密度関数 テンプレート:Mvar で特徴付けられる。

累積分布関数が連続だが絶対連続では無い確率分布

累積分布関数が連続では無い確率分布

確率分布の利用法

確率変数の確率分布が与えられると、その変数に関する確率期待値分散などが以下のように計算できる。

テンプレート:Mvar は連続型確率変数で確率密度関数テンプレート:Mvar であり、累積分布関数は テンプレート:Mvar とする。テンプレート:Mvar は離散型確率変数で台は テンプレート:Math2確率質量関数テンプレート:Mvar であるとする。

確率の計算

期待値の計算

関数 テンプレート:Mvar が与えられたときに テンプレート:Mathテンプレート:Math の期待値は

E[g(X)]=+g(x)fX(x)dx
E[g(Y)]=ykSg(yk)fY(yk)

特に

E[X]=+xfX(x)dx
E[Y]=ykSykfY(yk)

分散の計算

テンプレート:Mvarテンプレート:Mvar の分散は

V[X]=+(xE[X])2fX(x)dx=+x2fX(x)dxE[X]2
V[Y]=ykS(ykE[Y])2fY(yk)=ykSyk2fY(yk)E[Y]2

変数変換

確率変数の変数変換による新しい変数の密度関数は、元の変数の密度関数で書くことができる。この公式は重積分における変数変換とほぼ同様である。

確率密度関数の変数変換公式

d から d への変換 テンプレート:Mvar により、d 値確率変数 テンプレート:Mvarテンプレート:Mvar

X=T(Y)

と書けているとすると、テンプレート:Mvar確率密度関数テンプレート:Mvar の確率密度関数を用いて

fY(y1,,yd)=|(detJT)(y1,,yd)|fX(T(y1,,yd))

となる。ただし テンプレート:Mvarヤコビアンとする。

例えばボックス-ミューラー変換テンプレート:Math 上の一様分布に従う確率変数 テンプレート:Math2

Y1=2lnX1sin(2πX2)
Y2=2lnX1cos(2πX2)

によって変換する。テンプレート:Mvar の密度関数は

fX(x1,x2)={1,(x1,x2)(0,1]20,(x1,x2)(0,1]2

であり、上の公式を当てはめると テンプレート:Mvar の確率密度関数は

fY(y1,y2)=12πexp(y12+y222)

となり、テンプレート:Mvar が二次元の標準正規分布に従うことが分かる。このように単純な分布を持つ変数を変換して、複雑な分布を作る操作は計算機による乱数の生成で重要となる。

確率変数の和の確率分布

2つの確率変数 テンプレート:Mvarテンプレート:Mvar の和 テンプレート:Math の確率分布や差 テンプレート:Math の確率分布は変数変換公式により計算できる。特に テンプレート:Mvarテンプレート:Mvar独立で、確率密度関数がそれぞれ テンプレート:Mvarテンプレート:Mvar だったとすると、和と差の確率密度関数は

fX+Y(t)=+fX(ty)fY(y)dy
fXY(t)=+fX(t+y)fY(y)dy

となる。

特に和の確率密度関数は2つの分布の確率密度関数の畳み込みである。また、特性関数は確率密度関数のフーリエ変換であり、畳み込みのフーリエ変換は周波数領域における積であることから、和の特性関数は2つの分布の特性関数の積となる。

なお、確率変数の和の確率分布が元の分布族に従う場合、その分布は再生性があるという。

確率モデル

パーコレーション
パーコレーションを参照。浸透 (percolation) 確率に基づくモデル。具体的には森林火災の広がり、伝染病の伝搬、金属と絶縁体の混合物、強磁性元素と非磁性元素の混晶系、分子間の重合による巨大高分子のゲル化などがあるテンプレート:Sfn
分岐過程
分岐過程 (branching process) は、生命の数変化モデルテンプレート:Sfn
ランダムウォーク
ランダムウォークを参照。
無限粒子系
無限粒子の遷移率の連続時間のモデルテンプレート:Sfn
凝集
拡散律速凝集 (DLA : diffusion limited aggregation) と呼ぶ、ヴィッテンとサンダーによる粒子のクラスターが凝集によって成長するモデル。
砂山崩し
バックたちによる砂山の斜面の崩壊を表すモデル。
渋滞
交通流の渋滞モデル。
生命
生命の時間的空間的モデル。セルオートマトンとも呼ぶ。生命競技 (life game) は2次元セルオートマトンの一種である。
排他過程
排他過程 (exclusion process) は、連続時間で発展する確率モデル。上記生命モデルが離散時間の決定論的モデルであるのに対応しているテンプレート:Sfn

脚注

テンプレート:脚注ヘルプ

出典

テンプレート:Reflist

注釈

テンプレート:Notelist2

参考文献

関連項目

テンプレート:確率分布の一覧 テンプレート:確率論 テンプレート:Normdaten


引用エラー: 「注」という名前のグループの <ref> タグがありますが、対応する <references group="注"/> タグが見つかりません