確率変数

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:出典の明記 テンプレート:More footnotes テンプレート:Probability fundamentals 確率変数(かくりつへんすう、テンプレート:Lang-en-short)とは、統計学確率論において、起こりうることがらに割り当てている値(ふつうは実数整数)を取る変数。各事象は確率をもち、その比重に応じて確率変数はランダム[1]テンプレート:Rpに値をとる。

確率変数はテンプレート:Visible anchor(りさんがたかくりつへんすう、テンプレート:Lang-en-short)とテンプレート:Visible anchor(れんぞくがたかくりつへんすう、テンプレート:Lang-en-short)に分けられる。離散型確率変数の場合の確率分布確率質量関数で表される。連続型確率変数の場合の確率分布は、確率測度絶対連続ならば確率密度関数で表される。

確率空間 (Ω,,P) において、標本空間 テンプレート:Math の大きさが連続体濃度の場合、確率変数とは、Ω 上で定義された実数値関数で、 可測であるものといえる。確率変数値をとる テンプレート:Math の部分集合が事象であり従って確率をもつために「 可測」は必要になる。

用語の定義

日本産業規格では、確率変数(かくりつへんすう、random variable)を テンプレート:Quote と規定している。

確率変数は、

  1. これから行う試行の結果
  2. 既に行った試行の結果がいまだ不確かである場合(実験結果が出揃っていない場合や測定結果が不確実である場合など)の結果

に割り当てられている値である。

確率論においては、確率変数は確率分布を記述する上で事実上必要な概念である。

確率変数は離散型確率変数(有限個または可算個)と連続型確率変数に分けられる。離散型確率変数の場合の確率は確率質量関数および離散確率分布を参照。連続型確率変数の場合の確率は確率密度関数を参照。

本項では、確率変数を標本空間に定義された可測関数から得られた数値として考える[2]確率論での数学的な取り扱いは#測度論的定義を参照のこと。

定義

確率変数 X:ΩE は、標本空間(起こりうることがらの集まり)テンプレート:Math の元に数 テンプレート:Mvar を対応させる可測関数である(テンプレート:Math, テンプレート:Mvar はそれぞれ可測空間)(#測度論的定義も参照)。テンプレート:Mvar は通常 または (や )である。そうでない場合は確率要素として考察する(#概念の拡張参照)。

テンプレート:Mvar の値として、測定値や観測値(例えば、様々な人々の身長など)だけでなく、指示関数値(例えば、ある回数コイントスをしたときの表が出た回数)を採用することが多い。

テンプレート:Mvar(値域)が高々可算個である時、テンプレート:Mvar離散型確率変数と呼ばれ[1]テンプレート:Rp、その分布(離散確率分布)は確率変数値の確率の全てを表したものとして確率質量関数で記述できる。

像が非可算個である時、テンプレート:Mvar連続型確率変数と呼ばれ、確率分布 テンプレート:Mvar絶対連続ならば確率密度関数が存在し、確率変数が E(例えば区間)に属する確率が確率密度関数の テンプレート:Mvar 上のルベーグ積分で表される。

注意すべき点は、絶対連続のとき連続確率分布であるため、確率変数がある値をとる確率は全て 0 になるということである。確率分布が連続でも絶対連続とは限らない[3]テンプレート:仮リンクがその例である。そのような確率変数は確率密度関数または確率質量関数で記述できない。

あらゆる確率分布は累積分布関数で記述できる。分布関数とは、テンプレート:Mvar に確率変数が テンプレート:Mvar 以下である確率を対応される関数のことである。

確率変数が可測関数として可積分ならば、期待値が存在する。

実例

例えば、任意に抽出した人の身長を確率変数とする場合を考える。数学的には、確率変数は 対象となる人→その身長 という関数を意味する。確率変数は確率分布に対応し、妥当にあり得る範囲の確率(身長180cm以上190cm以下である確率や 150cm未満または200cm超である確率)を計算できるようになる。

もう一つの確率変数の例は、抽出した人には何人の子供がいるかというものである。これは非負の整数値を取る離散型確率変数である。この場合、確率分布は確率質量関数の積分により表される。また、無限個の仮説を想定することも可能である。例えば、偶数人の子供がいるか、といったものである。何方の場合においても、確率値は確率質量関数の要素の和を無限に取っていくことで求めることができる。子供が0人の可能性 + 子供が2人の可能性 + 子供が4人の可能性 + … という要領である。

このような例では標本空間はしばしば有限に制限される。離散値を無限に計算していくのが数学的に困難だからである。しかしアウトカムの標本空間内で2つの確率変数が同時に測定される場合、すなわちある人について身長と子供の数とを同時に調査する場合などは、両変数に相関関係があるのか否かを知るのは容易である。

概念の拡張

統計学における基本として、確率変数がとる値は実数であり、従って期待値分散その他の値を計算することができる。しかし、実数以外の要素を値としてとる確率変数も考えられる。値として取る要素としては、ブール変数テンプレート:仮リンク複素数ベクトルベクトル行列数列樹形図コンパクト集合図形多様体関数等が考えられる。確率要素という用語はこれら全ての概念を指し示す。

もう1つの拡張は確率過程、すなわち時間や空間などで添字付けられた添字付き確率変数である。

このような、より一般化された概念は計算機科学自然言語処理といった非数的要素を扱う分野で特に有用である。これらの確率要素は実数値の確率変数(主に乱数ベクトル)として取り扱えることが多い。

下記に実例を上げる。

  • 「ランダムな単語」は語彙集合の中で整数を添字としてパラメータ化することができる。あるいは、単語に対応する特定のベクトル要素一つのみが1で他の全ての要素が0であるような指示ベクトルとして、表現し得る。
  • 「ランダムな文章」はランダムな単語のベクトルとしてパラメータ化することができる。
  • 数学において テンプレート:Mvar 本の辺を持つ「ランダムなグラフ」は、テンプレート:Mvar次正方行列を用いて各辺の重みならびに辺以外での値を0として表すことができる。(グラフに重み付けがない場合、辺の値は1とする)

要素の数値化は、非数的な独立した確率要素を扱う際の必須操作ではない。

実例

コイントスをするという試行において、標本空間は Ω={heads,tails} である。表が出る回数を調べたい場合は、ここから確率変数 テンプレート:Mvar を次の式で定義する:

X(ω)={1,if  ω=heads,0,if  ω=tails.

コインの表 (head) と裏 (tail) が出る確率が等しい時、確率質量関数 fX は次式の通りである。

fX(x)={12,if x=1,12,if x=0.
2つのサイコロの出た目の和 テンプレート:Mvar を確率変数としたときの確率分布。離散確率分布であり、短冊の高さが確率質量を表す。

2つのサイコロを振るとき、出た目の和の確率分布を調べるには、確率変数を次のように取る。

標本空間 テンプレート:Math は、"2つのサイコロを振って出た目の集合"である。これを Ω={1,2,3,4,5,6}2 と略記する[注 1]。確率変数 テンプレート:Mvar は2つのサイコロの出た目に書かれた数の和を表現する、テンプレート:Math から への写像である。これは次の式で定義される:

X((n1,n2))=n1+n2

テンプレート:Math は1つ目のサイコロ、テンプレート:Math は2つ目のサイコロの出た目が表す数を表す。

このとき確率質量関数 テンプレート:Mvar は次の式になる:

fX(S)=min(S1,13S)36,for S{2,3,4,5,6,7,8,9,10,11,12}

連続型確率変数の例として、水平方向に回るルーレットを挙げることができる。標本空間としては「ルーレットの向き全体」を考える。この「向き」は連続的な状態を取り得るのでその標本空間の表現には実数を使うことが適切である。そこで真北方向を0(度)とし、確率変数 テンプレート:Mvar を「ルーレットが真北の向きに対して取る角度」として定義すると、確率変数の値域は区間 テンプレート:Math(0度以上360度未満の実数)であり、ルーレットの元々の目的から各値を取る確率は等しいと考えられる。このとき区間内のあらゆる実数について、その値を取る確率は テンプレート:Math であるが、ある範囲内の角度をなす確率は正の値である。例えば、テンプレート:Math(0度以上180度以下)となる確率は テンプレート:Sfrac である。

確率質量関数の代わりに、テンプレート:Mvar の確率密度を考えると、幅1度の確率密度は テンプレート:Sfrac である。確率は幅に比例し、確率分布は連続一様分布になる。一般に、連続型確率変数における確率は、存在すれば確率密度関数の範囲における積分値でとらえることができる。

混合タイプの確率変数としては例えば、コインを投げて表が出た時のみルーレットを回すということを考えることができる。コインが裏であれば テンプレート:Math2、表であれば テンプレート:Math ルーレットの角度 とすると、この確率変数は確率 テンプレート:Sfracテンプレート:Math、その他の数 テンプレート:Math である確率は上記の例の半分である。

測度論的定義

テンプレート:Main 確率空間 (Ω,,P) が与えられたとき、確率変数とは、標本 ωΩ に割り当てた値をとる変数のことである。値にはその名の通り の他、ベクトル値 d を割り当てることもある。「値」として、一般的には可測空間 (E,) とする[2]。確率変数とは (,)-可測関数 X:ΩE である。つまり、値 B原像 X1(B)={ω:X(ω)B} の元であることを意味している[4]

特に テンプレート:Mvar位相空間である時、最も一般的なσ-集合代数 ボレルσ-集合代数 (E) である。これは、テンプレート:Mvarの全ての開集合から生成されるσ-代数である。

実数確率変数

ここでは観測値を実数とする。(Ω,,P) が確率空間である。下記の場合、実測値空間として、関数X:Ωを実数確率変数とする。

{ω:X(ω)r}r.

この定義は上記の特別な場合である。集合 {(,r]:r} が実数空間内にボレル完全加法族を成し、それが集合の可測性を示す十分条件だからである。 これで{ω:X(ω)r}=X1((,r]) を用いて生成する集合の可測性が証明される。

確率変数の分布関数

確率変数 X:Ω が確率空間 (Ω,,P) 内に定義されたとすると、「テンプレート:Mvar の値が2をとる確率はいくつか?」等と問うことができる。これは事象 {ω:X(ω)=2} の確率と同じであり、しばしば短く P(X=2)pX(2) と記述される。

実数確率変数 テンプレート:Mvar が示す範囲の確率を全て記録すると、テンプレート:Mvar確率分布が得られる。確率分布は テンプレート:Mvar の定義に使われた特定の確率空間を「忘れる」ので、テンプレート:Mvar の様々な値の確率を記録するのみである。このような確率分布は常に分布関数で捉えることができる。

FX(x)=P(Xx)

加えて確率密度関数 pX を使える場合も多い。測度論的には確率変数 テンプレート:Mvar は、テンプレート:Math 上での テンプレート:Mvar の測定から 上での pX の測定に「押し進める」もの、といえる。根底にある確率空間 テンプレート:Math は確率変数の存在を保証するツールであり、しばしば変数を構成し、同一確率空間内の2つ以上の変数の同時分布における相関・依存独立性の基礎となる。実際は、空間 テンプレート:Math 全体に1つの変数を置き、数直線 全体で1つの変数とする。つまり、その変数が確率変数に代わって確率分布する。

確率変数値の平均

テンプレート:Main 確率空間 テンプレート:Math に割り当てた確率変数 X:Ω可積分であるとは、

Ω|X(ω)|P(dω)<

を満たすことである。これは測度論における可測関数の可積分性と同じである。

このとき確率変数 テンプレート:Mvar あるいはその確率分布の平均

E[X]=ΩX(ω)P(dω)

で定義される。

事象 A の下での確率変数 テンプレート:Mvar条件付期待値

E[X:A]=E[1AX]=AX(ω)P(dω)

で定義される。ここで テンプレート:Math指示関数である。

モーメント

テンプレート:Main 確率変数の確率分布は、多くの場合少数の特性値で規定される。例えば、確率変数の期待値 (テンプレート:Math) は確率分布の"1次モーメント"であり、平均とも呼ばれる。一般に、テンプレート:Mathテンプレート:Math と等しくない。次に、確率変数値が全体として「平均」からどれだけ散らばっているかを表す特性値として分散 (テンプレート:Math) および標準偏差 (テンプレート:Math) がある。分散 テンプレート:Math とは、テンプレート:Mvar と平均の差の2乗の期待値 テンプレート:Math のことである。

数学的には、与えられた確率変数 テンプレート:Mvar が所属する母集団に関する(一般化された)テンプレート:仮リンクとして知られ、確率変数 テンプレート:Mvar の分布の性質を示す期待値 テンプレート:Math の関数のコレクション テンプレート:Math である。

モーメントは確率変数が実数関数である場合(複素数等についても)に定義できる。確率変数自身が連続であるならば、変数のモーメント自身は確率変数の恒等関数 テンプレート:Math と等価である。しかし、非実数の確率変数の場合にも、モーメントをその変数の実数関数として得ることができる。例えば、名義尺度変数 テンプレート:Mvar として「赤」、「青」、「緑」がある場合、実数関数 [X=green] を考えることができる。こうしてアイバーソンの記法を用いることで、テンプレート:Mvar が「緑」の時は1、それ以外は0と記述できるので、期待値および他のモーメントを定義できる。

確率変数の関数

実数のボレル可測関数 g:実数値確率変数 テンプレート:Mvar に適用すると、新たな確率変数 テンプレート:Mvar を定義することができる。テンプレート:Mvar分布関数は、

FY(y)=P(g(X)y)

である。

関数 テンプレート:Mvar に逆関数 テンプレート:Math が定義可能であり、かつそれが増加関数かまたは減少関数である場合には、 上記の関係は以下のように展開できる。

FY(y)=P(g(X)y)
={P(Xg1(y))=FX(g1(y)),P(Xg1(y))=1FX(g1(y)), テンプレート:Math が増加関数の場合),
テンプレート:Math が減少関数の場合).

さらに、同じく テンプレート:Mvar の可逆性に加えて微分可能性も仮定すると、両辺を テンプレート:Mvar で微分することにより、確率密度関数の関係を下記のように記述できる。

fY(y)=fX(g1(y))|dg1(y)dy|

テンプレート:Mvar の逆関数が存在しない場合でも、それぞれの テンプレート:Mvar高々可算個の根を持つ場合(すなわち、テンプレート:Math である テンプレート:Mvar の数が有限または可算無限の場合)には、上記の確率密度関数の関係は次のように一般化できる。

fY(y)=ifX(gi1(y))|dgi1(y)dy|
ただし テンプレート:Math

この式は テンプレート:Mvar が増加関数でなくとも成立する。

確率に対する公理的アプローチとしての測度論において、空間 テンプレート:Math 上の確率変数 テンプレート:Mvar およびボレル可測関数 g: を取る。可測関数を合成したものもまた可測である(しかし、テンプレート:Mvarルベーグ可測の場合はその限りではない)ため、テンプレート:Math もまた空間 テンプレート:Math 上の確率変数である。テンプレート:Mvar の分布を知るために、確率空間 テンプレート:Math から (,dFX) への移行と同じ手順を利用できる。

例1

テンプレート:Mvar を実数の連続確率分布とした時、テンプレート:Math2 とすると、

FY(y)=P(X2y)

テンプレート:Math2 の時は P(X2y)=0 であるので、

FY(y)=0(ただし テンプレート:Math2)である。

テンプレート:Math2 の時は P(X2y)=P(|X|y)=P(yXy) であるので、

FY(y)=FX(y)FX(y)(ただし テンプレート:Math2)である。

例2

テンプレート:Mvar は、分布関数が

FX(x)=P(Xx)=1(1+ex)θ

となる確率変数とする。ただし テンプレート:Math は固定されたパラメーターである。 確率変数 テンプレート:MvarY=log(1+eX) とすると、

FY(y)=P(Yy)=P(log(1+eX)y)=P(X>log(ey1)).

最後の表現は テンプレート:Mvar の分布関数で計算できる。すなわち

FY(y)=1FX(log(ey1))
=11(1+elog(ey1))θ
=11(1+ey1)θ
=1eyθ.

例3

テンプレート:Mvar を標準正規分布に従う確率変数であるとすると、その確率密度は下記の通りである。

fX(x)=12πex2/2

確率変数 テンプレート:Math2 を考えると、上記の式を変数変換して確率密度を下記のように表すことができる。

fY(y)=ifX(gi1(y))|dgi1(y)dy|

この場合、テンプレート:Mvar の値は2つの テンプレート:Mvar(正の値と負の値)に対応するので、変換は単調写像ではない。しかし、関数が対称であるので、両半分をそれぞれ変形することができる。すなわち、

fY(y)=2fX(g1(y))|dg1(y)dy|

である。この逆変換は、

x=g1(y)=y

であり、両辺を微分すると

dg1(y)dy=12y

である。従って、

fY(y)=212πey/212y=12πyey/2

これは自由度 テンプレート:Math の[[カイ二乗分布|テンプレート:Math分布]]である。

確率変数の同値性

確率変数が同値と見なされるには「等しい」「ほとんど確実に等しい」「分布が等しい」といった、いくつかの異なる意味がある。強さの順に並べると、これらの正確な定義は以下の通り。

分布が等しい

標本空間が実数直線の部分集合の場合、確率変数 テンプレート:Mvarテンプレート:Mvar の分布が等しいとは(X=dY と表記する)下記のように同じ分布関数を持つことである。

P(Xx)=P(Yx)for allx.

2つの確率変数は同じ積率母関数を持つ時に同じ分布になる。この事実は、例えば独立同一分布の確率変数による複数の異なった関数が同じ分布になるかどうかを調べるための便利な方法を提供する。しかしながら、積率母関数が存在するのは、ラプラス変換が定義される分布関数に対してのみである。

ほとんど確実に等しい

2つの確率変数 テンプレート:Mvarテンプレート:Mvar が「ほとんど確実に等しい」とは、その2つが異なる確率が テンプレート:Math であることと同値である[注 2]

P(XY)=0.

これは、以下で定義される距離が0であることとも同値である。

d(X,Y)=esssupω|X(ω)Y(ω)|,

(ただし、ess sup は測度論の意味での本質的上限)

確率論におけるすべての現実的な目的に関して、この同値性の概念は実際に等しい場合と同等の強さをもつ。

等しい

最後に、2つの確率変数 テンプレート:Mvarテンプレート:Mvar が等しいとは、それらが定義される可測空間上の関数として等しいことを指す。

X(ω)=Y(ω)for all ωΩ

収束

テンプレート:Main 数理統計学の重要なテーマは、例えば大数の法則中心極限定理のように、ある確率変数の特定のの収束結果を得ることである。

確率変数列 テンプレート:Math を確率変数 テンプレート:Mvar に収束させる方法は様々なものがある。詳細は確率変数の収束で説明する。

関連項目

テンプレート:Colbegin

テンプレート:Colend

脚注

テンプレート:脚注ヘルプ

注釈

テンプレート:Reflist

出典

テンプレート:Reflist

参考文献

テンプレート:Refbegin

テンプレート:Refend

外部リンク

テンプレート:確率論 テンプレート:Normdaten


引用エラー: 「注」という名前のグループの <ref> タグがありますが、対応する <references group="注"/> タグが見つかりません