ピアソンの積率相関係数

提供: testwiki
2024年11月6日 (水) 10:53時点におけるimported>Akima12による版 (誤りを訂正。ピアソンの積率相関係数が反映しているのは非線形性ではなく、線形性である。)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動
散布図とそのピアソンの積率相関係数の一覧。相関は線形性および直線関係の向きを反映するが(上段)、その関係の傾きや(中段)、非直線関係の多くの面も反映しない(下段)。中央の図の傾きは0であるが、この場合はYの分散が0であるため相関係数は定義されない。

ピアソンの積率相関係数(ピアソンのせきりつそうかんけいすう、テンプレート:Lang-en-short)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である[1][2]カール・ピアソンが研究した。一般的に、単に相関係数といえばピアソンの積率相関係数を指す。

ピアソンの積率相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数がのとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという[3][4]

たとえば、先進諸国失業率実質経済成長率は強い負の相関関係にあり、相関係数を求めれば−1に近い数字になる。

相関係数が ±1 に値をとることは、2つのデータ(確率変数)が線形の関係にあるときに限る[5]。また2つの確率変数が互いに独立ならば相関係数は 0 となるが、逆は成り立たない。

定義

母集団相関係数

正の分散を持つ確率変数 テンプレート:Math2 が与えられたとき、共分散cov[X,Y]標準偏差テンプレート:Math2 とおく。このとき

ρ=cov[X,Y]σXσY

を確率変数 テンプレート:Mvarテンプレート:Mvar母集団のピアソンの積率相関係数という。これは期待値テンプレート:Math で表せば

ρ=E[(XE[X])(YE[Y])]E[(XE[X])2]E[(YE[Y])2]

と書き直すこともできる。

標本相関係数

大きさの同じ2個のデータ テンプレート:Math2 に対して、標本共分散テンプレート:Math標本標準偏差をそれぞれ テンプレート:Math2 とおく。このとき

r:=sxysxsy=i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2

を標本相関係数 (sample correlation coefficient) あるいは標本のピアソンの積率相関係数という。ただし、テンプレート:Math2 はそれぞれデータ テンプレート:Math2平均値で、x=1ni=1nxi, y=1ni=1nyi である。

相関係数は、幾何学的には次のような意味になる。

データ テンプレート:Math2 をそれぞれ テンプレート:Mvar 次の列ベクトル テンプレート:Math と考えると、テンプレート:Math偏差ベクトルはそれぞれ以下のようになる。

𝒙x1=[x1xx2xxnx],𝒚y1=[y1yy2yyny]

ただし、テンプレート:Math は全ての成分が1である テンプレート:Mvar 次の列ベクトルで、テンプレート:Math である。このとき、テンプレート:Math偏差ベクトル テンプレート:Mathなす角テンプレート:Mvar としたときの

cosθ=𝒙x1,𝒚y1𝒙x1𝒚y1

が標本相関係数 テンプレート:Mvar である。ここで、テンプレート:Math内積を表す。

データ テンプレート:Math が2次元正規分布からの標本のとき、標本相関係数 テンプレート:Mvar は母集団相関係数 テンプレート:Mvar最尤推定量ではあるが、不偏推定量ではなく(絶対値で見ると)小さめに見積もりがちである[6]。また外れ値に大きく影響してしまう。

下のようなXY同時確率分布を考える。

P(X=x,Y=y) y=1 y=0 y=1
x=0 0 1/3 0
x=1 1/3 0 1/3

この同時分布の場合、周辺分布は以下のようになる。

P(X=x)={1/3for x=02/3for x=1
P(Y=y)={1/3for y=11/3for y=01/3for y=1

ここから以下の期待値および分散値が得られる。

μX=2/3
μY=0
σX2=2/9
σY2=2/3

したがって、相関係数ρX,Yは次の通り。

ρX,Y=1σXσYE[(XμX)(YμY)]=1σXσYx,y(xμX)(yμY)P(X=x,Y=y)=(12/3)(10)13+(02/3)(00)13+(12/3)(10)13=0.

(すなわち「無相関」である)

誤解や誤用

テンプレート:Excerpt

脚注

テンプレート:Reflist

関連項目

テンプレート:統計学 テンプレート:Normdaten