ピアソンの積率相関係数

ピアソンの積率相関係数(ピアソンのせきりつそうかんけいすう、テンプレート:Lang-en-short)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である[1][2]。カール・ピアソンが研究した。一般的に、単に相関係数といえばピアソンの積率相関係数を指す。
ピアソンの積率相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという[3][4]。
たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば−1に近い数字になる。
相関係数が ±1 に値をとることは、2つのデータ(確率変数)が線形の関係にあるときに限る[5]。また2つの確率変数が互いに独立ならば相関係数は 0 となるが、逆は成り立たない。
定義
母集団相関係数
正の分散を持つ確率変数 テンプレート:Math2 が与えられたとき、共分散を 、標準偏差を テンプレート:Math2 とおく。このとき
を確率変数 テンプレート:Mvar と テンプレート:Mvar の母集団のピアソンの積率相関係数という。これは期待値を テンプレート:Math で表せば
と書き直すこともできる。
標本相関係数
大きさの同じ2個のデータ テンプレート:Math2 に対して、標本共分散を テンプレート:Math、標本標準偏差をそれぞれ テンプレート:Math2 とおく。このとき
を標本相関係数 (sample correlation coefficient) あるいは標本のピアソンの積率相関係数という。ただし、テンプレート:Math2 はそれぞれデータ テンプレート:Math2 の平均値で、, である。
相関係数は、幾何学的には次のような意味になる。
データ テンプレート:Math2 をそれぞれ テンプレート:Mvar 次の列ベクトル テンプレート:Math と考えると、テンプレート:Math の偏差ベクトルはそれぞれ以下のようになる。
ただし、テンプレート:Math は全ての成分が1である テンプレート:Mvar 次の列ベクトルで、テンプレート:Math である。このとき、テンプレート:Math の偏差ベクトル テンプレート:Math のなす角を テンプレート:Mvar としたときの
が標本相関係数 テンプレート:Mvar である。ここで、テンプレート:Math は内積を表す。
データ テンプレート:Math が2次元正規分布からの標本のとき、標本相関係数 テンプレート:Mvar は母集団相関係数 テンプレート:Mvar の最尤推定量ではあるが、不偏推定量ではなく(絶対値で見ると)小さめに見積もりがちである[6]。また外れ値に大きく影響してしまう。
例
下のようなとの同時確率分布を考える。
この同時分布の場合、周辺分布は以下のようになる。
ここから以下の期待値および分散値が得られる。
したがって、相関係数は次の通り。
(すなわち「無相関」である)
誤解や誤用
脚注
関連項目
- ↑ テンプレート:Cite book
- ↑ テンプレート:Cite book
- ↑ テンプレート:Cite book
- ↑ 伏見康治「確率論及統計論」第III章 記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
- ↑ テンプレート:Cite book
- ↑ テンプレート:Cite book