マローズのCp
MallowsのCp[1] [2]は、最小二乗法によって推定された回帰モデルの適合度を評価するために用いられる指標である。名前はコリン・リングウッド・マローズにちなむ。モデル選択を行う際に用いられ、ある複数の変数から出力を予測することができるとき、その中から一部の変数を選んで最も良いモデルを見つけることが目的である。Cpの値が小さいほど、モデルが比較的正確であることを意味する。
マローズのCpは、ガウス線形回帰という特殊な場合において赤池情報量基準に相当することが示されている。[3]
定義と性質
マローズのCpは、過剰適合の問題に対する方法である。一般にモデルの変数が増えれば増えるほど、残差平方和などのモデル適合度の指標は常に小さくなる。したがって、残差平方和が最小となるモデルを選択する場合、常にすべての変数を含むモデルが選択されてしまう。代わりに、データのサンプルで計算されたC p統計は、 母集団ターゲットとして平均二乗予測誤差 (MSPE)を推定する。
ただし、 は j 番目のケースのフィット値、E (Yj | Xj) は j 番目のケースの期待値であり、σ2は誤差分散(全ケース共通の定数とみなされる)である。変数が追加されても、MSPEは自動的に小さくなることはない。この基準での最適なモデルは、サンプルサイズ、さまざまな予測変数の効果量、および変数間の共線性の程度によって決まる。
P個の変数がK>PであるようなK個の変数から選択された場合、Cpは次のように定義される。
ただし、
- は、P個の変数を持つモデルの残差平方和
- Y piは、 P リグレッサからのYの i番目の観測の予測値
- S 2は、 K個すべての変数を用いて回帰分析を行った場合の残差平均平方(residual mean square)であり、平均二乗誤差(MSE)によって推定される。
- Nは標本サイズ
その他の定義
次のような線形モデルがあるとする。
ただし、
- は予測変数の係数
- は誤差を表す
Cp以下のようにも定義される[4]。
ただし、
- RSSは、教師データセットの残差平方和
- テンプレート:Mvarは予測変数の数
- は線形モデルの各応答に関連する分散の推定値を指す(すべての予測子を含むモデルで推定される)
この定義によるCpの値は、前掲の定義によるCpの値と等しくないが、いずれの定義においてもCpを最小にするようなモデルは同一である。
制約
Cp基準には主に2つの制約がある[5]。
実用
関連項目
参考文献
参照
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite arXiv
- ↑ テンプレート:Cite book
- ↑ 5.0 5.1 Giraud, C. (2015), Introduction to high-dimensional statistics, Chapman & Hall/CRC, テンプレート:ISBN2