マローズのCpのソースを表示
←
マローズのCp
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
'''Mallowsの''C<sub>p</sub>'''''<ref>{{Cite journal|last=Mallows|first=C. L.|year=1973|title=Some Comments on ''C<sub>P</sub>''|journal=Technometrics|volume=15|issue=4|pages=661–675|DOI=10.2307/1267380|JSTOR=1267380}}</ref> <ref>{{Cite journal|last=Gilmour|first=Steven G.|year=1996|title=The interpretation of Mallows's ''C<sub>p</sub>''-statistic|journal=Journal of the Royal Statistical Society, Series D|volume=45|issue=1|pages=49–56|JSTOR=2348411}}</ref>は、最小二乗法によって推定された[[回帰分析|回帰モデル]]の適合度を評価するために用いられる指標である。名前は[[:en:Colin Lingwood Mallows|コリン・リングウッド・マローズ]]にちなむ。[[:en:model selection|モデル選択]]を行う際に用いられ、ある複数の変数から出力を予測することができるとき、その中から一部の変数を選んで最も良いモデルを見つけることが目的である。C<sub>p</sub>の値が小さいほど、モデルが比較的正確であることを意味する。 マローズの''C<sub>p</sub>''は、ガウス[[線形回帰]]という特殊な場合において[[赤池情報量規準|赤池情報量基準]]に相当することが示されている。<ref>{{Cite arXiv|arxiv=1308.2766|class=math.ST|last=Boisbunon|first=Aurélie|last2=Canu|first2=Stephane|title=AIC, ''C<sub>p</sub>'' and estimators of loss for elliptically symmetric distributions}}</ref> == 定義と性質 == マローズの''C<sub>p</sub>''は、[[過剰適合]]の問題に対する方法である。一般にモデルの変数が増えれば増えるほど、[[残差平方和]]などのモデル適合度の指標は常に小さくなる。したがって、残差平方和が最小となるモデルを選択する場合、常にすべての変数を含むモデルが選択されてしまう。代わりに、データの[[標本 (統計学)|サンプル]]で計算された''C <sub>p</sub>''統計は、 [[母集団]]ターゲットとして平均二乗予測誤差 (MSPE)を推定する。 : <math> E\sum_j \frac{(\hat{Y}_j - E(Y_j\mid X_j))^2}{\sigma^2} </math> ただし、<math>\hat{Y}_j</math> は ''j'' 番目のケースのフィット値、''E'' (''Y''<sub>''j''</sub> | ''X''<sub>''j''</sub>) は ''j'' 番目''の''ケースの期待値であり、σ<sup>2</sup>は誤差分散(全ケース共通の定数とみなされる)である。変数が追加されても、MSPEは自動的に小さくなることはない。この基準での最適なモデルは、サンプルサイズ、さまざまな予測変数の[[効果量]]、および変数間の[[共線|共線性]]の程度によって決まる。 ''P個の''変数が''K''>''P''であるような''K個の変数''から選択された場合、''C<sub>p</sub>''は次のように定義される。 : <math> C_p={SSE_p \over S^2} - N + 2P, </math> ただし、 * <math>SSE_p = \sum_{i=1}^N(Y_i-Y_{pi})^2</math>は、''P個の''変数を持つモデルの[[残差平方和]] * ''Y'' <sub>pi</sub>は、 ''P'' リグレッサからの''Yの'' ''i''番目の観測の[[予言|予測]]値 * ''S'' <sup>2</sup>は、 ''K個すべての変数''を用いて[[回帰分析]]を行った場合の残差平均平方(residual mean square)であり、[[平均二乗誤差]](MSE'')''によって推定される。 * ''N''は標本サイズ == その他の定義 == 次のような線形モデルがあるとする。 : <math> Y = \beta_0 + \beta_1X_1+\cdots+\beta_pX_p + \varepsilon </math> ただし、 * <math> \beta_0,\ldots,\beta_p </math>は予測変数<math> X_1,\ldots,X_p </math>の係数 * <math> \varepsilon </math>は誤差を表す ''C<sub>p</sub>以下のようにも定義される''<ref>{{Cite book|title=An Introduction to Statistical Learning|last=James|first=Gareth|publisher=Springer|isbn=978-1-4614-7138-7|location=http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf|pages=211|last2=Witten|last3=Hastie|last4=Tibshirani|date=2013-06-24}}</ref>。 : <math> C_p=\frac{1}{n}(\operatorname{RSS} + 2d\hat{\sigma}^2) </math> ただし、 * RSSは、教師データセットの残差平方和 * {{Mvar|d}}は予測変数の数 * <math> \hat{\sigma}^2 </math>は線形モデルの各応答に関連する分散の推定値を指す(すべての予測子を含むモデルで推定される) この定義による''C<sub>p</sub>''の値は、前掲の定義による''C<sub>p</sub>''の値と等しくないが、いずれの定義においても''C<sub>p</sub>を最小にするようなモデルは同一である。'' == 制約 == ''C<sub>p</sub>''基準には主に2つの制約がある<ref name="Giraud">Giraud, C. (2015), ''Introduction to high-dimensional statistics'', Chapman & Hall/CRC, {{ISBN2|9781482237948}}</ref>。 # ''C<sub>p</sub>''近似は大きなサンプルサイズに対してのみ有効である。 # ''C<sub>p</sub>は''変数選択(または[[特徴選択]])の問題のようなモデルの複雑な集合を扱うことができない<ref name="Giraud"/>。 == 実用 == == 関連項目 == * [[回帰分析]] * [[決定係数]] * [[赤池情報量基準]] == 参考文献 == {{Reflist}} == 参照 == * {{Cite book|first=Gregory C.|last=Chow|author-link=Gregory Chow|title=Econometrics|location=New York|publisher=McGraw-Hill|year=1983|isbn=978-0-07-010847-9|pages=[https://archive.org/details/econometrics0000chow/page/291 291–293]|url=https://archive.org/details/econometrics0000chow/page/291}} * {{Cite journal|last=Hocking|first=R. R.|year=1976|title=The analysis and selection of variables in linear regression|journal=[[Biometrics (journal)|Biometrics]]|volume=32|issue=1|pages=1–50|DOI=10.2307/2529336|JSTOR=2529336}} * {{Cite book|last=Judge|first=George G.|first2=William E.|last2=Griffiths|first3=R. Carter|last3=Hill|first4=Tsoung-Chao|last4=Lee|year=1980|title=The Theory and Practice of Econometrics|location=New York|publisher=Wiley|pages=417–423|isbn=978-0-471-05938-7}} [[Category:回帰診断]]
このページで使用されているテンプレート:
テンプレート:Cite arXiv
(
ソースを閲覧
)
テンプレート:Cite book
(
ソースを閲覧
)
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:ISBN2
(
ソースを閲覧
)
テンプレート:Mvar
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
マローズのCp
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報