スチューデント化残差のソースを表示
←
スチューデント化残差
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{回帰分析}} '''スチューデント化残差'''(スチューデントかざんさ、{{lang-en-short|studentized residual}})とは、[[統計学]]において、[[残差]]をその[[標準偏差]]の[[推定量]]で割って補正したものである。スチューデント化は「外れ値」の検出にあたり重要な技法である。 「スチューデント化」の名称は[[ウィリアム・ゴセット]]の筆名「スチューデント」にちなむ。 ==誤差と残差== 誤差と残差の違いを理解することは非常に重要である。簡単な線形[[回帰分析|回帰]]モデル {{Indent|<math>Y_i=\alpha_0+\alpha_1 x_i+\varepsilon_i,</math>}} を考えよう。ここで「誤差」 ε<sub>''i''</sub> , ''i'' = 1, ... , ''n'' は統計的に[[確率論的独立性|独立]] ですべて同じ分散 σ<sup>2</sup> をもつものとする。 残差は真でなく観測もできない誤差ではなく、観測可能なデータに基く誤差の推定値である。[[最小二乗法]]で α<sub>0</sub> と α<sub>1</sub>を推定したとき、(誤差と異なり)残差は、独立ではありえない。なぜなら残差は以下の 2 つの拘束条件を満たすからである。 {{Indent| <math>\sum_{i=1}^n \widehat{\varepsilon}_i=0,\qquad \sum_{i=1}^n \widehat{\varepsilon}_i x_i=0</math> }} ここで <math>\varepsilon_i</math> は ''i'' 番目の誤差、 <math>\widehat{\varepsilon}_i</math> は ''i'' 番目の残差を表す。 さらに、誤差と異なり残差は、同じ分散を持たない。分散は対応する ''x''-値が ''x''-値の平均から遠ざかるにつれ減少する。これは回帰分析の予測値が、説明変数の分布する領域の端の方であるほどより影響を受けることと、データの回帰係数に及ぼす影響力が高いほど変わりやすいということによるものである。これは説明変数の分布の端の方のデータにおける残差はまた傾きの推定値によって大きく影響を受けるが、説明変数の分布の平均辺りのデータにおける残差は傾きによる影響をあまり受けないということによっても確認できる。''真の誤差の分散がすべて等しいにもかかわらず残差の分散が異なるという事実は、スチューデント化が必要な主要な理由である。''これは単に母集団パラメータ(平均と標準偏差)が未知であるという問題ではなく、一変量分布についての点推定のように同じ残差分布をデータが共有するのとは異なり、回帰分析するということが異なるデータポイントに対して異なる残差分布を生み出してしまうということである。 ==スチューデント化の手順== この簡単なモデルでは、[[計画行列]] は {{Indent|<math>X=\left[\begin{matrix}1 & x_1 \\ \vdots & \vdots \\ 1 & x_n \end{matrix}\right]</math>}} であり、「ハット行列」(hat matrix) ''H'' は計画行列の[[列空間]]への[[直交射影]]である。 {{Indent|<math>H=X(X^T X)^{-1}X^T.</math>}} 「てこ値」(てこち、{{en|leverage}}、レバレッジ)''h''<sub>''ii''</sub> はハット行列の第 ''i'' 対角要素である。''i'' 番目の残差の分散は {{Indent|<math>\mbox{var}(\widehat{\varepsilon}_i)=\sigma^2(1-h_{ii})</math>}} で、対応する「スチューデント化残差」は {{Indent|<math>{\widehat{\varepsilon}_i\over \widehat{\sigma} \sqrt{1-h_{ii}\ }}</math>}} である。ここで <math>\widehat{\sigma}</math> は適当な σ の推定量である。 ==内部スチューデント化と外部スチューデント化== σ<sup>2</sup> の推定量は {{Indent|<math>\widehat{\sigma}^2={1 \over n-m}\sum_{j=1}^n \widehat{\varepsilon}_j^2</math>}} で表される。ここで ''m'' はモデルの[[母数]]の個数 (この例では 2)である。 ''i'' 番のデータが「外れ値」かどうかを検討する時には、''i''番の観測を分散の推定には用いないことが望ましい。結局、以下の推定量が用いられる。 {{Indent|<math>\widehat{\sigma}_{(i)}^2={1 \over n-m-1}\sum_{\begin{smallmatrix}j = 1\\j \ne i\end{smallmatrix}}^n \widehat{\varepsilon}_j^2,</math>}} ここで総和記号Σは ''i'' 番の観測を除くすべての観測に基づく和である。後者の推定量を用いる場合、''i'' 番の観測は「除外された」ので、「外部スチューデント化残差」 (externally studentized residual)または「削除後スチューデント残差」 (deleted studentized residual) という。前者を用いる場合、''i'' 番の観測を「含んだ」ので、「内部スチューデント化残差」 (internally studentized residual) という。 誤差が独立で、[[期待値]] 0 で 分散 σ<sup>2</sup> の [[正規分布]]に従う場合、''i'' 番の外部スチューデント化残差の[[確率分布]]はスチューデントの[[t分布]]となる。その[[自由度#統計学|自由度]]は ''n'' − ''m'' − 1 であり、値域は (-∞, +∞) である。 一方、内部スチューデント化残差の値域は <math>0 \pm \sqrt{\mathrm{r.d.f.}}</math> である。ここで自由度は残差の自由度すなわち ''n'' − ''m'' である。"i.s.r" で内部スチューデント化残差を表し、誤差は独立同一正規分布 (independent identically distributed Gaussian) 変数と仮定すると、 {{Indent|<math>\mathrm{i.s.r.}^2 = \mathrm{r.d.f.}{t^2 \over t^2+\mathrm{r.d.f.}-1}</math>}} ここで ''t'' は[[t分布]]でその自由度は r.d.f. − 1 である。実は、上式は i.s.r.<sup>2</sup>/r.d.f. が[[ベータ分布]]に従うことを示す。r.d.f. = 3 のとき、内部スチューデント化残差は <math>-\sqrt{3}</math> and <math>+\sqrt{3}</math> で[[一様分布]]する。 自由度が 1 しかない場合、内部スチューデント化残差を表す上式は適用できない。この場合、内部スチューデント化残差は +1 か -1 のどちらかにそれぞれ 50 パーセントの確率で分布する。 <!--内部スチューデント化残差分布の標準偏差は常に 1 であるが、ある実験の内部スチューデント残差の標準偏差がすべて 1 であることを意味しない。訳者には意味不明。--> ==参考文献== 英語版元記事に掲げられていたものである。 * ''Residuals and Influence in Regression'', R. Dennis Cook, New York : [[:en:Chapman and Hall|Chapman and Hall]], 1982. ==関連項目== * [[DFFITS]] {{math-stub}} {{DEFAULTSORT:すちゆうてんとかさんさ}} [[Category:誤差と残差]] [[Category:統計的偏差と分散]] [[Category:数学に関する記事]]
このページで使用されているテンプレート:
テンプレート:En
(
ソースを閲覧
)
テンプレート:Indent
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Math-stub
(
ソースを閲覧
)
テンプレート:回帰分析
(
ソースを閲覧
)
スチューデント化残差
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報