線形回帰のソースを表示
←
線形回帰
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{Expand English|Linear regression|date=2024年5月}} [[ファイル:Normdist_regression.png|300px|thumb|right|1つの従属変数と1つの独立変数がある線形回帰の例。]] {{回帰分析}} '''線形回帰'''(せんけいかいき、{{lang-en-short|linear regression}})とは、説明変数(独立変数ともいう)に対して目的変数(従属変数、あるいは反応変数ともいう)が[[線型性|線形]]またはそれから近い値で表される状態。線形回帰は[[統計学]]における[[回帰分析]]の一種であり、[[非線形回帰]]と対比される。 線形回帰のうち、説明変数が1つの場合を'''線形単回帰'''(simple linear regression)や'''単純線形回帰'''や'''単変量線形回帰'''(univariate linear regression)、2つ以上の場合を'''線形重回帰'''(multiple linear regression)や'''多重線形回帰'''や'''多変量線形回帰'''(multivariate linear regression)と呼ぶ。単回帰と呼んだ場合、単変量の回帰のことであるが、多くの場合は非線形を含めずに線形単回帰の事を指す。 == 概要 == 線形回帰では,データから推定される線形予測関数を用いて関係性がモデル化される。このようなモデルは線形モデルと呼ばれる。 説明変数(または予測変数)に対して目的変数の[[条件付き期待値]]は、[[アフィン写像]]で与えられる。(通常は条件付き期待値だが、条件付[[メジアン]]または他の[[分位数]]を用いることもある。) 線形回帰が非線形回帰に比べて用いられる頻度が高いのは、未知のパラメータに線形に依存するモデルの方が、パラメータに非線形に依存するモデルよりもフィッティングが容易で、推定値の統計的性質を決定しやすいためである。 線形回帰が取り扱う範囲は、予測変数の値を与えられた応答の[[条件付き確率分布]]に限る。 全ての変数の[[同時確率分布]]は[[多変量解析]]の領域として、ここでは扱わない。 === 線形回帰の用途 === 線形回帰は多くの実用的な用途があり、大まかには以下の二種類の用途に分類される。 ○予測、予想、またはエラーの削減を目的とする。 →線形回帰は、応答変数と説明変数の値の観測されたデータセットに予測モデルを適合させるために使用できる。 説明変数の追加値が収集された場合、このモデルから応答変数を予測できる。 ○説明変数の変動に起因する応答変数の変動を説明することを目的とする。 →線形回帰分析を適用して、応答と説明変数の関係の強さを定量化できる。 これにより各説明変数が応答と全く線形関係を持たないかどうかを判断したり、説明変数のどのサブセットに応答に関する冗長な情報が含まれているかを特定できる。 === 線形モデルのフィッティング方法 === 線形回帰モデルは多くの場合、最小二乗法を用いてフィッティングされる。 それ以外のフィッティング方法としては、最小絶対値法や、リッジ回帰(L2ノルムペナルティ)や[[ラッソ回帰]](L1ノルムペナルティ)のように、最小二乗コスト関数のペナルティ付きバージョンを最小化する方法などがある。 逆に最小二乗法は、線形モデルではないモデルのフィットにも使用できる。 このように、「最小二乗法」と「線形モデル」という言葉は密接に関連しているが、同義ではない。 == 基本モデル == 線形回帰モデルは、目的変数<ref group="注釈" name="variables">回帰分析の分野においては、目的変数をしばしば'''応答変数'''(おうとうへんすう、{{lang-en-short|response variable}})とも呼ぶ。説明変数(せつめいへんすう、{{en|explanatory variable}})は他に様々な名称で呼ばれ、たとえば'''外生変数'''(がいせいへんすう、{{lang-en-short|exogenous variable}})、'''入力変数'''(にゅうりょくへんすう、{{lang-en-short|input variable}})、'''予測変数'''(よそくへんすう、{{lang-en-short|predictor variable}})とも呼ばれる。また、目的変数を'''従属変数'''(じゅうぞくへんすう、{{lang-en-short|dependent variable}})、説明変数を'''独立変数'''(どくりつへんすう、{{lang-en-short|independent variable}})と対で呼ぶこともあるが、従属/独立といった言葉は数学において多義的に使われがちであるため、使用には注意が必要である。</ref> {{mvar|Y}} と説明変数<ref group="注釈" name="variables" /> {{math|1=''X''<sub>''i''</sub>, ''i'' = 1, ..., ''p''}} および擾乱項<ref group="注釈" name="noise-term">'''擾乱項'''(じょうらんこう、{{lang-en-short|disturbance term}})は'''雑音項'''(ざつおんこう、{{lang-en-short|noise term}})、あるいは'''誤差項'''(ごさこう、{{lang-en-short|error term}})とも呼ばれる。この「誤差」は回帰モデルの誤差ではなく、測定に伴う誤差を指している。</ref> {{mvar|ε}} の関係を以下のようにモデル化したものである。 :<math>Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots +\beta_p X_p + \varepsilon\ </math> ここで {{math|''β''<sub>0</sub>}} は[[切片]](「定数」項)、{{math|''β<sub>i</sub>''}} は各々の説明変数の[[係数]]であり、{{mvar|p}} は説明変数の個数である。線形回帰においては、説明変数の係数および切片の組 {{math|{{mset|''β<sub>i</sub>''}}<sub>''i''∈[0,''p'')</sub>}} を[[母数|パラメタ]]とするモデルを与える。また、擾乱項 {{mvar|ε}} は説明変数 {{mvar|X}} とは独立である。 [[ベクトル空間|ベクトル]]・[[行列]]記法を用いれば、線形回帰モデルは以下のように表せる。 :<math>Y = X\beta + \varepsilon\ </math> === 線形とは === 線形回帰が「線形」であるのは、目的変数 {{mvar|Y}} が説明変数 {{mvar|X}} の係数 {{mvar|β}} に対して[[一次関数|線形]]であるためである。たとえば :<math>Y = \beta_0 + \beta_1 x + \beta_2 x^2 + \varepsilon</math> という回帰は {{mvar|x}} に対して明らかに線形ではないが、係数 {{mvar|β}} に対して線形であるから、線形回帰の問題に分類される。 === 線形単回帰 === {{仮リンク|線形単回帰|en|simple linear regression}}や単純線形回帰や単変量線形回帰の場合、説明変数は1つだけであり回帰パラメタは2つである。上式は以下のようになる。 {{Indent|<math>y = a+bx+\varepsilon\ </math>}} [[最小二乗法]]を使用した場合、<math>\bar{x}</math> と <math>\bar{y}</math> を <math>x_i</math> と <math>y_i</math> の平均としたとき、パラメータ <math>a</math> と <math>b</math> の推定量の <math>\hat{a}</math> と <math>\hat{b}</math> は以下のように求まる。 <math display="block">\begin{align} \hat{a} &= \bar{y} - \hat{b}\,\bar{x} \\ \hat{b} &= \frac{ \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) }{ \sum_{i=1}^n (x_i - \bar{x})^2 } \end{align}</math> 同等な定式化に、線形単回帰を[[条件付き期待値]]のモデルとして陽に表すものがある。 {{Indent|<math> \mbox{E}(y | x) = \alpha + \beta x \ </math>}} ここで、所与の {{mvar|x}} に対する {{mvar|y}} の[[条件付き確率分布]]は擾乱項の[[確率分布]]に一致する。 <!-- == 記法と命名慣習 == 以下の記法を用いる。 * 変数の[[ベクトル]]は太い矢印をベクトルの上に書いて表す。例:<math> \vec X</math> * [[行列]]は太字(ボールド)体で表す。例:'''X''' * 回帰パラメタのベクトルは太字の '''β''' を[[下付き]]をつけずに表す。 行列 '''X''' と '''β''' 列ベクトルの積は、'''Xβ''' で表す。 ベクトル形式で表した独立変数は ハット記号 {{math|{{hat|·}}}} つきの数をその数の推定量の意味で用いる。たとえば、{{math|{{hat|''β''}}}} はパラメタ {{mvar|β}} の推定量を表す。 --> == 線形回帰の種類 == === 最小二乗モデル === [[最小二乗法]]は[[カール・フリードリッヒ・ガウス]]が1820年代に発展させた。本方法は、擾乱項 {{mvar|ε<sub>i</sub>}} の振る舞いに次のような仮定をする(ガウス=マルコフ仮定)。 * 擾乱 {{mvar|ε<sub>i</sub>}} の[[期待値]]は {{math|0}} である *:<math>E[\varepsilon] = 0 </math> * 擾乱 {{mvar|ε<sub>i</sub>}} は相互に[[無相関]]である(統計的な[[独立 (確率論)|独立]]の仮定よりは弱い) *:<math>\operatorname{cov}(\varepsilon_i, \varepsilon_j) = 0, \qquad i \ne j.</math> * 擾乱 {{mvar|ε<sub>i</sub>}} は[[等分散]]、すなわちみな等しい[[分散 (確率論)|分散]]をもつ([[ガウス=マルコフの定理]]も参照) *:<math>V[\varepsilon_i] = \sigma^2, \qquad \forall i \isin [n].</math> 以上の仮定は、最小二乗法がある意味で最適なパラメタの推定量を与えることを保証する。 説明変数の個数が {{mvar|p}} 個のモデルを考えると、線形回帰によって決定すべきパラメタは係数 {{math|''β''<sub>1</sub>,..., ''β''<sub>''p''</sub>}} と切片 {{math|''β''<sub>0</sub>}} の {{math|''p'' + 1}} 個である。目的変数と説明変数の測定結果の組 {{math|(''y<sub>k</sub>''; ''x''<sub>''k''1</sub>,...,''x<sub>kp</sub>'')}} を1つのデータとし、{{mvar|n}} 個のデータを用いた線形回帰は以下のように表すことができる。 :<math> \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & x_{12} & \dots & x_{1p} \\ 1 & x_{21} & x_{22} & \dots & x_{2p} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \dots & x_{np} \end{bmatrix} \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix} </math> 上記の連立方程式は、目的変数の観測値を {{mvar|n}} 成分の[[列ベクトル]] {{mvar|Y}}、説明変数の観測値および切片 {{math|''β''<sub>0</sub>}} の係数 ({{math|{{=}}1}}) を {{math|''n'' × (''p'' + 1)}} 行列 {{math|'''X'''}}、回帰パラメタを {{math|(''p'' + 1)}} 成分の列ベクトル{{mvar|β}}、観測ごとの擾乱を {{mvar|n}} 成分の[[列ベクトル]] {{mvar|ε}} とすれば、行列の記法を用いて以下のように表せる。 :<math> Y = \mathbf{X}\beta + \varepsilon </math> {{math|1=''n'' = ''p''}} の場合、回帰パラメタの[[標準誤差]]は算出できない。{{mvar|n}} が {{mvar|p}} より小さい場合、パラメタは算出できない。 回帰パラメタの推定量は、 {{Indent|<math>\widehat{\beta} =(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top {\vec y}</math>}} で与えられ、[[ガウス=マルコフの定理]]より推定量<math>\widehat{\beta}</math>は最良線形不偏推定量になる。つまり、任意の線形不偏推定量<math>\beta</math>に対して {{Indent|<math>V[\beta] \geq V[\widehat{\beta}]</math>}} が成立する。 回帰の二乗和 ''SSR'' は下式で与えられる。 {{Indent|<math> {\mathit{SSR} = \sum {\left( {\hat{y_i} - \bar y} \right)^2 } = {\hat\beta}^\top \mathbf{X}^\top \vec y - \frac{1}{n}\left( { {\vec y}^\top \vec u {\vec u}^\top \vec y} \right)} </math>}} ここで <math> \bar y = \frac{1}{n} \sum y_i</math> であり <math> \vec u </math> は ''n'' × 1 の1ベクトル(各要素が1)である。 項 <math>\frac{1}{n} y^\top u u^\top y</math> は <math> \frac{1}{n} (\sum y_i)^2</math> と等価である。 誤差の二乗和 ''ESS'' は下式で与えられる。 {{Indent|<math> {\mathit{ESS} = \sum {\left( {y_i - \hat{y_i} } \right)^2 } = {\vec y}^\top \vec y - {\hat\beta}^\top \mathbf{X}^\top \vec y} </math>}} 二乗和の全和 ''TSS' は下式で与えられる。 {{Indent|<math> {\mathit{TSS} = \sum {\left( {y_i - \bar y} \right)^2 } = \vec y^\top \vec y - \frac{1}{n}\left( { {\vec y}^\top \vec u {\vec u}^\top \vec y} \right) = \mathit{SSR}+ \mathit{ESS}} </math>}} [[決定係数]], ''R''² は下式で与えられる。 {{Indent|<math> {R^2 = \frac{\mathit{SSR}}{{\mathit{TSS}}} = 1 - \frac{\mathit{ESS}}{\mathit{TSS}}} </math>}} === 擾乱項が正規分布に従うモデル === 以下では擾乱項{{mvar|ε<sub>i</sub>}}が互いに独立な平均<math>0</math>, 分散<math>\sigma^2</math>の正規分布に従うと仮定する。 残差は、観測値とモデルによる予測値の差を表し、以下のように決定される。 {{Indent|<math>\hat\vec\varepsilon = \vec{y} - \mathbf{X} \hat\beta\ </math>}} この時、統計量<math>S^2=\frac {{\hat{\vec\varepsilon}}{\;}^\top \hat{\vec\varepsilon}} {n-p-1}</math>は分散<math>\sigma^2</math>の不偏推定量(<math>E[S^2]=\sigma^2</math>)になる<ref>{{Cite web|和書|url = https://starpentagon.net/analytics/multiple_linear_regression_mle/|title = 有意に無意味な話: 重回帰モデルの最尤推定量と誤差分散の不偏推定量|accessdate = 2020-08-14}}</ref>。また、最小二乗推定量<math>\widehat{\beta}</math>と統計量<math>S^2</math>について以下が成立することが知られている。証明は久保川(2017)<ref>{{cite book|和書 |author=[[久保川達也]]|title=現代数理統計学の基礎|publisher=共立出版|date=2017-04-05|page=9.2 重回帰モデル|ref=refvalue}}</ref>や解説記事<ref>{{Cite web|和書|url = https://starpentagon.net/analytics/multiple_linear_regression_distribution/|title = 有意に無意味な話: 重回帰モデルでの「回帰係数/誤差分散の確率分布」の導出|accessdate = 2020-08-14}}</ref>が詳しい。 #<math>\widehat{\beta}</math>は多次元正規分布<math>\mathcal{N}\left(\beta, \sigma^2(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\right)</math>に従う #<math>\frac{(N-P-1)S^2}{\sigma^2}</math>は自由度<math>n-p-1</math>の<math>\chi^2_{n-p-1}</math>分布に従う #<math>\widehat{\beta}</math>と<math>S^2</math>は独立 上記の事実をもとに回帰係数の有意性検定、信頼区間や予測区間を構成できる。 ==== 回帰係数の有意性検定 ==== 回帰係数の推定量<math>\widehat{\beta}_i</math>は正規分布<math>\mathcal{N}\left(\beta_i, \sigma^2(\boldsymbol{X}^\top\boldsymbol{X})_{ii}^{-1}\right)</math>に従うことから :<math>T=\dfrac{\hat{\beta}_i - \beta_i}{\sqrt{(\boldsymbol{X}^\top\boldsymbol{X})_{ii}^{-1}S^2}}</math> は自由度<math>n-p-1</math>の<math>t</math>分布に従う<ref>{{Cite web|和書|url = https://starpentagon.net/analytics/multiple_linear_regression_coef_test/|title = 有意に無意味な話: 重回帰モデルでの回帰係数の有意性検定|accessdate = 2020-08-14}}</ref>。ここで<math>(\boldsymbol{X}^\top\boldsymbol{X})_{ii}^{-1}</math>は行列<math>\boldsymbol{X}^\top\boldsymbol{X}</math>の第<math>(i+1, i+1)</math>成分である。(添え字<math>i</math>は0から始まることに注意。) これより適当な有意水準<math>\alpha</math>で *帰無仮説: <math>\beta_i = 0</math> *対立仮説: <math>\beta_i \ne 0</math> を検定することできる。 ==== 信頼区間と予測区間 ==== 値 <math>\vec{x} = \vec {x}_0</math>における<math>100(1-\alpha) \% </math> の信頼区間は下式<ref>{{Cite web|和書|url = https://starpentagon.net/analytics/multiple_linear_regression_ci/|title = 有意に無意味な話: 重回帰モデルの信頼区間|accessdate = 2020-08-14}}</ref>で表される。 {{Indent|<math> { \vec {x_0} \widehat\beta \pm t_{\frac{\alpha }{2},n - p - 1} \sqrt { \vec {x_0} (\mathbf{X}^\top \mathbf{ X})_{}^{ - 1} \vec {x_0}^\top S^2} } </math>}} 同様に値 <math>\vec{x} = \vec {x}_0</math>における<math>100(1-\alpha) \% </math> の予測区間は下式<ref>{{Cite web|和書|url = https://starpentagon.net/analytics/multiple_linear_regression_pi//|title = 有意に無意味な話: 重回帰モデルの予測区間|accessdate = 2020-08-14}}</ref>で表される。 {{Indent|<math> { \vec {x_0} \widehat\beta \pm t_{\frac{\alpha }{2},n - p - 1} \sqrt {(1 + \vec {x_0} (\mathbf{X}^\top \mathbf{X})_{}^{ - 1} \vec {x_0}^\top)S^2 } } </math>}} <!-- == 歴史 == ==== 最小二乗モデルの評価 ==== {{節stub}} ; モデル仮定のチェック : ; モデル有効性のチェック : ==== 最小二乗モデルの改変 ==== ===== 多項式近似(未訳) ===== === 頑健回帰(未訳) === == 線形回帰の応用 == {{節stub}} === 医学(未訳) === === 金融(未訳) === == 引用元 == <references /> --> == 脚注 == {{脚注ヘルプ}} === 注釈 === {{reflist|group="注釈"}} === 出典 === {{Reflist}} {{統計学}} {{DEFAULTSORT:せんけいかいき}} [[Category:数学に関する記事]] [[Category:回帰分析]] [[Category:計量経済学]]
このページで使用されているテンプレート:
テンプレート:Cite book
(
ソースを閲覧
)
テンプレート:Cite web
(
ソースを閲覧
)
テンプレート:Expand English
(
ソースを閲覧
)
テンプレート:Indent
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Math
(
ソースを閲覧
)
テンプレート:Mvar
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
テンプレート:仮リンク
(
ソースを閲覧
)
テンプレート:回帰分析
(
ソースを閲覧
)
テンプレート:統計学
(
ソースを閲覧
)
テンプレート:脚注ヘルプ
(
ソースを閲覧
)
線形回帰
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報