線形回帰

提供: testwiki
2024年6月28日 (金) 16:55時点におけるimported>ぐしーによる版 (2400:2200:8C6:D886:6CB1:BF38:E5B2:E14B (会話) による ID:100880007 の版を取り消し)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

テンプレート:Expand English

1つの従属変数と1つの独立変数がある線形回帰の例。

テンプレート:回帰分析 線形回帰(せんけいかいき、テンプレート:Lang-en-short)とは、説明変数(独立変数ともいう)に対して目的変数(従属変数、あるいは反応変数ともいう)が線形またはそれから近い値で表される状態。線形回帰は統計学における回帰分析の一種であり、非線形回帰と対比される。

線形回帰のうち、説明変数が1つの場合を線形単回帰(simple linear regression)や単純線形回帰単変量線形回帰(univariate linear regression)、2つ以上の場合を線形重回帰(multiple linear regression)や多重線形回帰多変量線形回帰(multivariate linear regression)と呼ぶ。単回帰と呼んだ場合、単変量の回帰のことであるが、多くの場合は非線形を含めずに線形単回帰の事を指す。

概要

線形回帰では,データから推定される線形予測関数を用いて関係性がモデル化される。このようなモデルは線形モデルと呼ばれる。 説明変数(または予測変数)に対して目的変数の条件付き期待値は、アフィン写像で与えられる。(通常は条件付き期待値だが、条件付メジアンまたは他の分位数を用いることもある。)

線形回帰が非線形回帰に比べて用いられる頻度が高いのは、未知のパラメータに線形に依存するモデルの方が、パラメータに非線形に依存するモデルよりもフィッティングが容易で、推定値の統計的性質を決定しやすいためである。

線形回帰が取り扱う範囲は、予測変数の値を与えられた応答の条件付き確率分布に限る。 全ての変数の同時確率分布多変量解析の領域として、ここでは扱わない。

線形回帰の用途

線形回帰は多くの実用的な用途があり、大まかには以下の二種類の用途に分類される。

○予測、予想、またはエラーの削減を目的とする。 →線形回帰は、応答変数と説明変数の値の観測されたデータセットに予測モデルを適合させるために使用できる。 説明変数の追加値が収集された場合、このモデルから応答変数を予測できる。

○説明変数の変動に起因する応答変数の変動を説明することを目的とする。 →線形回帰分析を適用して、応答と説明変数の関係の強さを定量化できる。 これにより各説明変数が応答と全く線形関係を持たないかどうかを判断したり、説明変数のどのサブセットに応答に関する冗長な情報が含まれているかを特定できる。

線形モデルのフィッティング方法

線形回帰モデルは多くの場合、最小二乗法を用いてフィッティングされる。 それ以外のフィッティング方法としては、最小絶対値法や、リッジ回帰(L2ノルムペナルティ)やラッソ回帰(L1ノルムペナルティ)のように、最小二乗コスト関数のペナルティ付きバージョンを最小化する方法などがある。 逆に最小二乗法は、線形モデルではないモデルのフィットにも使用できる。 このように、「最小二乗法」と「線形モデル」という言葉は密接に関連しているが、同義ではない。

基本モデル

線形回帰モデルは、目的変数[注釈 1] テンプレート:Mvar と説明変数[注釈 1] テンプレート:Math および擾乱項[注釈 2] テンプレート:Mvar の関係を以下のようにモデル化したものである。

Y=β0+β1X1+β2X2++βpXp+ε 

ここで テンプレート:Math切片(「定数」項)、テンプレート:Math は各々の説明変数の係数であり、テンプレート:Mvar は説明変数の個数である。線形回帰においては、説明変数の係数および切片の組 テンプレート:Mathパラメタとするモデルを与える。また、擾乱項 テンプレート:Mvar は説明変数 テンプレート:Mvar とは独立である。

ベクトル行列記法を用いれば、線形回帰モデルは以下のように表せる。

Y=Xβ+ε 

線形とは

線形回帰が「線形」であるのは、目的変数 テンプレート:Mvar が説明変数 テンプレート:Mvar の係数 テンプレート:Mvar に対して線形であるためである。たとえば

Y=β0+β1x+β2x2+ε

という回帰は テンプレート:Mvar に対して明らかに線形ではないが、係数 テンプレート:Mvar に対して線形であるから、線形回帰の問題に分類される。

線形単回帰

テンプレート:仮リンクや単純線形回帰や単変量線形回帰の場合、説明変数は1つだけであり回帰パラメタは2つである。上式は以下のようになる。

テンプレート:Indent

最小二乗法を使用した場合、x¯y¯xiyi の平均としたとき、パラメータ ab の推定量の a^b^ は以下のように求まる。

a^=y¯b^x¯b^=i=1n(xix¯)(yiy¯)i=1n(xix¯)2

同等な定式化に、線形単回帰を条件付き期待値のモデルとして陽に表すものがある。

テンプレート:Indent

ここで、所与の テンプレート:Mvar に対する テンプレート:Mvar条件付き確率分布は擾乱項の確率分布に一致する。

線形回帰の種類

最小二乗モデル

最小二乗法カール・フリードリッヒ・ガウスが1820年代に発展させた。本方法は、擾乱項 テンプレート:Mvar の振る舞いに次のような仮定をする(ガウス=マルコフ仮定)。

以上の仮定は、最小二乗法がある意味で最適なパラメタの推定量を与えることを保証する。

説明変数の個数が テンプレート:Mvar 個のモデルを考えると、線形回帰によって決定すべきパラメタは係数 テンプレート:Math と切片 テンプレート:Mathテンプレート:Math 個である。目的変数と説明変数の測定結果の組 テンプレート:Math を1つのデータとし、テンプレート:Mvar 個のデータを用いた線形回帰は以下のように表すことができる。

[y1y2yn]=[1x11x12x1p1x21x22x2p1xn1xn2xnp][β0β1βp]+[ε1ε2εn]

上記の連立方程式は、目的変数の観測値を テンプレート:Mvar 成分の列ベクトル テンプレート:Mvar、説明変数の観測値および切片 テンプレート:Math の係数 (テンプレート:Math) を テンプレート:Math 行列 テンプレート:Math、回帰パラメタを テンプレート:Math 成分の列ベクトルテンプレート:Mvar、観測ごとの擾乱を テンプレート:Mvar 成分の列ベクトル テンプレート:Mvar とすれば、行列の記法を用いて以下のように表せる。

Y=𝐗β+ε

テンプレート:Math の場合、回帰パラメタの標準誤差は算出できない。テンプレート:Mvarテンプレート:Mvar より小さい場合、パラメタは算出できない。

回帰パラメタの推定量は、 テンプレート:Indent

で与えられ、ガウス=マルコフの定理より推定量β^は最良線形不偏推定量になる。つまり、任意の線形不偏推定量βに対して テンプレート:Indent が成立する。

回帰の二乗和 SSR は下式で与えられる。

テンプレート:Indent

ここで y¯=1nyi であり un × 1 の1ベクトル(各要素が1)である。 項 1nyuuy1n(yi)2 と等価である。

誤差の二乗和 ESS は下式で与えられる。

テンプレート:Indent

二乗和の全和 TSS' は下式で与えられる。

テンプレート:Indent

決定係数, R² は下式で与えられる。

テンプレート:Indent

擾乱項が正規分布に従うモデル

以下では擾乱項テンプレート:Mvarが互いに独立な平均0, 分散σ2の正規分布に従うと仮定する。

残差は、観測値とモデルによる予測値の差を表し、以下のように決定される。

テンプレート:Indent

この時、統計量S2=ε^ε^np1は分散σ2の不偏推定量(E[S2]=σ2)になる[1]。また、最小二乗推定量β^と統計量S2について以下が成立することが知られている。証明は久保川(2017)[2]や解説記事[3]が詳しい。

  1. β^は多次元正規分布𝒩(β,σ2(𝑿𝑿)1)に従う
  2. (NP1)S2σ2は自由度np1χnp12分布に従う
  3. β^S2は独立

上記の事実をもとに回帰係数の有意性検定、信頼区間や予測区間を構成できる。

回帰係数の有意性検定

回帰係数の推定量β^iは正規分布𝒩(βi,σ2(𝑿𝑿)ii1)に従うことから

T=β^iβi(𝑿𝑿)ii1S2

は自由度np1t分布に従う[4]。ここで(𝑿𝑿)ii1は行列𝑿𝑿の第(i+1,i+1)成分である。(添え字iは0から始まることに注意。)

これより適当な有意水準α

  • 帰無仮説: βi=0
  • 対立仮説: βi0

を検定することできる。

信頼区間と予測区間

x=x0における100(1α)% の信頼区間は下式[5]で表される。 テンプレート:Indent

同様に値 x=x0における100(1α)% の予測区間は下式[6]で表される。 テンプレート:Indent

脚注

テンプレート:脚注ヘルプ

注釈

テンプレート:Reflist

出典

テンプレート:Reflist

テンプレート:統計学


引用エラー: 「注釈」という名前のグループの <ref> タグがありますが、対応する <references group="注釈"/> タグが見つかりません