除外変数バイアスのソースを表示

{{参照方法|date=2022年1月31日 (月) 10:42 (UTC)}}
'''除外変数バイアス'''（じょがいへんすうばいあす、omitted-variable bias, OVB）は、[[統計学]]において、[[統計モデル]]から関連する変数を除外することで発生する[[バイアス]]。このバイアスの結果、除外された変数の効果を、モデルに含まれた変数の効果に帰してしまう。

より具体的には、[[回帰分析]]において、従属変数の決定要因であり、含まれている独立変数と相関するような変数が省略されているなど、仮定した仕様が正しくない場合に、[[パラメータ]]の推定値にあらわれるバイアスのこと。

== 線形回帰の例 ==
=== 直感 ===
真の因果関係が次の式で与えられると仮定する。

: <math>y=a+bx+cz+u</math>

ここで、<math>a, b, c</math> はパラメータ、<math>y</math> は従属変数、<math>x, z</math> は独立変数、<math>u</math> は誤差項であり、<math>x</math> が <math>y</math> に与える影響（<math>b</math> の推定値）を検討する。

除外変数バイアスが[[線形回帰]]に存在するには、2つの条件が当てはまる必要がある。

* 除外変数は、従属変数の決定要因である、すなわち真の回帰係数が非ゼロ
* 除外変数は、独立変数と相関している、すなわち <math>\mathrm{cov}(z, x)</math> が非ゼロ）

回帰から <math>z</math> を省略し、<math>x</math> と <math>z</math> の関係が次のようになるとする。

: <math>z=d+fx+e</math>

<blockquote>ここで、<math>d, f</math> はパラメータ、<math>e</math> は誤差項である。</blockquote>2番目の方程式を最初の方程式に代入すると、

: <math>y=(a+cd)+(b+cf)x+(u+ce)</math>

''<math>y</math>'' を <math>x</math> のみで回帰する場合、この最後の方程式が推定され、<math>x</math> の回帰係数は実際には <math>b + cf</math> の推定値ということになる。<math>x</math> の ''<math>y</math>'' への直接効果 <math>b</math> ではなく、間接効果（<math>x</math> の ''<math>z</math>'' への効果 <math>f</math> と <math>z</math> の ''<math>y</math>'' への効果 <math>c</math> との積）との和になる。したがって、回帰から変数 <math>z</math> を省略することにより、 [[偏微分]]ではなく[[全微分]]を推定したことになる。<math>c</math> も <math>f</math> も非ゼロであれば、両者は異なる。

バイアスの向きは <math>cf</math> の正負、バイアスの大きさは <math>cf</math> の絶対値によって求められる。

=== 詳細な分析 ===
例として、次の形式の線形モデルを考える。

: <math>y_i = \mathbf{x}_i^\top \boldsymbol{\beta} + z_i \delta + u_i, \quad i = 1, \cdots, n</math>

ここで、

* 列ベクトル <math>\mathbf{x}_i</math> は時刻 <math>i</math> ないし被験者 <math>i</math> で観測された <math>p</math> 個の独立変数の値
* 列ベクトル <math>\boldsymbol{\beta}</math> は推定すべき観測不可能な <math>p</math> 個のパラメータ（<math>\mathbf{x}_i</math> の各独立変数の応答係数）
* スカラー <math>z_i</math> は時刻 <math>i</math> ないし被験者 <math>i</math> で観測されたもう一つの独立変数の値
* スカラー <math>\delta</math> は推定すべき観測不可能なパラメータ（<math>z_i</math> の応答係数）
* <math>u_i</math>は時刻 <math>i</math> ないし被験者 <math>i</math> に対応する観測不能である[[誤差|誤差項]]であり、<math>\mathbf{x}_i</math> および <math>z_i</math> を条件として期待値 0 の確率変数の観測不可能な実現値。
* <math>y_i</math> は時刻 <math>i</math> ないし被験者 <math>i</math> で観測された[[従属変数]]

<math>i = 1, \cdots, n</math> と添え字のついた全ての変数の観測値を集め、それらを積み重ねて、行列 '''X''' とベクトル '''y'''、'''z'''、'''u''' を得る。

: <math> \mathbf{X} = \left[ \begin{array}{c} \mathbf{x}_1^\top \\ \vdots \\ \mathbf{x}_n^\top \end{array} \right] \in \mathbb{R}^{n \times p}</math>

と

: <math> \mathbf{y} = \left[ \begin{array}{c} y_1 \\ \vdots \\ y_n \end{array} \right], \quad \mathbf{z} = \left[ \begin{array}{c} z_1 \\ \vdots \\ z_n \end{array} \right], \quad \mathbf{u} = \left[ \begin{array}{c} u_1 \\ \vdots \\ u_n \end{array} \right] \in \mathbb{R}^{n \times 1}</math>

独立変数 '''z''' が回帰から省略されている場合、他の独立変数の応答係数の推定値は、通常の[[最小二乗法|最小二乗]]計算によって与えられる。

: <math>\widehat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y}</math>

ここで、<math>\top</math> 記号は[[転置行列|行列の転置]]を意味し、-1の上付き文字は[[逆行列]]を表す。

仮定された線形モデルに基づいて '''y''' を代入すると、

: <math>
\begin{align}
\widehat{\boldsymbol{\beta}}
& = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top (\mathbf{X} \boldsymbol{\beta} + \mathbf{z} \delta + \mathbf{u}) \\
&= (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{X} \boldsymbol{\beta} + (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{z} \delta + (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{u} \\
&= \boldsymbol{\beta} + (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{z} \delta + (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{u}
\end{align}
</math>

<math>\mathbf{u}</math> は <math>\mathbf{X}</math> とは相関しないので、期待最終項は期待値には影響しない。残りの項を整理すると

: <math>
\begin{align}
\mathbb{E} \left( \widehat{\boldsymbol{\beta}} \mid \mathbf{X} \right)
&= \boldsymbol{\beta} + (\mathbf{X}^\top \mathbf{X})^{-1} \mathbb{E} \left( \mathbf{X}^\top \mathbf{z} \mid \mathbf{X} \right) \delta \\
&= \boldsymbol{\beta} + \text{bias}
\end{align}
</math>

右辺第2項が除外変数バイアスであり、除外変数 '''z''' が行列 '''X''' に含まれる変数のいずれかと相関している場合（<math>\mathbf{X}^\top \mathbf{z} \neq \mathbf{0}</math> の場合）非ゼロである。

== 通常の最小二乗法での効果 ==
[[ガウス＝マルコフの定理|ガウス-マルコフの定理]]は、古典的な線形回帰モデルの仮定を満たす回帰モデルが、最も効率的で線形で不偏な推定量を提供すると述べている。通常の最小二乗法では、古典的な線形回帰モデルの関連する仮定は、誤差項が回帰子と無相関であるということである。

除外変数バイアスの存在は、この仮定に反するので、通常の最小二乗法による推定値にバイアスがかかり、一貫性が失われる。バイアスの方向は、推定量や、回帰子と除外された変数の間の[[共分散|共分散に依存する。]]除外変数が回帰変数や従属変数と共分散が正の時、係数の推定値は真の値よりも大きくなる。

== 参考文献 ==
{{No footnotes|section=1|date=2022年1月31日 (月) 10:42 (UTC)}}
* {{Cite book|last=Barreto|last2=Howland|chapter=Omitted Variable Bias|title=Introductory Econometrics: Using Monte Carlo Simulation with Microsoft Excel|publisher=Cambridge University Press|date=2006|chapterurl=http://www3.wabash.edu/econometrics/EconometricsBook/chap18.htm}}
* {{Cite journal|last=Clarke|first=Kevin A.|year=2005|title=The Phantom Menace: Omitted Variable Bias in Econometric Research|journal=Conflict Management and Peace Science|volume=22|issue=4|pages=341–352|DOI=10.1080/07388940500339183}}
* {{Cite book|last=Greene|first=W. H.|title=Econometric Analysis|edition=2nd|publisher=Macmillan|date=1993|pages=245–246}}
* {{Cite book|last=Wooldridge|first=Jeffrey M.|year=2009|chapter=Omitted Variable Bias: The Simple Case|pages=89–93|title=Introductory Econometrics: A Modern Approach|location=Mason, OH|publisher=Cengage Learning|isbn=9780324660548}}

== 関連項目 ==
* [[交絡|交絡変数]]

{{DEFAULTSORT:しよかいへんすうはいあす}}
[[Category:バイアス]]
[[Category:回帰分析]]
[[Category:統計学]]
[[Category:疫学]]
[[Category:数学に関する記事]]