ラッソ回帰のソースを表示

{{翻訳直後|1=[https://en.wikipedia.org/w/index.php?oldid=951643651 英語版 Lasso (statistics)]|date=2020年6月}}{{要改訳}}

'''ラッソ回帰'''（ラッソかいき、'''least absolute shrinkage and selection operator'''、'''Lasso'''、'''LASSO'''）は、[[特徴選択|変数選択]]と[[正則化|正則化の]]両方を実行し、生成する統計モデルの予測精度と解釈可能性を向上させる[[回帰分析]]手法。1986年に地球物理学の文献で最初に導入され<ref>{{Cite journal |last=Santosa |first=Fadil |last2=Symes |first2=William W. |year=1986 |title=Linear inversion of band-limited reflection seismograms. |url= |journal=SIAM Journal on Scientific and Statistical Computing |volume=7 |issue=4 |pages=1307–1330 |publisher=SIAM |DOI=10.1137/0907087 }}</ref>、その後1996年に{{仮リンク|ロバート・ティブシラニ|en|Robert Tibshirani}}<ref name="Tibshirani 1996">{{Cite journal |last=Tibshirani |first=Robert |year=1996 |title=Regression Shrinkage and Selection via the lasso |journal=Journal of the Royal Statistical Society |volume=58 |issue=1 |pages=267–88 |publisher=Wiley |JSTOR=2346178 }}</ref> が独自に再発見して一般化した。

ラッソ回帰はもともと[[最小二乗法]]で定義されていた。最小二乗法の単純なケースでは、予測器の振る舞いについて多くの事実が分かる。すなわち、[[リッジ回帰]]や{{仮リンク|ベストサブセット選択|en|Best_subset_selection}}との関係、ラッソ係数予測といわゆるソフトしきい値処理（soft thresholding）との関係である。

[[一般化線形モデル]]、[[一般化推定方程式]]、[[比例ハザードモデル]]、{{仮リンク|M推定器|en|M-estimator}}など、さまざまな統計モデルに簡単に拡張できる<ref name="Tibshirani 1996" /><ref name="Tibshirani 1997">{{Cite journal
|last=Tibshirani|first=Robert
|year=1997
|title=The lasso Method for Variable Selection in the Cox Model
|journal=[[Statistics in Medicine (journal)|Statistics in Medicine]]
|volume=16|issue=4|pages=385–395|DOI=10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3}}</ref>。

== 動機 ==
ラッソ回帰は、与えられた共変量の一部のみ最終モデルで使用することにより、回帰モデルの予測精度と解釈可能性を向上させるために導入された<ref name="Tibshirani 1996" /><ref name="Breiman 1995">{{Cite journal
|last=Santosa|first=Fadil
|last2=Symes|first2=William W.
|year=1986
|title=Linear inversion of band-limited reflection seismograms.
|url=|journal=SIAM Journal on Scientific and Statistical Computing
|volume=7|issue=4|pages=1307–1330|publisher=SIAM|DOI=10.1137/0907087}}</ref>。

ラッソ回帰以前は、段階的選択が変数選択に広く用いられていた。これは、少数の共変量のみが結果と強い関係がある場合などには予測精度を向上させるが、それ以外の場合は、予測誤差を悪化させる可能性がある。 また、大きな回帰係数を縮小して[[過剰適合]]を減らす[[リッジ回帰]]も予測精度を向上させるために用いられていたが、リッジ回帰では共変量選択を実行しない。

ラッソ回帰は、回帰係数の絶対値の合計を固定値よりも小さくすることでこれらの目標を両方とも達成できる。これにより、特定の係数が強制的にゼロに設定され、これらの係数を含まないより単純なモデルが効果的に選択される。この考え方は、リッジ回帰に似ているが、リッジ回帰の場合はこれは係数のサイズを縮小するだけであり、ゼロに設定することはない。

== 基本形 ==
ラッソ回帰はもともと最小二乗法の場面で導入された。このケースを最初に検討することは有益である。

それぞれが <math>p</math> 個の[[数式#変数|共変量]]と単一の結果で構成される <math>N</math> 個のケースで構成されるサンプルを考える。

<math>y_i</math> を結果、<math>x_i:=(x_1,x_2,\ldots,x_p)^T</math> を <math>i</math> 番目のケースの共変量ベクトルとする。
ラッソ回帰では、次の式を解くことを考える。

: <math> \min_{ \beta_0, \beta } \left\{ \sum_{i=1}^N (y_i - \beta_0 - x_i^T \beta)^2 \right\}\quad \text{ subject to } \sum_{j=1}^p |\beta_j| \leq t. </math> <ref name="Tibshirani 1996" />

ここで、<math>t</math> を正則化の量を決定する事前に指定された自由パラメーターとする。
共変量行列 <math>X</math> について、<math>X_{ij} = (x_i)_j</math>、すなわち <math>x_i^T</math> が <math>X</math> の第 <math>i</math> 行とすると、次のように簡潔に記述することができる。

: <math> \min_{ \beta_0, \beta } \left\{ \frac{1}{N} \left\| y - \beta_0 1_N - X \beta \right\|_2^2 \right\}\quad \text{ subject to } \| \beta \|_1 \leq t. </math>

ここで、<math>\| u \|_p = \left( \sum_{i=1}^N | u_i |^p \right)^{1/p}</math> を標準 [[Lp空間|<math> \ell^p </math>ノルム]]とし、<math> 1_N</math> は 1 が N 個並んだ縦ベクトルとする。

データポイント <math>x_i</math> のスカラー平均を <math>\bar{x}</math>、応答変数 <math>y_i</math> の平均を <math>\bar{y}</math> と記載すると、<math>\beta_0</math> の推定値 <math>\hat{\beta}_0 = \bar{y} - \bar{x}^T \beta </math> を用いて下記のように記述できる。

: <math> y_i - \hat{\beta}_0 - x_i^T \beta = y_i - ( \bar{y} - \bar{x}^T \beta ) - x_i^T \beta = ( y_i - \bar{y} ) - ( x_i - \bar{x} )^T \beta, </math>

したがって、中央に配置された（ゼロ平均化された）変数を処理するのが標準的である。解が測定スケールに依存しないよう、共変量は通常、[[標準得点|標準化されて]]いる <math> \textstyle \left( \sum_{i=1}^N x_{i}^2 = 1 \right) </math>。

参考のために書き直すと

: <math> \min_{ \beta \in \mathbb{R}^p } \left\{ \frac{1}{N} \left\| y - X \beta \right\|_2^2 \right\}\quad \text{ subject to } \| \beta \|_1 \leq t. </math>

これは、[[ラグランジュの未定乗数法]]に基づいて書き直すと、下記の形式と同値である。

: <math> \min_{ \beta \in \mathbb{R}^p } \left\{ \frac{1}{N} \left\| y - X \beta \right\|_2^2 + \lambda \| \beta \|_1 \right\} </math>

ここで、<math> t </math> と <math> \lambda </math> との関係はデータに依存する。

=== 正規直交共変量 ===
ラッソ回帰の推定量に関する基本的な性質を下記に示す。

まず、共変量が[[正規直交系|正規直交]]であると仮定すると、[[内積]] <math> (\cdot \mid \cdot) </math> および[[クロネッカーのデルタ]] <math>\delta_{ij}</math> を用いて <math> ( x_i \mid x_j ) = \delta_{ij} </math> と記載できる。
これは、<math>X^T X = I</math> と記載しても同等である。

次に、勾配法を使用すると、

: <math>
\begin{align}
\hat{\beta}_j = {} & S_{N \lambda}( \hat{\beta}^\text{OLS}_j ) = \hat{\beta}^\text{OLS}_j \max \left( 0, 1 - \frac{ N \lambda }{ |\hat{\beta}^\text{OLS}_j| } \right) \\
& \text{ where } \hat{\beta}^\text{OLS} = (X^T X)^{-1} X^T y
\end{align}
</math> <ref name="Tibshirani 1996" />

<math> S_\alpha </math> はソフトしきい値演算子と呼ばれる。これは、小さい値をゼロに設定し、値をゼロに変換する（十分に小さい場合は正確にゼロにする）ためである。ハードしきい値演算子 <math> H_\alpha </math> は小さい値をゼロにして大きい値を変更しない。

これは、下記の最小化を目的とするリッジ回帰と比較可能である。

: <math> \min_{ \beta \in \mathbb{R}^p } \left\{ \frac{1}{N} \| y - X \beta \|_2^2 + \lambda \| \beta \|_2^2 \right\} </math>

これから

: <math> \hat{\beta}_j = ( 1 + N \lambda )^{-1} \hat{\beta}^\text{OLS}_j. </math>

したがって、リッジ回帰は、<math> (1 + N \lambda)^{-1} </math> という一様係数で縮小することになり、係数をゼロに設定しない。

ベストサブセット選択回帰と比較することもできる。この手法では、下記の最小化を目標とする。

: <math> \min_{ \beta \in \mathbb{R}^p } \left\{ \frac{1}{N} \left\| y - X \beta \right\|_2^2 + \lambda \| \beta \|_0 \right\} </math>

ここで、<math> \| \cdot \|_0 </math> は 「 <math> \ell^0 </math> ノルム」である。z の非ゼロ成分が m 個あるとき、<math> \| z \| = m </math> と定義する。

この場合、以下が示される。

:<math> \hat{\beta}_j = H_{ \sqrt{ N \lambda } } \left( \hat{\beta}^\text{OLS}_j \right) = \hat{\beta}^\text{OLS}_j \mathrm{I} \left( \left| \hat{\beta}^\text{OLS}_j \right| \geq \sqrt{ N \lambda } \right) </math>

ここで、<math> H_\alpha </math> はいわゆるハードしきい値演算子で、<math>\mathrm{I}</math> はインジケーター関数（引数が true の場合は 1、それ以外の場合は 0）である。 

従って、ラッソ回帰による推定値は、リッジ回帰とベストサブセット選択回帰の両方による推定値と似た特徴を持つ。すなわち、リッジ回帰のようにすべての係数の大きさを縮小するだけでなく、ベストサブセット選択回帰と同様に、それらの一部をゼロに設定する。さらに、リッジ回帰はすべての係数を定数係数でスケーリングするが、ラッソ回帰は代わりに定数を用いて係数をゼロに近づけて、到達した場合は係数をゼロに設定する。

== 一般的な形式 ==
ラッソ正則化は、[[一般化線形モデル]]、一般化推定方程式、比例ハザードモデル、一般的なM-推定量など、さまざまな目的関数に拡張できる<ref name="Tibshirani 1996" /><ref name="Tibshirani 1997" />。
目的関数を下記とすると

: <math> \frac{1}{N} \sum_{i=1}^N f( x_i, y_i, \alpha, \beta ) </math>

ラッソ正則化した予測値は次の解となる

: <math> \min_{ \alpha, \beta } \frac{1}{N} \sum_{i=1}^N f( x_i, y_i, \alpha, \beta )\quad \text{subject to } \| \beta \|_1 \leq t </math>

ここで、<math> \beta </math> だけが罰則を受け、<math>\alpha</math> は許可された値を自由に取ることができる。上記の基本形において、<math> \beta_0 </math> が罰則を受けなかったことに相当する。

== 解釈 ==

=== 幾何学的解釈 ===
[[ファイル:L1_and_L2_balls.svg|サムネイル|300x300ピクセル| 2次元のパラメータ空間（w<sub>1</sub>, w<sub>2</sub>）における、ラッソ回帰（L<sub>1</sub>-norm）およびリッジ回帰（L<sub>2</sub>-norm）の制約領域。]]
上で説明したように、ラッソ回帰は係数をゼロに設定できるが、表面的には類似しているように見えるリッジ回帰はできない。これは、2つのケースでの制約境界の形状の違いによるものである。ラッソ回帰とリッジ回帰の両方は、同じ目的関数を最小化すると解釈できる。

: <math> \min_{ \beta_0, \beta } \left\{ \frac{1}{N} \left\| y - \beta_0 - X \beta \right\|_2^2 \right\} </math>

ここで、制約条件が異なる。
ラッソ回帰での制約条件は <math> \| \beta \|_1 \leq t </math> である。
リッジ回帰での制約条件は <math> \| \beta \|_2^2 \leq t </math> である。

2次元のパラメータ空間（w<sub>1</sub>, w<sub>2</sub>）における制約領域を図示した。
ラッソ回帰（L<sub>1</sub>-norm）では正方形に相当する（一般に <math>n</math> 次元の[[正軸体]]）。
リッジ回帰（L<sub>2</sub>-norm）では円に相当する（一般に <math>n</math> 次元の[[超球面]]）。
パラメータは制約条件としてパラメータ空間のこれらの領域を動いた中で、目的関数を最小化する値を取る。
ラッソ回帰では、「角（かど）」が存在することで、特定の係数をゼロにした地点を選びやすくなる。

=== ベイジアン解釈 ===
[[ファイル:Laplace_pdf_mod.svg|サムネイル| ラプラス分布は、平均で鋭くピークに達し、正規分布に比べて確率密度が集中している。]]

係数の事前分布として正規分布を仮定した場合の MAP推定値がリッジ回帰に相当するのと同様に、係数の事前分布として[[ラプラス分布]]を仮定した場合の MAP推定値がラッソ回帰に相当する。

ラプラス分布はゼロで鋭くピークに達し（その1次導関数は不連続）、確率分布は正規分布よりもゼロに近く集中する。
このことからも、なぜラッソ回帰では一部の係数をゼロに設定する傾向があるのに、リッジ回帰はそうではないのか、ということを説明できる<ref name="Tibshirani 1996" />。

: <math>p(\mathbf{y}, \boldsymbol{\beta} \mid \mathbf{X}) = p(\mathbf{y} \mid \boldsymbol{\beta}, \mathbf{X})\;p(\boldsymbol{\beta} \mid \mathbf{X}) = \prod_{n=1}^N p(y_n \mid \boldsymbol{\beta}, \mathbf{x}_n)\;\prod_{k=0}^K p(\beta_k)</math>

すなわち、

: <math>\log{p(\mathbf{y}, \boldsymbol{\beta} \mid \mathbf{X})} = \sum_{n=1}^N \log{p(y_n \mid \boldsymbol{\beta}, \mathbf{x}_n)} + \sum_{k=0}^K \log{p(\beta_k)}</math>

である。

ここで、<math>\mathbf{y}</math> の事前分布として平均 <math>\mathbf{X} \boldsymbol{\beta}</math>、分散 <math>\sigma^2</math> の[[正規分布]]を仮定すると、右辺第1項は

: <math>
\sum_{n=1}^N \log{\left( \frac{1}{\sqrt{2\pi}\,\sigma} \exp{\left( -\frac{(y_n - \mathbf{x}_n^\top \boldsymbol{\beta})^2}{2\sigma^2} \right)} \right)} = - N \log(\sqrt{2\pi}\,\sigma) - \frac{1}{2\sigma^2} \sum_{n=1}^N (y_n - \mathbf{x}_n^\top \boldsymbol{\beta})^2 </math>

さらに、パラメータ <math>\boldsymbol{\beta}</math> の事前分布として平均 <math>0</math>、分散 <math>2b^2</math> の[[ラプラス分布]]を仮定すると、右辺第2項は

: <math> \sum_{k=0}^K \log{\left( \frac{1}{2b}\exp{\left( - \frac{|\beta_k|}{b} \right)} \right)} = - (K + 1) \log(2b) - \frac{1}{b} \sum_{k=0}^K | \beta_k |</math>

以上から、<math>\lambda = \frac{2\sigma^2}{bN}</math> を用いて次のように表される。

: <math>\log{p(\mathbf{y}, \boldsymbol{\beta} \mid \mathbf{X})} = - \frac{N}{2\sigma^2} \left( \frac{1}{N} \sum_{n=1}^N (y_n - \mathbf{x}_n^\top \boldsymbol{\beta})^2 + \lambda \sum_{k=0}^K | \beta_i | \right) + \mathrm{const.}</math>

括弧内は、[[ラグランジュの未定乗数法]]に基づく記載と同等である。

== 一般化 ==  

=== エラスティックネット ===
{{main|エラスティックネット}}
2005年、Zou と Hastie は、ラッソ回帰に存在する欠点に対処するために[[エラスティックネット]]を導入した<ref name="Zou 2005">{{Cite journal
|last=Zou|first=Hui
|last2=Hastie|first2=Trevor
|year=2005
|title=Regularization and Variable Selection via the Elastic Net
|journal=Journal of the Royal Statistical Society
|volume=67|issue=2|pages=301–20|publisher=Wiley|DOI=10.1111/j.1467-9868.2005.00503.x|JSTOR=3647580}}</ref>。
ラッソ回帰は、標本数が共変量の数よりも少ないとき（<math> n < p </math>）、標本数（<math> n </math> 個）までしか共変量を選択できない。
また、ラッソ回帰では高度に相関する共変量の組み合わせから1つしか共変量を選択しないことが多いため、共変量が強く相関しているならば、パフォーマンスがリッジ回帰に劣る場合がある。

エラスティックネットは <math>\ell^2</math> によるペナルティ項を追加することによってラッソ回帰を拡張し、下記の式を得る。

: <math> \min_{ \beta \in \mathbb{R}^p } \left\{ \left\| y - X \beta \right\|_2^2 + \lambda_1 \| \beta \|_1 + \lambda_2 \| \beta \|_2^2 \right\}, </math>

これは次の式を解くことと同じである。

: <math>
\begin{align}
\min_{ \beta_0, \beta } \left\{ \left\| y - \beta_0 - X \beta \right\|_2^2 \right\} & \text{ subject to } ( 1 - \alpha ) \| \beta \|_1 + \alpha \| \beta \|_2^2 \leq t, \\
& \text{ where } \alpha = \frac{\lambda_2}{\lambda_1 + \lambda_2}.
\end{align}
</math>

この問題は単純なラッソ回帰の形式で記述できる。

: <math> \min_{ \beta^* \in \mathbb{R}^p } \left\{ \left\| y^* - X^* \beta^* \right\|_2^2 + \lambda^* \| \beta^* \|_1 \right\} </math>

ただし、

: <math> X_{(n+p) \times p}^* = ( 1 + \lambda_2 )^{-1/2} \binom{X}{ \lambda_2^{1/2} I_{p \times p} } </math> 、 &nbsp;<math> y_{(n+p)}^* = \binom{y}{0^p}, \qquad \lambda^* = \frac{ \lambda_1 }{ \sqrt{ 1 + \lambda_2 } } </math> 、 &nbsp;<math> \beta^* = \sqrt{ 1 + \lambda_2 } \beta. </math> 

そして、<math> \hat{\beta} = \frac{ \hat{\beta}^* }{ \sqrt{ 1 + \lambda_2 } } </math> 、共変量が互いに直交する場合、

: <math> \hat{\beta}_j = \frac{ \hat{\beta}^\text{*,OLS}_j }{ \sqrt{ 1 + \lambda_2 } } \max \left( 0, 1 - \frac{ \lambda^* }{ \left| \hat{\beta}^\text{*,OLS}_j \right| } \right) = \frac{ \hat{\beta}^\text{OLS}_j }{ 1 + \lambda_2 } \max \left( 0, 1 - \frac{ \lambda_1 }{ \left| \hat{\beta}^\text{OLS}_j \right| } \right) = ( 1 + \lambda_2 )^{-1} \hat{\beta}^\text{lasso}_j. </math>

エラスティックネットのペナルティは、ラッソ回帰およびリッジ回帰のペナルティの組み合わせに相当する。

正規化パラメータ <math> \lambda_1, \lambda_2 </math> は、交差検証法を用いたグリッド・サーチにより選択されることが多い。

=== Adaptive Lasso ===
2006年、オラクル性 oracle properties を持つように、罰則項に重みを乗じる手法が提唱された<ref>{{Cite journal |author=Hui Zou |date=2006 |title=The Adaptive Lasso and Its Oracle Properties |url=https://www.tandfonline.com/doi/abs/10.1198/016214506000000735 |journal=Journal of the American Statistical Association  |publisher= |volume=101 |issue=476 |pages=1418-29 |doi=10.1198/016214506000000735 |accessdate=2023-02-10}}</ref>。

: <math> \operatorname{arg\,min}_{ \boldsymbol{\beta} } \left\| \mathbf{y} - \sum_{j=1}^p \mathbf{x}_j \beta_j \right\| + \lambda \sum_{j=1}^p w_j \left| \beta_j \right|.</math>

=== MI-LASSO ===
2013年、多重代入されたデータセットに対して、ラッソ回帰により変数選択する手法が提唱された<ref>{{Cite journal |author=Qixuan Chen |date=2013 Sep 20 |title=Variable selection for multiply-imputed data with application to dioxin exposure study |journal=Statistics in medicine. |publisher= |volume=32 |issue=21 |pages=3646-59 |doi=10.1002/sim.5783 |accessdate=2023-02-10}}</ref>。

== 正則化パラメータの選択 ==
収縮の強度と変数の選択を制御する正則化パラメータ <math>\lambda</math> を適切に選択することで、予測の精度と解釈可能性を向上することができる。正則化が強くなりすぎると、重要な変数がモデルから削除される、係数が過度に縮小される等の可能性がある。
正則化パラメータ <math> \lambda </math> の選択には[[交差検証|交差検証法]]がよく用いられる。

[[赤池情報量規準]]（AIC）や[[ベイズ情報量規準]]（BIC）などの{{仮リンク|情報量規準|en|Information_criterion}}は、交差検証法よりも計算が高速であり、小さいサンプルでもパフォーマンスが変動しにくいため、交差検証よりも好ましい場合がある<ref>{{Cite book |title=Science: Under Submission |last=Hoornweg |first=Victor |publisher=Hoornweg Press |year=2018 |isbn=978-90-829188-0-9 |location= |pages= |chapter=Chapter 9 |chapterurl=http://www.victorhoornweg.com }}</ref>。
情報量規準は、モデルのサンプル内精度を最大化することによって推定器の正則化パラメータを選択すると同時に、その有効なパラメーターの数/自由度にペナルティを課す。

== 関連項目 ==
* {{仮リンク|モデルの選択|en|Model_selection}}
* {{仮リンク|ノンパラメトリック回帰|en|Nonparametric_regression}}
* [[逆問題#ティホノフの正則化法|ティホノフ正則化]]

== 脚注 ==
{{脚注ヘルプ}}
=== 出典 ===
{{Reflist}}

{{統計学}}

{{DEFAULTSORT:らつそかいき}}
[[Category:回帰分析]]
[[Category:未査読の翻訳があるページ]]