偏りと分散のソースを表示
←
偏りと分散
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{Machine learning bar}} '''偏りと分散'''や'''バイアス-バリアンスのトレードオフ'''(かたよりとぶんさんのトレードオフ、{{lang-en-short|bias–variance tradeoff}})とは、[[統計学]]と[[機械学習]]において、[[パラメータ]]の推定においてバイアス([[偏り]])を減らすと[[標本]]間のバリアンス([[分散 (確率論)|分散]])が増え、同時にその逆も成立する、という予測モデルの特徴のことである。 '''バイアス-バリアンスのジレンマ'''(bias–variance dilemma)や'''バイアス-バリアンスの問題'''(bias–variance problem)とは、誤差の原因であるバイアスとバリアンスの両方を同時に減らそうとする際の対立の事であり、[[教師あり学習]]の[[アルゴリズム]]が訓練データの内容を超えて汎化する際の課題となる。 ;バイアス([[偏り]]) :学習アルゴリズムにおいて、誤差のうち、モデルの仮定の誤りに由来する分。バイアスが大きすぎることは、入力と出力の関係を適切に捉えられていないことを意味し、過少適合している。 ;バリアンス([[分散 (確率論)|分散]]) :誤差のうち、訓練データの揺らぎから生じる分。バリアンスが大きすぎることは、本来の出力ではなく、訓練データのランダムなノイズを学習していることを意味し、[[過剰適合]]している。 '''バイアス-バリアンス分解'''(bias–variance decomposition)とは、汎化誤差の期待値をバイアス+バリアンス+ノイズの3つの和に分解することである。 バイアス-バリアンスのトレードオフは、全ての教師あり学習で生じる。人間の[[学習]]において、人間が[[ヒューリスティクス]]を使用することの有効性の説明にも使用されている<ref name="ReferenceA">{{Cite journal | last1 = Gigerenzer | first1 = Gerd| last2 = Brighton | first2 = Henry| doi = 10.1111/j.1756-8765.2008.01006.x | title = Homo Heuristicus: Why Biased Minds Make Better Inferences | journal = Topics in Cognitive Science | volume = 1 | pages = 107–143| year = 2009 | pmid = 25164802| pmc = }}</ref>。 == 日本語での訳語 == 統計学では通常 bias は[[偏り]]、variance は[[分散 (確率論)|分散]]と翻訳するが、この文脈ではバイアスとバリアンスとカタカナで表記されることが多い。書籍『パターン認識と機械学習』の翻訳者はバイアス-バリアンスと訳し<ref>{{Cite book|和書 |author = C.M. ビショップ |year = 2012 |title = パターン認識と機械学習 |publisher = 丸善出版 |isbn = 4621061224 }}</ref>、書籍『統計的学習の基礎』の翻訳者はバイアス-分散と訳した<ref>{{Cite book|和書 |author = Trevor Hastie |year = 2014 |title = 統計的学習の基礎 |publisher = 共立出版 |isbn = 432012362X }}</ref>。 == 二乗誤差のバイアス-バリアンス分解 == データとして入力 <math>x_1, \dots, x_n</math> があり、出力は <math>y_i</math> とする。真の関数 <math>y = f(x) + \varepsilon</math> が存在し、<math>\varepsilon</math> は平均0分散 <math>\sigma^2</math> のノイズである。 真の関数 <math>f(x)</math> を可能な限り近似した <math>\hat{f}(x)</math> を推定したいとする。可能な限りの意味として、ここでは二乗誤差 <math>(y - \hat{f}(x))^2</math> を訓練データだけでなく、全てのデータにおいて最小化したいとする。ここで <math>y_i</math> はノイズ <math>\varepsilon</math> を含んでいるので、原理上、完璧に推定することは不可能である。 訓練データから <math>\hat{f}</math> を推定する[[教師あり学習]]の[[アルゴリズム]]は無数にあるが、どのアルゴリズムであっても、二乗誤差の期待値は以下のように分解できる。 :<math> \operatorname{E}\Big[\big(y - \hat{f}(x)\big)^2\Big] = \Big(\operatorname{Bias}\big[\hat{f}(x)\big] \Big) ^2 + \operatorname{Var}\big[\hat{f}(x)\big] + \sigma^2 </math> :<math> \operatorname{Bias}\big[\hat{f}(x)\big] = \operatorname{E}\big[\hat{f}(x)\big] - f(x) </math> :<math> \operatorname{Var}\big[\hat{f}(x)\big] = \operatorname{E}[\hat{f}(x)^2] - \operatorname{E}[{\hat{f}}(x)]^2. </math> === 導出 === 二乗誤差のバイアス-バリアンス分解は以下のように導出できる<ref>{{cite web |first1=Sethu |last1=Vijayakumar |title=The Bias–Variance Tradeoff |publisher=University Edinburgh |year=2007 |accessdate=19 August 2014 |url=http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf}}</ref><ref>{{cite web |title=Notes on derivation of bias-variance decomposition in linear regression |first=Greg|last=Shakhnarovich |year=2011 |accessdate=20 August 2014 |url=http://ttic.uchicago.edu/~gregory/courses/wis-ml2012/lectures/biasVarDecom.pdf|archiveurl=https://web.archive.org/web/20140821063842/http://ttic.uchicago.edu/~gregory/courses/wis-ml2012/lectures/biasVarDecom.pdf|archivedate=21 August 2014}}</ref>。<math>f = f(x)</math> および <math>\hat{f} = \hat{f}(x)</math> と簡略に表記する。分散の定義より、 :<math> \operatorname{Var}[X] = \operatorname{E}[X^2] - \Big(\operatorname{E}[X]\Big)^2. </math> これを式変形すると下記になる。 :<math> \operatorname{E}[X^2] = \operatorname{Var}[X] + \Big(\operatorname{E}[X]\Big)^2. </math> f は決定論的なので、 :<math> \operatorname{E}[f] = f. </math> <math>y = f + \varepsilon</math> と <math>\operatorname{E}[\varepsilon] = 0</math> より :<math>\operatorname{E}[y] = \operatorname{E}[f + \varepsilon] = \operatorname{E}[f] = f.</math> <math>\operatorname{Var}[\varepsilon] = \sigma^2</math> より :<math> \operatorname{Var}[y] = \operatorname{E}[(y - \operatorname{E}[y])^2] = \operatorname{E}[(y - f)^2] = \operatorname{E}[(f + \varepsilon - f)^2] = \operatorname{E}[\varepsilon^2] = \operatorname{Var}[\varepsilon] + \Big(\operatorname{E}[\varepsilon]\Big)^2 = \sigma^2 </math> <math>\varepsilon</math> と <math>\hat{f}</math> は独立なので、以下のように式変形できる。 :<math> \begin{align} \operatorname{E}\big[(y - \hat{f})^2\big] & = \operatorname{E}\big[(f+\varepsilon - \hat{f} )^2\big] \\[5pt] & = \operatorname{E}\big[(f+\varepsilon - \hat{f} +\operatorname{E}[\hat{f}]-\operatorname{E}[\hat{f}])^2\big] \\[5pt] & = \operatorname{E}\big[(f-\operatorname{E}[\hat{f}])^2\big]+\operatorname{E}[\varepsilon^2]+\operatorname{E}\big[(\operatorname{E}[\hat{f}]- \hat{f})^2\big] +2\operatorname{E}\big[(f-\operatorname{E}[\hat{f}])\varepsilon\big] +2\operatorname{E}\big[\varepsilon(\operatorname{E}[\hat{f}]- \hat{f})\big] +2\operatorname{E}\big[(\operatorname{E}[\hat{f}]- \hat{f})(f-\operatorname{E}[\hat{f}])\big] \\[5pt] & = (f-\operatorname{E}[\hat{f}])^2+\operatorname{E}[\varepsilon^2]+\operatorname{E}\big[(\operatorname{E}[\hat{f}]- \hat{f})^2\big] +2(f-\operatorname{E}[\hat{f}])\operatorname{E}[\varepsilon] +2\operatorname{E}[\varepsilon]\operatorname{E}\big[\operatorname{E}[\hat{f}]- \hat{f}\big] +2\operatorname{E}\big[\operatorname{E}[\hat{f}]- \hat{f}\big](f-\operatorname{E}[\hat{f}]) \\[5pt] & = (f-\operatorname{E}[\hat{f}])^2+\operatorname{E}[\varepsilon^2]+\operatorname{E}\big[(\operatorname{E}[\hat{f}]- \hat{f})^2\big]\\[5pt] & = (f-\operatorname{E}[\hat{f}])^2+\operatorname{Var}[y]+\operatorname{Var}\big[\hat{f}\big]\\[5pt] & = \operatorname{Bias}[\hat{f}]^2+\operatorname{Var}[y]+\operatorname{Var}\big[\hat{f}\big]\\[5pt] & = \operatorname{Bias}[\hat{f}]^2+\sigma^2+\operatorname{Var}\big[\hat{f}\big] \end{align} </math> == 手法 == [[次元削減]]や[[特徴選択]]はモデルを簡単にすることによりバリアンスを減らせる。訓練データを増やすこともバリアンスを減らせる。特徴量を追加することはバイアスを減らす傾向にあるが、バリアンスの追加が犠牲となる。 学習アルゴリズムはバイアスとバリアンスのバランスを調整するパラメータがあることが多い。以下はその例。 * [[線型性|線形]]モデルや[[一般化線形モデル]]では、[[正則化]]により、バリアンスを減らしバイアスを増やせる<ref>{{cite book | last = Belsley | first = David | title = Conditioning diagnostics : collinearity and weak data in regression | publisher = Wiley | location = New York | year = 1991 | isbn = 978-0471528890 }}</ref>。 * [[ニューラルネットワーク]]では、隠れ層を大きくすることで、バリアンスを増やしバイアスを減らせる。一般化線形モデル同様、正則化も使える。<ref name="geman">{{cite journal |last1=Geman |first1=Stuart |authorlink1=Stuart Geman |author2=E. Bienenstock |author3=R. Doursat |year=1992 |title=Neural networks and the bias/variance dilemma |journal=Neural Computation |volume=4 |pages=1–58 |doi=10.1162/neco.1992.4.1.1 |url=http://web.mit.edu/6.435/www/Geman92.pdf}}</ref> * [[k近傍法]]では、kを増やすことで、バリアンスを減らしバイアスを増やせる。 * [[決定木]]では、木の深さでバリアンスを調整できる。<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=An Introduction to Statistical Learning |publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/}}</ref>{{rp|307}} バイアス-バリアンスのトレードオフを解決する1つの方法は、[[混合モデル]]と[[アンサンブル学習]]である<ref>Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, [http://homepages.inf.ed.ac.uk/svijayak/publications/ting-EMLDM2016.pdf Locally Weighted Regression for Control]. In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. p. 615</ref><ref>Scott Fortmann-Roe. Understanding the Bias–Variance Tradeoff. 2012. http://scott.fortmann-roe.com/docs/BiasVariance.html</ref>。例えば、[[ブースティング]]では複数の弱学習器(バイアスが大きい)を組み合わせることでバイアスを下げることができ、[[バギング]]では強学習器を組み合わせることでバリアンスを減らせる。 == 人間の学習への適用 == バイアス-バリアンスのジレンマは[[機械学習]]の文脈で広く議論されているが、人間の[[認知]]の文脈でも検討されていて、Gerd Gigerenzer 等による[[学習]][[ヒューリスティクス]]の研究がある。経験がまばらであまり特徴付けられていない状況で、高バイアス低バリアンスのヒューリスティクスにて、このジレンマを解決して、人間の脳は学習していると主張している。バイアスが小さすぎる学習手法は、新しい状況への汎化能力が乏しく、世界の真の状態を不適切に推定する、という事実を反映している。これらのヒューリスティクスは相対的に簡単であるが、多くの状況に対してより良い推定をもたらす。<ref name="ReferenceA"/> Stuart Geman 等は<ref name="geman"/>、一般物体認識をゼロから学習することは不可能であり、ある種の"固い配線"があり、それを経験により調整する形が必要であるということを、バイアス-バリアンスのジレンマは意味していると主張している。なぜなら、高バリアンスを避けるために、自由すぎるモデルは非現実的なほどの大量の訓練データを必要とするからである。 == 参照 == {{reflist}} == 関連項目 == * [[正確度と精度]] * [[曲線あてはめ]] * [[過剰適合]] * [[赤池情報量基準]] * [[交差検証]] {{統計学}} {{デフォルトソート:かたよりとふんさん}} [[Category:統計学]] [[Category:数学に関する記事]]
このページで使用されているテンプレート:
テンプレート:Cite book
(
ソースを閲覧
)
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Cite web
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Machine learning bar
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
テンプレート:Rp
(
ソースを閲覧
)
テンプレート:統計学
(
ソースを閲覧
)
偏りと分散
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報