損失関数のソースを表示
←
損失関数
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
[[数理最適化]]および[[決定理論]]において、'''損失関数'''(そんしつかんすう、{{Lang-en-short|loss function}})または'''コスト関数'''({{Lang-en-short|cost function}}、'''誤差関数'''({{Lang-en-short|error function}})とも呼ばれる)とは<ref name="ttf2001">{{cite book|first1=Trevor |last1=Hastie |authorlink1= |first2=Robert |last2=Tibshirani |authorlink2=Robert Tibshirani|first3=Jerome H. |last3=Friedman |authorlink3=Jerome H. Friedman |title=The Elements of Statistical Learning |publisher=Springer |year=2001 |isbn=0-387-95284-5 |page=18 |url=https://web.stanford.edu/~hastie/ElemStatLearn/}}</ref>、ある[[事象 (確率論)|事象]]または1つ以上の変数の値を、その事象に関連する何らかの「コスト」を直感的に表す[[実数]]に対応づける[[関数 (数学)|関数]]である。[[最適化問題]]は、損失関数を最小化することを目的としている。'''目的関数'''(もくてきかんすう、{{Lang-en-short|objective function}})とは、損失関数またはその[[逆関数]](特定の領域では、[[強化学習|報酬関数]]、[[利潤最大化|利潤関数]]、[[効用関数]]、{{Ill2|適合度関数|en|Fitness function}}などと呼ばれる)のいずれかであり、この場合は最大化されることになる。損失関数は、階層のいくつかの層からの項目を含むことがある。 統計学では、損失関数は一般的に{{Ill2|推定理論|en|Estimation theory|label=パラメータ推定}}に使用され、問題における事象は、あるデータのインスタンスに対する推定値と真値との差の関数である。この概念は[[ピエール=シモン・ラプラス|ラプラス]]と同様に古くからあり、20世紀半ばに[[エイブラハム・ウォールド]]によって統計学に再導入された<ref>{{cite book |first=A. |last=Wald |title=Statistical Decision Functions |publisher=Wiley |year=1950 |url=https://psycnet.apa.org/record/1951-01400-000}}</ref>。たとえば、[[経済学]]の文脈では通常、{{Ill2|経済的コスト|en|Economic cost}}や{{Ill2|後悔 (決定理論)|en|Regret (decision theory)|label=後悔(リグレット)}}を指して使われる。[[分類 (統計学)|分類]]では、事例の分類が誤った場合のペナルティのことである。[[保険数理]]では、特に1920年代の[[ハラルド・クラメール]]の研究以来、保険料に対して支払われる給付金をモデル化するために、保険の文脈で使用される<ref>{{cite book |last=Cramér |first=H. |year=1930 |title=On the mathematical theory of risk |work=Centraltryckeriet }}</ref>。[[最適制御]]では、損失は望ましい値を達成できなかった場合のペナルティである。{{Ill2|金融リスク管理|en|Financial risk management}}では、この関数は金銭的損失にマッピングされる。 ==例== ===後悔=== {{main|{{ill2|後悔 (決定理論)|en|Regret (decision theory)}}}}{{Ill2|レナード・サヴェッジ|en|Leonard Jimmie Savage}}は、[[ミニマックス法|ミニマックス(minimax)]]のような非[[ベイズ推定|ベイズ法]]を用いる場合、損失関数は{{ill2|後悔 (決定理論)|en|Regret (decision theory)|label='''後悔'''(リグレット)}}の考え方に基づくべきであると主張した。すなわち、意思決定に伴う損失は、根底にある状況を知っていれば下せたであろう最善の決定の結果と、それを知る前に実際に行った決定との差であるべきという。 === 二次損失関数 === [[二次関数|二次]]損失関数(quadratic loss function)は、たとえば、[[最小二乗法]]などでよく使用される。この関数は[[分散 (確率論)|分散]]の特性や対称性があるため、他の損失関数よりも数学的に扱いやすいことが多い。目標を上回る誤差は、目標を下回る同じ大きさの誤差と同じ損失をもたらす。目標を ''t'' とすると、二次損失関数は、ある定数 ''C'' に対して :<math>\lambda(x) = C (t-x)^2 \; </math> となる。定数の値は判定に影響を与えないので、1に等しくすることで無視することができる。これは'''二乗誤差損失'''(squared error loss、SEL)とも呼ばれる<ref name="ttf2001" />。 [[t検定]]、[[回帰分析|回帰]]モデル、[[実験計画法]]などの一般的な[[統計学]]の多くは、二次損失関数に基づく[[線形回帰]]理論を適用した最小二乗法を用いている。 また、二次損失関数は、{{Ill2|線形二次レギュレータ|en|Linear–quadratic regulator|label=線形二次最適制御問題}}でも利用されている。このような問題では、不確実性がない場合でも、すべての目標変数の望ましい値を達成することができない場合がある。多くの場合、損失は対象変数の望ましい値からの偏差の[[二次形式|二次式]]で表わされる。このアプローチは{{Ill2|微分判定法|en|Derivative test|label=一階微分条件}}となるため{{Ill2|閉じた形の式|en|Closed-form expression|label=扱いやすい}}。{{Ill2|確率制御|en|Stochastic control}}の文脈では、二次形式の期待値が使われる。 === 0-1損失関数 === 統計学や[[決定理論]]において、よく使用される損失関数は '''0-1損失関数'''(''0-1 loss function'') : <math>L(\hat{y}, y) = I(\hat{y} \ne y) </math> で、ここに <math>I</math> は[[指示関数]]である。つまり、入力が[[真理値|真]]と評価されれば、出力は 1 となる。そうでなければ、入力が{{Ill2|偽 (論理)|en|False (logic)|label=偽}}と評価された場合、出力は 0 となる。 == 損失関数と目的関数の構築 == {{See also|{{ill2|スコアリングルール|en|Scoring rule}}}} 多くの用途では、損失関数も含む目的関数は、問題の定式化によって決定される。あるいは、意思決定者の好みを引き出し、最適化に適した形の[[スカラー (数学)|スカラー]]値関数([[効用関数]]ともいう)で表現しなければならない場合がある。[[ラグナル・フリッシュ]]は、ノーベル賞講演でこの問題を取り上げた<ref>{{cite book| first=Ragnar|last=Frisch|date=1969 |title= The Nobel Prize–Prize Lecture|chapter=From utopian theory to practical applications: the case of econometrics|url=https://www.nobelprize.org/prizes/economic-sciences/1969/frisch/lecture/|access-date=15 February 2021}}</ref>。目的関数を構築するための既存の方法が、2つの専門会議の会報にまとめられている<ref name="TangianGruber1997">{{Cite book |last1=Tangian |first1=Andranik |last2=Gruber |first2=Josef |date=1997 |title= Constructing Scalar-Valued Objective Functions. Proceedings of the Third International Conference on Econometric Decision Models: Constructing Scalar-Valued Objective Functions, University of Hagen, held in Katholische Akademie Schwerte September 5–8, 1995|series= Lecture Notes in Economics and Mathematical Systems |volume=453|isbn= 978-3-540-63061-6 |doi= 10.1007/978-3-642-48773-6 |publisher=Springer |location=Berlin }}</ref><ref name="TangianGruber2002">{{Cite book |last1=Tangian |first1=Andranik |last2=Gruber |first2=Josef |date=2002 |title= Constructing and Applying Objective Functions. Proceedings of the Fourth International Conference on Econometric Decision Models Constructing and Applying Objective Functions, University of Hagen, held in Haus Nordhelle, August, 28 — 31, 2000 |series= Lecture Notes in Economics and Mathematical Systems |volume=510 |publisher=Springer |location=Berlin|isbn= 978-3-540-42669-1 |doi= 10.1007/978-3-642-56038-5 }}</ref>。特に、{{Ill2|アンドラニク・タンジアン|en|Andranik Tangian}}は、最も有用な目的関数(二次関数と加法関数)が、少数の無差別点によって決定されることを示した。彼は、この性質を利用して、意思決定者とのコンピュータ支援インタビューを通じて得られた[[限界均等化原理|名義データ]]や{{Ill2|基数的効用|en|Cardinal utility|label=順序データ}}から、これらの目的関数を構築するモデルを作成した<ref name="Tangian2002">{{Cite journal|last=Tangian |first=Andranik |year=2002|title= Constructing a quasi-concave quadratic objective function from interviewing a decision maker|journal= European Journal of Operational Research |volume=141 |issue=3 |pages=608–640 |doi=10.1016/S0377-2217(01)00185-0 |s2cid= 39623350 }}</ref><ref name="Tangian2004additiveUtility">{{Cite journal|last=Tangian |first=Andranik |year=2004|title= A model for ordinally constructing additive objective functions|journal= European Journal of Operational Research |volume=159 |issue=2 |pages=476–512|doi = 10.1016/S0377-2217(03)00413-2 | s2cid= 31019036 }}</ref>。とりわけ、ウェストファーレン州の16大学への予算を配分するためや<ref name="Tangian2004universityBudgets">{{Cite journal |last=Tangian |first=Andranik |year=2004 |title= Redistribution of university budgets with respect to the status quo |journal= European Journal of Operational Research |volume=157 |issue=2 |pages=409–428|doi = 10.1016/S0377-2217(03)00271-6 }}</ref>、ドイツの271地域間で失業率を均等化する欧州補助金のための目的関数を構築した<ref name="Tangian2008RegionalEnemployment">{{Cite journal|last=Tangian |first=Andranik |year=2008 |title= Multi-criteria optimization of regional employment policy: A simulation analysis for Germany |journal= Review of Urban and Regional Development |volume=20 |issue=2|pages=103–122 |url= https://onlinelibrary.wiley.com/doi/10.1111/j.1467-940X.2008.00144.x |doi = 10.1111/j.1467-940X.2008.00144.x }}</ref>。 == 期待損失 == {{See also|{{ill2|経験的リスク最小化|en|Empirical risk minimization}}}} 場合によっては、損失関数の値は確率変数 ''X'' の結果に依存するため、それ自体がランダムな量となることがある。 === 統計学 === {{Ill2|頻度論的推定|en|Frequentist inference|label=頻度主義統計学}}と[[ベイズ確率|ベイズ統計学]]は、どちらも損失関数の[[期待値]]に基づいて意思決定を行うが、この量は2つのパラダイムで異なって定義されている。 ==== 頻度主義統計学の期待損失 ==== まず、頻度主義の文脈で'''期待損失'''(expected loss)''L'' を定義する。これは、観測データ ''X'' の確率分布 ''P''<sub>''θ''</sub> に対する[[期待値]]をとることで得られる。これは、決定則 ''δ'' とパラメータ ''θ'' の'''危険関数'''({{lang-en-short|''risk function''}}、'''リスク関数''')とも呼ばれる。ここでは決定則が ''X'' の結果に依存する。危険関数 ''R(θ, δ)'' は次のように[[定義]]される。 : <math>R(\theta, \delta) = \operatorname{E}_\theta L\big( \theta, \delta(X) \big) = \int_X L\big( \theta, \delta(x) \big) \, \mathrm{d} P_\theta (x)</math> ここで、''θ'' は固定値であるが、おそらくは未知の自然状態、 ''X'' は[[母集団]]から[[確率論]]的に抽出された観測値のベクトル、<math>\operatorname{E}_\theta</math> は ''X'' の母集団すべての値に対する期待値、''dP''<sub>''θ''</sub> は ''X'' の事象空間上の[[確率測度]](''θ'' でパラメータ化される)、[[積分]]は ''X'' の全[[台 (測度論)|台]]上で評価される. ==== ベイズ統計学の期待損失 ==== ベイズ的アプローチでは、パラメータ ''θ'' の事後分布 {{pi}}<sup>*</sup> を使用して期待値を算出する。 :<math>\rho(\pi^*,a) = \int_\Theta L(\theta, a) \, \mathrm{d} \pi^* (\theta)</math> そして、期待損失を最小化する行動 ''a<sup>*</sup>'' を選択することになる。これにより、頻度主義的リスクを用いるのと同じ行動を選択することになるが、ベイズ的手法の重点は、実際に観測されたデータに基づいて最適な行動を選択することにのみ関心をもつ。これに対し、頻度主義的な手法は、考えられるすべての観測データの関数である最適決定則を選択するというはるかに難しい問題である。 ==== 統計学での例 ==== * スカラーのパラメータ ''<math>\theta</math> について''、出力 <math>\hat\theta</math> を ''<math>\theta</math>'' の推定値とする決定関数と、二次損失関数(二次誤差損失)が<math display="block"> L(\theta,\hat\theta)=(\theta-\hat\theta)^2,</math>とすると、危険関数は推定値の[[平均二乗誤差]]<math display="block">R(\theta,\hat\theta)= \operatorname{E}_\theta(\theta-\hat\theta)^2</math>となる。平均二乗誤差を最小化することで求められる推定器は、[[事後確率|事後分布]]の平均を推定する。 * {{Ill2|密度推定|en|Density estimation}}において、未知パラメータは[[確率密度関数|確率密度]]そのものである。その損失関数は通常、適切な[[関数空間]]における[[ノルム]]として選択される。たとえば、[[Lpノルム|''L<sup>2</sup>''ノルム]]<math display="block">L(f,\hat f) = \|f-\hat f\|_2^2\,</math>の場合、その危険関数は{{仮リンク|平均積分二乗誤差|en|Mean integrated squared error}}<math display="block">R(f,\hat f)=\operatorname{E} \|f-\hat f\|^2</math>となる。 === 不確実性下での経済的選択 === 経済学では、不確実性の下での意思決定は、しばしば期末資産のような関心のある不確実な変数の[[フォン・ノイマン=モルゲンシュテルン効用関数]]を用いてモデル化される。この変数の値は不確実であるため、効用関数の値も不確実であり、最大化されるのは効用の期待値である。 == 決定則 == '''{{Ill2|決定則|en|Decision rule}}'''(decision rules)は、最適化基準を使用して選択を行うものである。よく使われる基準として次のようなものがある。 * [[ミニマックス法|ミニマックス]](minimax)最悪の損失が最も少ない決定則を選ぶ。つまり最悪の場合の損失(最大可能損失)を最小限に抑える。<math display="block"> \underset{\delta} {\operatorname{arg\,min}} \ \max_{\theta \in \Theta} \ R(\theta,\delta). </math> * {{Ill2|不変推定量|en|Invariant estimator|label=不変性}}(invariance):不変性要件を満たす決定則を選択する。 * 平均損失が最も少ない(つまり損失関数の[[期待値]]を最小化する)決定則を選ぶ。<math display="block"> \underset{\delta} {\operatorname{arg\,min}} \operatorname{E}_{\theta \in \Theta} [R(\theta,\delta)] = \underset{\delta} {\operatorname{arg\,min}} \ \int_{\theta \in \Theta} R(\theta,\delta) \, p(\theta) \,d\theta. </math> ==損失関数の選択== 優れた統計学的を実践するためには、特定の応用問題の文脈で経験される実際の許容変動と一致する推定量を選択する必要がある。したがって、損失関数の応用的な使用において、応用問題をモデル化するためにどの統計手法を使用するかは、その問題の特殊な状況下において選択を誤った場合に生じる損失を知ることに依存する<ref>{{cite book |last=Pfanzagl |first=J. |year=1994 |title=Parametric Statistical Theory |location=Berlin |publisher=Walter de Gruyter |isbn=978-3-11-013863-4 }}</ref>。 よくある例としては「{{Ill2|位置母数|en|Location parameter|label=位置}}」の推定がある。一般的な統計学的の仮定では、[[平均|平均値]]は[[最小二乗法|二乗誤差]]損失関数のもとで期待損失成績を最小化する位置推定の統計量であり、[[中央値]]は絶対差分損失関数のもとで期待損失成績を最小化する推定量である。また、あまり一般的ではない状況では、他の推定量が最適となることもある。 経済学では、エージェントが{{Ill2|リスク中立的選好|en|Risk neutral preferences|label=リスク中立型}}の場合、目的関数は利益、収入、期末資産などの貨幣数量の期待値として単純に表現される。[[リスク回避]]型エージェントや{{Ill2|リスク愛好|en|Risk-loving|label=リスク愛好型}}エージェントの場合、損失は[[効用関数]]の負として測定され、最適化されるべき目的関数は効用の期待値である。 [[公衆衛生]]や[[安全工学]]における[[死亡率]]や[[罹患率]]など、他のコスト尺度も考えられる。 多くの[[数理最適化|最適化アルゴリズム]]では、大域的に[[連続写像|連続]]かつ[[微分可能関数|微分可能]]な損失関数を持つことが望ましいとされている。 非常によく使われる損失関数として、[[平均二乗誤差|二乗損失]] <math>L(a) = a^2</math> 、[[偏差#絶対偏差|絶対損失]] <math>L(a)=|a|</math> の2つがある。しかし、絶対損失には <math>a=0</math> で微分できないという欠点がある。二乗損失は、[[外れ値]]によって支配される傾向がある欠点がある。(<math display="inline">\sum_{i=1}^n L(a_i) </math> のように)''a'' の集合を合計すると、最終的な合計は平均的な ''a'' 値の表現ではなく、少数の特に大きな ''a'' 値の結果となる傾向がある。 損失関数の選択は恣意的なものではない。これは非常に制限的であり、ときには損失関数がその望ましい特性によって特徴付けられることもある<ref>Detailed information on mathematical principles of the loss function choice is given in Chapter 2 of the book {{cite book|title=Robust and Non-Robust Models in Statistics|first1=B.|last1=Klebanov|first2=Svetlozat T.|last2=Rachev|first3=Frank J.|last3=Fabozzi|publisher=Nova Scientific Publishers, Inc.|location=New York|year=2009}} (and references there).</ref>。選択原理の中には、たとえば、[[独立同分布|独立同分布(]]<nowiki/>i.i.d.)観測での対称統計のクラス完全性の必要条件、[[完備情報]]の原則、その他がある。 [[W・エドワーズ・デミング]]や[[ナシム・ニコラス・タレブ]]は、損失関数を選択する際には、優れた数学的特定ではなく経験的現実を唯一の根拠とすべきであり、実際の損失はしばしば数学的に優れたものでなく、微分可能、連続、対称などではない、と主張している。たとえば、飛行場の搭乗ゲートが閉まる前に到着した人は飛行機に乗れるが、その後に到着した人は乗れないという不連続性と非対称性があり、少し遅れて到着する方が少し早く到着するよりもはるかに高コストになる。薬物投与においては、投与量が少なすぎると効果が得られず、多すぎると耐容毒性<!-- tolerable toxicity -->になることがあるが、これも非対称性の例である。交通機関、導管、梁、生態系、気候などは、ある時点までは負荷やストレスの増加に耐え、ほとんど変化が見られないが、その後、過負荷になったり、壊滅的な破損を起こしたりすることがある。デミングとタレブは、このような状況は現実の問題によくあることで、おそらく古典的な平滑、連続、対称、微分的といった場合よりも多いだろうと主張している<ref>{{Cite book|title=Out of the Crisis|last=Deming|first=W. Edwards|publisher=The MIT Press|year=2000|isbn=9780262541152}}</ref>。 == 参考項目 == *{{Ill2|ベイズ後悔|en|Bayesian regret}} - ゲーム理論におけるベイズ戦略の効用と最適戦略の効用との間の期待差 *{{Ill2|分類のための損失関数|en|Loss functions for classification}} - 分類問題における予測の不正確に対する損失関数 *{{Ill2|割引最大損失額|en|Discounted maximum loss}} - 金融ポートフォリオの最悪のシナリオの現在価値 *{{Ill2|ヒンジ損失|en|Hinge loss}} - 機械学習で分類器を訓練するために使われる損失関数 *{{Ill2|スコアリングルール|en|Scoring rule}} - 決定理論における確率的な予測を評価するための集約尺度 *{{Ill2|統計的リスク|en|Statistical risk}} - ある状況のリスクを統計的手法で定量化すること * [[ヒストグラム]] * [[カーネル密度推定]] == 脚注 == {{reflist|30em}} == 推薦文献 == *{{cite journal |author2=Bartram, Söhnke M. |author3=Pope, Peter F. |date=April–June 2011 |title=Asymmetric Loss Functions and the Rationality of Expected Stock Returns |journal=International Journal of Forecasting |volume=27 |issue=2 |pages=413–437 |doi= 10.1016/j.ijforecast.2009.10.008|ssrn=889323 |last1= Aretz |first1=Kevin |url=https://mpra.ub.uni-muenchen.de/47343/1/MPRA_paper_47343.pdf }} * {{cite book |title=Statistical decision theory and Bayesian Analysis |first=James O. |last=Berger |author-link=James Berger (statistician) |year=1985 |edition=2nd |publisher=Springer-Verlag |location=New York |isbn=978-0-387-96098-2 |mr=0804611 |bibcode=1985sdtb.book.....B }} *{{cite journal|url=https://www.researchgate.net/publication/5216117|doi=10.1093/oxrep/16.4.43|title=Making monetary policy: Objectives and rules|journal=Oxford Review of Economic Policy|volume=16|issue=4|pages=43–59|year=2000|last1=Cecchetti|first1=S.}} *{{cite journal|doi=10.1016/0164-0704(87)90016-4|title=Loss functions and public policy|journal=Journal of Macroeconomics|volume=9|issue=4|pages=489–504|year=1987|last1=Horowitz|first1=Ann R.}} *{{cite journal|jstor=1911380|title=Asymmetric Policymaker Utility Functions and Optimal Policy under Uncertainty|journal=Econometrica|volume=44|issue=1|pages=53–66|last1=Waud|first1=Roger N.|year=1976|doi=10.2307/1911380}} === 危険関数 === * {{SpringerEOM| title=Risk of a statistical procedure |id=Risk_of_a_statistical_procedure |first=M.S. |last=Nikulin}} * {{cite book |first=Morris |last=DeGroot |authorlink=:en:Morris H. DeGroot |title=Optimal Statistical Decisions |publisher=Wiley Classics Library |year=2004 |origyear=1970 |ISBN=0-471-68029-X |mr=2288194 }} * {{cite book |last=Robert |first=Christian |title=The Bayesian Choice |publisher=Springer |location=New York |year=2007|edition=2nd |doi=10.1007/0-387-71599-1 |isbn=0-387-95231-4 |mr=1835885 }} {{Statistics|inference|collapsed}} {{最適化アルゴリズム}} <!-- {{Differentiable computing}} --> [[Category:最適決定]] [[Category:損失関数]] [[Category:決定理論]] [[Category:確率論]] [[Category:数学に関する記事]] {{DEFAULTSORT:そんしつかんすう}}
このページで使用されているテンプレート:
テンプレート:Cite book
(
ソースを閲覧
)
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Ill2
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Main
(
ソースを閲覧
)
テンプレート:Pi
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
テンプレート:See also
(
ソースを閲覧
)
テンプレート:SpringerEOM
(
ソースを閲覧
)
テンプレート:Statistics
(
ソースを閲覧
)
テンプレート:仮リンク
(
ソースを閲覧
)
テンプレート:最適化アルゴリズム
(
ソースを閲覧
)
損失関数
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報