損失関数

提供: testwiki
ナビゲーションに移動 検索に移動

数理最適化および決定理論において、損失関数(そんしつかんすう、テンプレート:Lang-en-short)またはコスト関数テンプレート:Lang-en-short誤差関数テンプレート:Lang-en-short)とも呼ばれる)とは[1]、ある事象または1つ以上の変数の値を、その事象に関連する何らかの「コスト」を直感的に表す実数に対応づける関数である。最適化問題は、損失関数を最小化することを目的としている。目的関数(もくてきかんすう、テンプレート:Lang-en-short)とは、損失関数またはその逆関数(特定の領域では、報酬関数利潤関数効用関数テンプレート:Ill2などと呼ばれる)のいずれかであり、この場合は最大化されることになる。損失関数は、階層のいくつかの層からの項目を含むことがある。

統計学では、損失関数は一般的にテンプレート:Ill2に使用され、問題における事象は、あるデータのインスタンスに対する推定値と真値との差の関数である。この概念はラプラスと同様に古くからあり、20世紀半ばにエイブラハム・ウォールドによって統計学に再導入された[2]。たとえば、経済学の文脈では通常、テンプレート:Ill2テンプレート:Ill2を指して使われる。分類では、事例の分類が誤った場合のペナルティのことである。保険数理では、特に1920年代のハラルド・クラメールの研究以来、保険料に対して支払われる給付金をモデル化するために、保険の文脈で使用される[3]最適制御では、損失は望ましい値を達成できなかった場合のペナルティである。テンプレート:Ill2では、この関数は金銭的損失にマッピングされる。

後悔

テンプレート:Mainテンプレート:Ill2は、ミニマックス(minimax)のような非ベイズ法を用いる場合、損失関数はテンプレート:Ill2の考え方に基づくべきであると主張した。すなわち、意思決定に伴う損失は、根底にある状況を知っていれば下せたであろう最善の決定の結果と、それを知る前に実際に行った決定との差であるべきという。

二次損失関数

二次損失関数(quadratic loss function)は、たとえば、最小二乗法などでよく使用される。この関数は分散の特性や対称性があるため、他の損失関数よりも数学的に扱いやすいことが多い。目標を上回る誤差は、目標を下回る同じ大きさの誤差と同じ損失をもたらす。目標を t とすると、二次損失関数は、ある定数 C に対して

λ(x)=C(tx)2

となる。定数の値は判定に影響を与えないので、1に等しくすることで無視することができる。これは二乗誤差損失(squared error loss、SEL)とも呼ばれる[1]

t検定回帰モデル、実験計画法などの一般的な統計学の多くは、二次損失関数に基づく線形回帰理論を適用した最小二乗法を用いている。

また、二次損失関数は、テンプレート:Ill2でも利用されている。このような問題では、不確実性がない場合でも、すべての目標変数の望ましい値を達成することができない場合がある。多くの場合、損失は対象変数の望ましい値からの偏差の二次式で表わされる。このアプローチはテンプレート:Ill2となるためテンプレート:Ill2テンプレート:Ill2の文脈では、二次形式の期待値が使われる。

0-1損失関数

統計学や決定理論において、よく使用される損失関数は 0-1損失関数0-1 loss function

L(y^,y)=I(y^y)

で、ここに I指示関数である。つまり、入力がと評価されれば、出力は 1 となる。そうでなければ、入力がテンプレート:Ill2と評価された場合、出力は 0 となる。

損失関数と目的関数の構築

テンプレート:See also 多くの用途では、損失関数も含む目的関数は、問題の定式化によって決定される。あるいは、意思決定者の好みを引き出し、最適化に適した形のスカラー値関数(効用関数ともいう)で表現しなければならない場合がある。ラグナル・フリッシュは、ノーベル賞講演でこの問題を取り上げた[4]。目的関数を構築するための既存の方法が、2つの専門会議の会報にまとめられている[5][6]。特に、テンプレート:Ill2は、最も有用な目的関数(二次関数と加法関数)が、少数の無差別点によって決定されることを示した。彼は、この性質を利用して、意思決定者とのコンピュータ支援インタビューを通じて得られた名義データテンプレート:Ill2から、これらの目的関数を構築するモデルを作成した[7][8]。とりわけ、ウェストファーレン州の16大学への予算を配分するためや[9]、ドイツの271地域間で失業率を均等化する欧州補助金のための目的関数を構築した[10]

期待損失

テンプレート:See also 場合によっては、損失関数の値は確率変数 X の結果に依存するため、それ自体がランダムな量となることがある。

統計学

テンプレート:Ill2ベイズ統計学は、どちらも損失関数の期待値に基づいて意思決定を行うが、この量は2つのパラダイムで異なって定義されている。

頻度主義統計学の期待損失

まず、頻度主義の文脈で期待損失(expected loss)L を定義する。これは、観測データ X の確率分布 Pθ に対する期待値をとることで得られる。これは、決定則 δ とパラメータ θ危険関数テンプレート:Lang-en-shortリスク関数)とも呼ばれる。ここでは決定則が X の結果に依存する。危険関数 R(θ, δ) は次のように定義される。

R(θ,δ)=EθL(θ,δ(X))=XL(θ,δ(x))dPθ(x)

ここで、θ は固定値であるが、おそらくは未知の自然状態、 X母集団から確率論的に抽出された観測値のベクトル、EθX の母集団すべての値に対する期待値、dPθX の事象空間上の確率測度θ でパラメータ化される)、積分X の全上で評価される.

ベイズ統計学の期待損失

ベイズ的アプローチでは、パラメータ θ の事後分布 テンプレート:Pi* を使用して期待値を算出する。

ρ(π*,a)=ΘL(θ,a)dπ*(θ)

そして、期待損失を最小化する行動 a* を選択することになる。これにより、頻度主義的リスクを用いるのと同じ行動を選択することになるが、ベイズ的手法の重点は、実際に観測されたデータに基づいて最適な行動を選択することにのみ関心をもつ。これに対し、頻度主義的な手法は、考えられるすべての観測データの関数である最適決定則を選択するというはるかに難しい問題である。

統計学での例

  • スカラーのパラメータ θ について、出力 θ^θ の推定値とする決定関数と、二次損失関数(二次誤差損失)がL(θ,θ^)=(θθ^)2,とすると、危険関数は推定値の平均二乗誤差R(θ,θ^)=Eθ(θθ^)2となる。平均二乗誤差を最小化することで求められる推定器は、事後分布の平均を推定する。

不確実性下での経済的選択

経済学では、不確実性の下での意思決定は、しばしば期末資産のような関心のある不確実な変数のフォン・ノイマン=モルゲンシュテルン効用関数を用いてモデル化される。この変数の値は不確実であるため、効用関数の値も不確実であり、最大化されるのは効用の期待値である。

決定則

テンプレート:Ill2(decision rules)は、最適化基準を使用して選択を行うものである。よく使われる基準として次のようなものがある。

  • ミニマックス(minimax)最悪の損失が最も少ない決定則を選ぶ。つまり最悪の場合の損失(最大可能損失)を最小限に抑える。argminδ maxθΘ R(θ,δ).
  • テンプレート:Ill2(invariance):不変性要件を満たす決定則を選択する。
  • 平均損失が最も少ない(つまり損失関数の期待値を最小化する)決定則を選ぶ。argminδEθΘ[R(θ,δ)]=argminδ θΘR(θ,δ)p(θ)dθ.

損失関数の選択

優れた統計学的を実践するためには、特定の応用問題の文脈で経験される実際の許容変動と一致する推定量を選択する必要がある。したがって、損失関数の応用的な使用において、応用問題をモデル化するためにどの統計手法を使用するかは、その問題の特殊な状況下において選択を誤った場合に生じる損失を知ることに依存する[11]

よくある例としては「テンプレート:Ill2」の推定がある。一般的な統計学的の仮定では、平均値二乗誤差損失関数のもとで期待損失成績を最小化する位置推定の統計量であり、中央値は絶対差分損失関数のもとで期待損失成績を最小化する推定量である。また、あまり一般的ではない状況では、他の推定量が最適となることもある。

経済学では、エージェントがテンプレート:Ill2の場合、目的関数は利益、収入、期末資産などの貨幣数量の期待値として単純に表現される。リスク回避型エージェントやテンプレート:Ill2エージェントの場合、損失は効用関数の負として測定され、最適化されるべき目的関数は効用の期待値である。

公衆衛生安全工学における死亡率罹患率など、他のコスト尺度も考えられる。

多くの最適化アルゴリズムでは、大域的に連続かつ微分可能な損失関数を持つことが望ましいとされている。

非常によく使われる損失関数として、二乗損失 L(a)=a2絶対損失 L(a)=|a| の2つがある。しかし、絶対損失には a=0 で微分できないという欠点がある。二乗損失は、外れ値によって支配される傾向がある欠点がある。(i=1nL(ai) のように)a の集合を合計すると、最終的な合計は平均的な a 値の表現ではなく、少数の特に大きな a 値の結果となる傾向がある。

損失関数の選択は恣意的なものではない。これは非常に制限的であり、ときには損失関数がその望ましい特性によって特徴付けられることもある[12]。選択原理の中には、たとえば、独立同分布(i.i.d.)観測での対称統計のクラス完全性の必要条件、完備情報の原則、その他がある。

W・エドワーズ・デミングナシム・ニコラス・タレブは、損失関数を選択する際には、優れた数学的特定ではなく経験的現実を唯一の根拠とすべきであり、実際の損失はしばしば数学的に優れたものでなく、微分可能、連続、対称などではない、と主張している。たとえば、飛行場の搭乗ゲートが閉まる前に到着した人は飛行機に乗れるが、その後に到着した人は乗れないという不連続性と非対称性があり、少し遅れて到着する方が少し早く到着するよりもはるかに高コストになる。薬物投与においては、投与量が少なすぎると効果が得られず、多すぎると耐容毒性になることがあるが、これも非対称性の例である。交通機関、導管、梁、生態系、気候などは、ある時点までは負荷やストレスの増加に耐え、ほとんど変化が見られないが、その後、過負荷になったり、壊滅的な破損を起こしたりすることがある。デミングとタレブは、このような状況は現実の問題によくあることで、おそらく古典的な平滑、連続、対称、微分的といった場合よりも多いだろうと主張している[13]

参考項目

脚注

テンプレート:Reflist

推薦文献

危険関数

テンプレート:Statistics テンプレート:最適化アルゴリズム