ソフトマックス関数

ソフトマックス関数（ソフトマックスかんすう、テンプレート:Lang-en-short）や正規化指数関数（せいきかしすうかんすう、テンプレート:Lang-en-short）^[1]は、シグモイド関数を多次元に拡張した関数。多クラス分類問題において、ニューラルネットワークの出力を確率分布に変換することができるので、最後の活性化関数としてよく用いられる。

ソフトマックス関数という呼び名は人工知能の分野での呼び方であり、関数自体は1868年にルートヴィッヒ・ボルツマンが発表した^[2]統計力学のボルツマン分布に由来する。交差エントロピーとの組合せでよく用いられるが、ボルツマン分布とエントロピーの組合せの考え方も統計力学由来である。ボルツマンマシンでも用いられているが、1989年にJohn S. Bridleがsoftmaxと命名した^[3]^[4]。

定義

ソフトマックス関数は、テンプレート:Mvar 個の実数からなるベクトル $𝒛$ を入力として受け取り、入力の指数に比例するテンプレート:Mvar 個の確率で構成される確率分布に正規化する。つまり、ソフトマックス関数を適用することで、各成分は区間テンプレート:Math2 に収まり、全ての成分の和が 1 になるため、「確率」として解釈できるようになる。入力値が大きいほど「確率」も大きい。

$K \geq 1$ に対し、標準（単位）ソフトマックス関数 $σ : ℝ^{K} \to (0, 1)^{K}$ は次のように定義される。

σ (𝒛)_{i} = \frac{e^{z_{i}}}{\sum_{j = 1}^{K} e^{z_{j}}} for i = 1, \dots, K and 𝐳 = (z_{1}, \dots, z_{K}) \in ℝ^{K}

簡単に言えば、入力ベクトルの $𝒛$ の各成分 $z_{i}$ に自然指数関数を適用し、これらすべての指数の合計で割ることによって、値を正規化する。この正規化により、出力ベクトル $σ (𝒛)$ の成分の和が 1 になることが保障される。

シグモイド関数との関係性

K = 2 の二値分類問題において、 $z = z_{1} - z_{2}$ と置くと、標準シグモイド関数になる^[5]。z の正負で二値分類できる。

σ (𝒛)_{1} = \frac{e^{z_{1}}}{e^{z_{1}} + e^{z_{2}}} = \frac{e^{z_{1}}}{e^{z_{1}} + e^{z_{1} - z}} = \frac{1}{1 + e^{- z}} = ς_{1} (z)

基底がネイピア数以外の場合

テンプレート:Mvar（ネイピア数）の代わりに別の基底テンプレート:Math2 を用いることもできる。テンプレート:Math2 であれば、入力値が小さいほど出力される確率が高くなり、テンプレート:Mvar の値を小さくすると、入力値が小さいところに集中する確率分布となる。テンプレート:Math2 の場合、入力値が大きいほど出力される確率が大きくなり、テンプレート:Mvar の値を大きくすると、最大の入力値が大きい位置に集中する確率分布が作成される。

実数テンプレート:Mvar を用いて $b = e^{β}$ ないし $b = e^{- β}$ と記載すると、次の表現を得る。

σ (𝒛)_{i} = \frac{e^{β z_{i}}}{\sum_{j = 1}^{K} e^{β z_{j}}} or σ (𝒛)_{i} = \frac{e^{- β z_{i}}}{\sum_{j = 1}^{K} e^{- β z_{j}}} for i = 1, \dots, K .

基底が固定されている分野もあれば、基底を変化させる分野もある。ニューラルネットワークの場合は、ソフトマックス関数を適用する前に線形変換することが多く、その場合はこのテンプレート:Mvar 倍は無意味である。

偏微分

偏微分は、クロネッカーのデルタを使用し、商の微分法則より下記となる。^[5]

\frac{\partial σ (𝒛)_{j}}{\partial z_{i}} = \frac{\partial}{\partial z_{i}} \frac{e^{z_{j}}}{\sum_{k = 1}^{K} e^{z_{k}}} = \frac{δ_{i j} e^{z_{j}} (\sum_{k = 1}^{K} e^{z_{k}}) - e^{z_{j}} e^{z_{i}}}{{(\sum_{k = 1}^{K} e^{z_{k}})}^{2}} = σ (𝒛)_{j} (δ_{i j} - σ (𝒛)_{i})

交差エントロピーと組み合わせた場合

教師データ $p_{i}$ が0または1の多クラス分類問題で、 $q_{i} = σ (𝒛)_{i}$ で、損失関数に交差エントロピーを使用した場合、

H (𝒑, 𝒒) = - \sum_{i} p_{i} \log q_{i}

に対して、正解がj、つまり $p_{i} = δ_{i j}$ とすると、

H (𝒑, 𝒒) = - \log q_{j}

となり、これを $z_{i}$ で偏微分すると $q_{i} - p_{i}$ になる。つまり、ソフトマックス関数適用後の確率分布に正解の所だけ1を引いたものになる。

\frac{\partial H}{\partial z_{i}} = - \frac{1}{q_{j}} \frac{\partial q_{j}}{\partial z_{i}} = - \frac{1}{σ (𝒛)_{j}} \frac{\partial σ (𝒛)_{j}}{\partial z_{i}} = - \frac{1}{σ (𝒛)_{j}} σ (𝒛)_{j} (δ_{i j} - σ (𝒛)_{i}) = σ (𝒛)_{i} - δ_{i j} = q_{i} - p_{i}

トップダウン型自動微分を使用する際は、この値をソースノードに降ろしていけば良い。

ちなみに、回帰問題で二乗和誤差 $\sum_{i} (q_{i} - p_{i})^{2}$ を $q_{i}$ で偏微分すると $2 (q_{i} - p_{i})$ と、上記と似たような式になる。つまり、バックプロパゲーションとしては、回帰問題で二乗和誤差の場合は出力の誤差を使用し、分類問題でソフトマックス関数で交差エントロピーの場合は確率の誤差を使用する。

オーバーフロー対策

$z_{i}$ の値が大きい場合、単精度浮動小数点数の場合は $z_{i} = 89$ であっても、exp() の計算後の結果がオーバーフローして無限大になる。そして、無限大÷無限大は NaN になる。その対策として、 $z_{i}$ は一律同じ値を引いてもソフトマックス関数を適用後の結果は変わらないことを利用して、 $z_{i} - \max_{k} z_{k}$ として計算すると良い。^[6]

解釈

Arg max の滑らかな近似

「ソフトマックス softmax」という名前は誤解を招く恐れがある。この関数は最大値関数の滑らかな近似ではなく、Arg max関数（どのインデックスが最大値を持つかを表す関数）の滑らかな近似値である。実際、「softmax」という用語は、最大値の滑らかな近似である LogSumExp関数にも用いられる。これを明確にするために「softargmax」を好む人もいるが、機械学習では「softmax」という用語が一般的である。^[7]

脚注

出典

テンプレート:Reflist

外部リンク

テンプレート:高校数学の美しい物語

[1] テンプレート:Cite book

[2] テンプレート:Cite journal

[3] テンプレート:Cite conference

[4] テンプレート:Cite web

[manabitimes-5] 5.0 ^5.1 テンプレート:Cite web

[6] テンプレート:Cite book

[7] テンプレート:Cite book

[1]

[2]

[3]

[4]

[5]

[6]

[7]

ソフトマックス関数

目次

定義

シグモイド関数との関係性

基底がネイピア数以外の場合

偏微分

交差エントロピーと組み合わせた場合

オーバーフロー対策

解釈

Arg max の滑らかな近似

関連項目

脚注

出典

外部リンク

ナビゲーションメニュー

ソフトマックス関数

定義

シグモイド関数との関係性

基底がネイピア数以外の場合

偏微分

交差エントロピーと組み合わせた場合

オーバーフロー対策

解釈

Arg max の滑らかな近似

関連項目

脚注

出典

外部リンク

ナビゲーション メニュー

検索

ナビゲーションメニュー