音声強調のソースを表示

'''音声強調'''（おんせいきょうちょう、{{lang-en-short|speech enhancement}}）は[[音声]]の特定成分を相対的に強調し質を改善する[[音響信号処理|音声信号処理]]である<ref>"音声強調は観測信号 x から目的信号 s を取り出す音響信号処理である．" 竹内. (2020). ''[http://contents.acoust.ias.sci.waseda.ac.jp/publications/ASJ/2020/asj-takeuchi-2020Mar.pdf 軽量な RNN を用いた音声強調]''. 日本音響学会 2020年春季研究発表会.</ref>。

改善の対象としては音声の[[明瞭度]]や[[音質]]など様々なものがある。[[SN比]]を改善する雑音抑制の技術は最も重要なもので、[[携帯電話]]、[[VoIP]]、[[遠隔会議|電話会議]]などの[[通信]]の分野や、[[音声認識]]、[[補聴器]]での応用など多くの分野で利用されている。

== 概要 ==
[[ハンズフリー・マイクロフォン|ハンズフリー]]通話や、野外での[[携帯電話]]の使用など、音声アプリケーションを雑音や反響音の多い環境で使うケースは多い。雑音や反響音で歪んだ音声信号に対して音声強調を行うことで、音声の[[明瞭度]]の向上、聞く人の疲労の軽減などの効果が期待できる。

また、[[携帯電話]]や[[衛星電話]]などで使用されている[[ビットレート|低ビットレート]]の[[音声符号化]]や、[[音声認識]]の処理では、音声を何らかのモデルに当てはめパラメータ化を行うため、音声信号に雑音が含まれるとパラメータ化がうまく行えない。[[音声符号化]]では音質の劣化、[[音声認識]]では認識率の低下に繋がる。このような分野でも音声強調の技術はよく使われている。

音声強調では、音声と雑音などそれ以外の成分との統計的な性質の違いなどを利用し、信号に含まれる本来の音声や雑音などを様々なアルゴリズムを用いて推定し、雑音などを抑制する。
音声成分や雑音成分の推定は一般に難しく、それらの性質は時間の経過やアプリケーション、環境の違いにより大幅に変わるため、音声強調のアルゴリズムは異なった実環境での評価が必要になる。また、音声の評価についても様々な指標があり、アプリケーションや目的ごとに異なる。
一般に、音声の[[音質]]と[[明瞭度]]との両立は難しく、例えば雑音の多い周波数を[[フィルタ回路|フィルター]]でカットすると音声の[[明瞭度]]は向上するが[[音質]]はカットされた分だけ悪化する。

音声強調で使われる代表的な雑音抑制の方法としては以下のものがある。大きく分けて、1つの入力のみを扱う単一チャンネルの手法と、複数の[[マイクロフォン]]などを用いたマルチチャネルの方法がある。
*単一チャンネル
** フィルタリングによる雑音抑制
*** スペクトルサブトラクション法（{{lang|en|''spectral subtraction method''}}）
*** ウィーナーフィルタリング法（{{lang|en|''Wiener filtering''}}）
*** 信号部分空間法（{{lang|en|''signal subspace approach''}}、SSA）
** スペクトル復元による雑音抑制
*** MMSE-STSA法（{{lang|en|''minimum mean-square-error short-time spectral amplitude estimator''}}）
** 音声モデルベースの雑音抑制
*マルチチャネル（マイクロフォンアレー）

== 歴史 ==
音声信号に対する雑音や歪みの抑制を行う技術の歴史は古く、1960年代にはアナログ技術を用いた雑音抑制の特許が[[ベル研究所]]の M.R.Schroeder により取得されている
<ref>M.R.Schroeder. ''[https://www.google.com/patents/about?id=TjxqAAAAEBAJ PROCESSING OF COMMUNICATIONS SIGNALS TO REDUCE EFFECTS OF NOISE]'' US Patent No.3403224, Sep 24, 1968. (Filed May. 28, 1965)</ref>
<ref>M.R.Schroeder. ''[https://www.google.com/patents/about?id=lGhtAAAAEBAJ APPARATUS FOR SUPPRESSING NOISE AND DISTORTION IN COMMUNICATION SIGNALS]'' US Patent No.3180936, Apr 26, 1965. (Filed Dec. 1, 1960)</ref>。
これには現在のスペクトルサブトラクション法に当たる考え方も含まれていた
<ref name="SE2005">Jacob Benesty, Shoji Makino, Jingdong Chen (ed). ''Speech Enhancement''. Springer, 2005. ISBN 978-3540240396.</ref>。その後のデジタル信号処理の発展に伴い、1979年にデジタル処理によるスペクトルサブトラクション法が再発明された。同じ年に Jae Lim と Alan Oppenheim はそれまで知られていた雑音抑制の手法を形式化してまとめ<ref name=Lim1979>J. S. Lim, A. V. Oppenheim. ''Enhancement and bandwidth compression of noisy speech''. Proc. of IEEE. Vol.67, pp.1586-1604. 1979.</ref>、
音声強調の分野が注目されるきっかけとなった。その後、MMSE-STSA法（1984）などの主要な手法が発表され、コンピュータの小型化・高性能化に伴い、[[携帯電話]]、[[遠隔会議|電話会議]]システム、[[デジタルシグナルプロセッサ|DSP]]内蔵の[[補聴器]]など多くの機器で使用されるようになった。

== フィルタリングによる雑音抑制 ==
フィルタリングによる雑音抑制は最も古典的な方法で、何らかの[[フィルタ回路|フィルター]]により雑音成分を取り除く方法である。

雑音を含んだ入力信号 x(t) が元の音声信号 s(t) と雑音信号 n(t) との和で表される「加法性雑音」を考えると、信号の関係は以下のようになる。
:<math>x \left(t \right) = s(t) + n(t)</math> 　　（''t'' は時間を表す）

これを[[周波数領域]]で考えると、各信号の[[スペクトル]]は以下のように表現することができる。
:<math>X \left(\omega \right) = S(\omega) + N(\omega)</math> 　　（''ω'' は周波数を表す）
フィルタリングによる雑音抑制は、入力信号に何らかのフィルターである''ゲイン関数'' G(ω) を適用し、雑音を含んだ入力信号から元の音声信号 <math>\hat S(\omega)</math> を
:<math>\hat S(\omega) = G(\omega)X(\omega)</math>
のように復元する方法である。
=== スペクトルサブトラクション法 ===
スペクトルサブトラクション法（{{lang|en|''spectral subtraction method''}}）は、雑音の[[パワースペクトル]]の[[平均値]]を推定し、雑音を含んだ入力信号のパワースペクトルから引くことで雑音の低減を行う方法である。デジタル処理を用いた方法は1979年に Boll が発表した
<ref name=Ball1979>S. F. Boll. ''Suppression of Acoustic Noise in Speech Using Spectral Subtraction''. IEEE Trans. ASSP., Vol.27, pp.113-120. 1979.</ref>。処理が単純な割には比較的良い結果が得られるため、現在でもよく使われている。

[[周波数領域]]での復元された音声信号スペクトルを <math>\hat S(\omega)</math>、 雑音の推定スペクトルの平均値を <math>\hat N(\omega)</math> としたとき、以下の[[近似]]を用いて元の音声信号の[[パワースペクトル]]を求める。
:<math>| \hat S(\omega) |^2 = | X(\omega) |^2 - | \hat N(\omega) |^2</math>

[[パワースペクトル]]ではなく[[振幅]]スペクトルが使われるケースもある。
:<math>| \hat S(\omega) | = | X(\omega) | - | \hat N(\omega) |</math>

予測した雑音が信号より大きくなり右辺の値がマイナスになる場合は、雑音スペクトルに何らかの係数を掛けたり、マイナスの振幅は全て 0 と見なすことで調整する。

実際の信号では[[振幅]]だけでなく[[位相]]も復元する必要がある。人間の[[聴覚]]は位相に敏感ではないことを利用し、位相は入力信号のものをそのまま利用する。入力信号の位相スペクトルを <math>\angle X(\omega)</math> と表せば、
:<math>\hat S(\omega) = | \hat S(\omega) | \cdot \exp \{ j \angle X(\omega) \}</math>

スペクトルサブトラクション法は、周波数ごとの入力信号と推定した雑音の比（推定した[[SN比]]）によって特性が変化する一種の[[フィルタ回路|フィルター]]と見なすことができる。入力信号との比で推定雑音が大きい周波数は大きく減衰させ、そうでない周波数は減衰を少なくする。
フィルターにあたるゲイン関数 G(ω) は、[[パワースペクトル]]、[[振幅]]スペクトルの場合についてそれぞれ以下のようになる。
:<math>G(\omega)  = \sqrt{1 - \frac{|\hat N(\omega)|^2}{|X(\omega)|^2}}</math>
あるいは
:<math>G(\omega)  = \left( 1 - \frac{|\hat N(\omega)|}{|X(\omega)|} \right)</math>

雑音の振幅スペクトルの平均値の推定には様々な方法が提案されている。最も単純には、雑音が時間的に変化しないと仮定して無音時の信号から雑音の振幅スペクトルを求め、これを雑音の推定スペクトルと見なして処理を行う。

スペクトルサブトラクション法は入力信号と推定雑音のレベルがほぼ同じになる周波数で信号の減衰が急に大きくなるので、雑音の推定レベルの誤差により特定の周波数で信号が現れたり消えたりする現象が起き、ミュージカルノイズ（{{lang|en|''musical noise''}}）と呼ばれるトーン性の雑音が発生する問題がある。

=== ウィーナーフィルタリング法 ===
ウィーナーフィルタリング法（{{lang|en|''Wiener filtering''}}）は、[[ウィーナー]]が提案した[[ウィーナーフィルター]]を使って雑音抑制を行う方法である。音声と雑音の相関が無いという前提で、本来の音声信号と推定した音声信号の平均二乗誤差（{{lang|en|''mean-square-error''}}）を最小にするような線形フィルターを形成し、雑音を含んだ入力信号から元の音声信号を得る。

[[時間領域]]、[[周波数領域]]のいずれでもウィーナーフィルターを作ることができ、[[時間領域]]では時系列のデータの平均二乗誤差が最小のものを、[[周波数領域]]ではスペクトルの平均二乗誤差が最小のものになる。いずれの領域でも[[SN比]]が改善されることは理論的に証明されている
<ref>Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). ''Springer Handbook of Speech Processing''. Springer, 2007. ISBN 978-3540491255.の ''43.4 Noise Reduction via Filtering Techniques'' など参照のこと。</ref>。一般的によく使われる[[周波数領域]]のウィーナーフィルターは、スペクトルサブトラクション法と同様、入力信号の[[振幅]]成分の雑音にのみ影響を与え、[[位相]]成分には影響を与えない。

[[周波数領域]]のウィーナーフィルターでのゲイン関数 G(ω) は以下のようになる。
:<math>G(\omega)  = \frac{|\hat S(\omega)|^2}{|\hat S(\omega)|^2 + |\hat N(\omega)|^2}</math>
あるいは、推定した[[SN比]] ξ(ω) を用いると以下の式になる。
:<math>G(\omega)  = \frac{\xi(\omega)}{1 + \xi(\omega)}</math>
ここで、ξ(ω) （事前[[SN比|SNR]]、''a priori Signal-to-Noise Ratio''）は以下の式で表され、それぞれの周波数で予想される[[SN比]]の推定値にあたる。
:<math>\xi(\omega) = \frac{|\hat S(\omega)|^2}{|\hat N(\omega)|^2}</math>

ウィーナーフィルターはスペクトルサブトラクション法と比較しミュージカルノイズは発生しにくい。ただし雑音抑制の効果が大きくなるほど元の音声の成分も抑制され、必ず[[明瞭度]]や[[音質]]が向上するとは限らない。
=== 信号部分空間法 ===
信号部分空間法（{{lang|en|''signal subspace approach''}}、SSA）は、[[明瞭度]]の低下を最小化しながら雑音を含んだ入力信号の質の向上を行うことを目指した手法で
<ref name=Ephraim1995>Y. Ephraim, H. L. Van Trees. ''A signal subspace approach for speech enhancement''. IEEE Trans. Speech Audio Processing, vol.3, pp.251-266, 1995.</ref>、
雑音を含んだ入力信号を、音声と雑音からなる「信号空間」と雑音のみからなる「雑音空間」に分離して処理を行うことに特徴がある。音声と雑音との相関が無く、雑音が[[ホワイトノイズ]]であることを前提とし、信号の空間へのマッピングには[[直交変換]]の一種である[[:en:Karhunen-Loève transform|カルーネン・レーヴェ変換]]（{{lang|en|''Karhunen-Loève transform''}}）を用いる。信号部分空間法は1995年に Ephraim と Van Trees が発表した<ref name=Ephraim1995></ref>。
大まかな処理は以下のようになる。
# 入力信号ベクトルにカルーネン・レーヴェ変換を行う
# 雑音空間を削除
# 信号空間の成分について以下を考慮しながら本来の音声成分を推定
#* 信号歪み
#* 残留雑音エネルギー
# 逆カルーネン・レーヴェ変換を行い信号ベクトルに戻す
本来の音声成分の推定では、残留雑音エネルギーを特定の閾値以下に抑えながら信号歪みを最小化し、雑音抑制と[[明瞭度]]低下とをバランスさせる。

カルーネン・レーヴェ変換は[[フーリエ変換]]などに近い変換で、この方式は入力信号を[[高速フーリエ変換]]で周波数スペクトルに変換した後に雑音成分の削除を行うスペクトルサブトラクション法を拡張・整理したものととらえることもできる<ref name=Ephraim1995></ref>。

== スペクトル復元による雑音抑制 ==
雑音抑制は、[[周波数領域]]で考えると本来の信号スペクトルを推定し復元する問題ととらえられる。[[ベイズ推定]]などの一般的な[[:en:Estimation theory|推定理論]]の枠組みを利用することで、様々なアプローチが可能である。代表的な手法として最小二乗誤差（MMSE）推定を行うMMSE-STSA法がある。
=== MMSE-STSA法 ===
MMSE-STSA法（{{lang|en|''minimum mean-square-error short-time spectral amplitude estimator''}}）は、 本来の音声信号と推定した音声信号の短時間振幅スペクトルの平均二乗誤差を最小にする方式である。1984年に Ephraim と Malah が発表した
<ref name=Ephraim1984>Y. Ephraim, D. Malah. ''Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator''. IEEE Trans. ASSP. Vol.32, pp.1109-1121. 1984.</ref>。スペクトルの平均二乗誤差を最小にするという点でウィーナーフィルタリング法と似ているが、[[パワースペクトル]]ではなく[[振幅]]スペクトルが対象になる。音声と雑音とは相関が無く、スペクトルは平均が 0 の[[ガウス分布]]であることを前提として推定を行う。同様の条件で信号の[[位相]]についても解析が行われており、元の入力信号の位相が最適な推定値となることが分かっている<ref name=Ephraim1984></ref>。ウィーナーフィルタリング法と同様、ミュージカルノイズは発生しにくい。

MMSE-STSA法では、入力信号の振幅スペクトルと雑音推定スペクトルの平均値とから周波数ごとの[[SN比]]を推定しながら、平均二乗誤差を最小にするような短時間振幅スペクトルを復元する。位相は入力信号のものを最適な推定値としてそのまま利用する。

MMSE-STSA法は[[携帯電話]]などの機器で広く用いられている。
=== その他の手法 ===
最小二乗誤差（MMSE）推定以外に、[[最尤法]]（{{lang|en|''maximum-likelihood estimation''}}、ML）や[[最大事後確率]]（{{lang|en|''maximum a posteriori''}}、MAP）推定を用いて信号スペクトルを推定する方法が知られている。これらの推定方法は多くの望ましい特徴を持つため、広く検討されている<ref>Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). ''Springer Handbook of Speech Processing''. Springer, 2007. ISBN 978-3540491255.の ''43.5 Noise Reduction via Spectral Restoration'' など参照のこと。</ref>。

== 音声モデルベースの雑音抑制 ==
{{出典の明記| date = 2023年10月25日 (水)| section = 1}}
通常のオーディオ信号と異なり、音声は固有の特性を持つ。人間の[[声]]は、音源である[[声帯]]の音の特性と、咽喉と口腔、鼻腔、舌、唇などの[[調音]]器官（声道）の共鳴による周波数選択特性で特徴づけられ、その変化にも何らかの規則性がある。音声に対し何らかのモデル化を行い他の方法と組み合わせることで、より優れた雑音抑制を行うことが期待できる。以下のようなモデル化が知られている。

=== 調波モデル ===
'''調波モデル'''（{{lang-en-short|harmonic model}}）は音声を[[アディティブ・シンセシス#調波加算合成|調波加算モデル]]、すなわち基本周波数+[[倍音]]で表現し利用するモデルである。

調波モデルでは[[声帯]]を介した[[声#生成|声生成]]過程に着目し音声を[[アディティブ・シンセシス#調波加算合成|調波加算モデル]]で表現した上で、倍音のみを通過させる[[コムフィルタ|くし型フィルター]]によって音声と雑音を分離する。声帯振動を伴わない[[無声音]]はうまくモデル化できず歪むため、調波+雑音によるモデル化（例: [[Spectral modeling synthesis|SMS]]）などが提案されている。{{要出典範囲|他の雑音抑制法と比べ音声が歪む傾向にある|date=2023年10月}}。

=== 線形予測モデル ===
'''線形予測モデル'''（{{lang-en-short|linear prediction model}}）は音声を[[線形予測法|線形予測]]によりモデル化する方法である。

この手法は人間の声道の特性が[[線形予測法|線形予測]]係数による全極フィルターでうまく表現できることを利用している。雑音抑制は[[線形予測法|線形予測]]係数の推定の問題として形式化できる。
線形予測モデルはウィーナーフィルタリング法など他の方式と組み合わせて使用されることも多い。

=== 隠れマルコフモデル ===
'''隠れマルコフモデル'''（{{lang-en-short|hidden Markov model}}）は音声の時間的・スペクトル的変化を[[隠れマルコフモデル]]として扱う方法である。

多くの場合、最初にあらかじめ雑音を含まない音声と雑音とを用意してそれぞれの[[隠れマルコフモデル]]を作成し、次にそれらのパラメータを用いて雑音を含む音声から元の音声を推定する。

== マルチチャネル（マイクロフォンアレー） ==
{{出典の明記| date = 2023年10月25日 (水)| section = 1}}

単一チャンネルでの音声強調は、音声と雑音などとの性質の違い（音声は時間・周波数での変動が激しいが雑音は変動が少ない、音声には無声期間がある、など）のみを利用して分離を行う必要があり、変動の大きい雑音など音声と似た性質の音に対してはうまく対応できない。

複数のマイクロフォンなどによるマルチチャネル化は、複数の異なった入力信号を用いることで、より効果的な音声強調を行う方法である。
以下のような様々なアプローチがある。
:* 単一チャンネルでの雑音抑制のマルチチャネル化（ウィーナーフィルタリング法、MMSE-STSA法など）
:* 以下のようなマルチチャネル固有の技術を応用、あるいは単一チャンネル手法と組み合わせ
:** マイクロフォンアレーによるビームフォーミング（{{lang|en|''microphone-array beamforming''}}）
:** [[ブラインド信号分離]]（{{lang|en|''blind source separation''}}）

== 脚注 ==
<div class="references-small">
<references/>
</div>

== 参考文献 ==
* J. Benesty, M. M. Sondhi, Y. Huang (ed). ''Springer Handbook of Speech Processing''. Springer, 2007. ISBN 978-3540491255.
* J. Benesty, S. Makino, J. Chen (ed). ''Speech Enhancement''. Springer, 2005. ISBN 978-3540240396.
* S. F. Boll. ''Suppression of Acoustic Noise in Speech Using Spectral Subtraction''. IEEE Trans. ASSP., vol.27, pp.113-120. 1979.
* Y. Ephraim, D. Malah. ''Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator''. IEEE Trans. ASSP. vol.32, pp.1109-1121. 1984.
* Y. Ephraim, H. L. Van Trees. ''A signal subspace approach for speech enhancement''. IEEE Trans. Speech Audio Processing, vol.3, pp.251-266. 1995.
* J. S. Lim, A. V. Oppenheim. ''Enhancement and bandwidth compression of noisy speech''. Proc. of IEEE, vol.67, pp.1586-1604. 1979.

== 関連項目 ==
* [[音声処理]]
* [[音声符号化]]
* [[デジタル信号処理]]
* [[電気通信]]
* [[ノイズリダクション]]

== 外部リンク ==
* [http://cslu.cse.ogi.edu/HLTsurvey/ch10node5.html Speech Enhancement] OGI School of Science and Engineering のウェブページ



{{DEFAULTSORT:おんせいきようちよう}}
[[Category:音声処理]]
[[Category:音声]]
[[Category:信号処理]]
[[Category:コンピュータの利用]]