音声分析
テンプレート:読み仮名は音声を特徴量へ変換・表現することである[1]。
概要
音声とはヒトの喉から発せられた振動である。最も単純な表現として音声は波、すなわち振幅の時間変動で表される。一方で波には様々な表現が存在する。例えばフーリエ変換を介して周波数表現でも等価に表現できるし、STFTによりスペクトログラムとしても表現できる。このように波である音声を分析し異なる表現へ変換することを音声分析という。
音声分析により得られる音響特徴量にはスペクトログラム、基本周波数などが挙げられる。これらの音響特徴量は音声認識や音声合成の入力として利用される。
音響特徴量
テンプレート:読み仮名は音声分析で得られる特徴量である。
音響特徴量は専門家の手による特徴量エンジニアリングで考案されたり、機械学習を利用した表現学習によって得られる。特徴量の良さはその用途により異なる。以下は音響特徴量の例である。
非周期性指標
テンプレート:読み仮名は音響信号の各周波数における非調波成分の割合である[2]。有声音であれば声のかすれ具合に相当する[3]。
分類
音声分析はアプローチによって様々に分類できる。
短時間分析
テンプレート:読み仮名は音声を短い音声断片へ区分けして扱う分析の総称である[4]。テンプレート:読み仮名とも。
音声とくに言語音はしばしば準定常性をもつ、すなわち短時間では定常で長時間では変動する[4]。短時間と長時間の特性を同時に分析するには、長い音声を短時間に区分けして各区画の特性を調べかつその変遷に着目すればよい[4]。これが短時間分析である。音声の言語音的側面を調べる際は短時間分析が多様される。一例として、短時間フーリエ変換等の時間周波数解析、PSOLAの分析段階が挙げられる。
分析窓
テンプレート:読み仮名は音声から短時間区間を切り出す窓関数である[5]。 や で表記される。
音声分析では(多くの場合) を分析窓中心として静的な分析窓を記述し、これを分析したい区間の中心 までシフトし原音声 に掛けることで信号 を取り出す。これは次の式で表される:
窓を掛けることにより、窓の台以外の区間では信号 は になる。直感的には音声をフェードイン/フェードアウトさせて一部区間のみ音がなるようにしているといえる。
短時間分析では分析区間を動かして変遷を分析するため、区間中心(=分析窓のシフト量)である を変数と見なす。これにより信号 は次の式で表される[6]:
なお、分析窓をパラメトリックにする音声分析も様々存在する(例: PSOLA - ウインドウ長が原音声のピッチに依存[7])。
手法
フーリエ変換に基づく周波数解析がしばしば利用される。これによりスペクトルやスペクトログラムが得られ、また更なる分析によってfoやフォルマントの経時変化が得られる。
また、音声波形について、DCT変換を用いて直接数値化する事も行われている。これを更にパターンに当てはめる事で伝送用に特化させたものが音声圧縮アルゴリズムのCELPであり、この数値の相関性を基にして、特定の人物の音声を合成することも可能である。
以下は特定の特徴量を得るために用いられる分析手法の一例である:
Acoustic Unit Discovery
機械学習によりAcoustic Unit (AU) を得ることをAcoustic Unit Discovery; AUD という。典型的なAUDでは教師なし学習を用い、音声信号に繰り返し現れる単位(= AU)を抽出できるようモデルを学習する。学習方法やモデルによりAUがもつ特性は異なる(例: 音素に似た話者独立な特徴量、話者性を持つフォルマント的な特徴量)。AUは音声合成(unit-to-speech, speech resynthesis)や言語モデル(例: GSLM)に利用される。用途によりAUに求められる特性は異なる。
以下は具体的な手法の一例である。
脚注
出典
参考文献
関連項目
- ↑ テンプレート:Ilqテンプレート:Harv
- ↑ テンプレート:Ilq以下より引用。テンプレート:Cite journal2
- ↑ テンプレート:Cite journal
- ↑ 4.0 4.1 4.2 テンプレート:Ilqテンプレート:Harv
- ↑ テンプレート:Ilqテンプレート:Harv
- ↑ テンプレート:Ilqテンプレート:Harv
- ↑ テンプレート:Ilqテンプレート:Harv
- ↑ テンプレート:Ilq以下より引用。Polyak, et al. (2021). Speech Resynthesis from Discrete Disentangled Self-Supervised Representations.