音声分析のソースを表示
←
音声分析
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{読み仮名|'''音声分析'''|おんせいぶんせき|{{lang-en-short|speech analysis}}}}は[[音声]]を[[特徴量]]へ変換・表現することである<ref>{{Ilq|音声分析合成システム ... 音声の特徴を活用し、音声をパラメータとして表現する分析法}}{{harv|森勢|2018|p=53}}</ref>。 == 概要 == [[音声]]とは[[ヒト]]の喉から発せられた振動である。最も単純な表現として音声は波、すなわち振幅の時間変動で表される。一方で波には様々な表現が存在する。例えばフーリエ変換を介して周波数表現でも等価に表現できるし、STFTにより[[スペクトログラム]]としても表現できる。このように波である音声を分析し異なる表現へ変換することを音声分析という。 音声分析により得られる音響[[特徴量]]には[[サウンドスペクトログラム|スペクトログラム]]、基本周波数などが挙げられる。これらの音響特徴量は[[音声認識]]や[[音声合成]]の入力として利用される。 == 音響特徴量 == {{読み仮名|'''音響特徴量'''|おんきょうとくちょうりょう|{{lang-en-short|acoustic feature, speech representation}}}}は音声分析で得られる[[特徴量]]である。 音響特徴量は専門家の手による特徴量エンジニアリングで考案されたり、機械学習を利用した表現学習によって得られる。特徴量の良さはその用途により異なる。以下は音響特徴量の例である。 * [[スペクトル]]、[[スペクトログラム]] * [[基本周波数]] * [[フォルマント]] * スペクトル包絡 * [[ケプストラム]] * [[ケプストラム#メル周波数ケプストラム係数|メル周波数ケプストラム係数]] * [[線形予測法#係数表現|線形予測係数]] * [[音声分析#非周期性指標|非周期性指標]] *Acoustic Unit([[特徴量#%E8%A1%A8%E7%8F%BE%E5%AD%A6%E7%BF%92|表現学習]]) === 非周期性指標 === {{読み仮名|'''非周期性指標'''|ひしゅうきせいしひょう|{{lang-en-short|aperiodicity}}}}は音響信号の各周波数における非[[倍音|調波]]成分の割合である<ref>{{Ilq|aperiodicity is defined as the power ratio between the speech signal and the aperiodic component of the signal}}以下より引用。{{Cite journal2 |last=Morise |year=2016 |title=D4C, a band-aperiodicity estimator for high-quality speech synthesis |journal=Speech Communication |volume=84 |pages=57-65}}</ref>。有声音であれば声のかすれ具合に相当する<ref>{{Cite journal|和書|author=森勢将雅 |date=2018-11 |url=https://doi.org/10.20697/jasj.74.11_608 |title=音声パラメータのデザイン : 知覚情報を操作可能な音声合成に向けて |journal=日本音響学会誌 |ISSN=03694232 |publisher=日本音響学会 |volume=74 |issue=11 |pages=608-612 |doi=10.20697/jasj.74.11_608 |CRID=1390001288135088000}}</ref>。 == 分類 == 音声分析はアプローチによって様々に分類できる。 === 短時間分析 === {{読み仮名|'''短時間分析'''|たんじかんぶんせき|{{lang-en-short|short-term analysis}}}}は音声を短い音声断片へ区分けして扱う分析の総称である<ref name=":0">{{Ilq|音声は時間とともに特徴が変わるため、'''短時間分析'''により短時間ごとの性質と時間的な特性の変化を観測することが望ましい。}}{{harv|森勢|2018|p=19}}</ref>。{{読み仮名|'''フレーム分析'''|フレームぶんせき|{{lang-en-short|frame analysis}}}}とも。 [[音声]]とくに[[言語音]]はしばしば[[声#準定常性|準定常性]]をもつ、すなわち短時間では定常で長時間では変動する<ref name=":0" />。短時間と長時間の特性を同時に分析するには、長い音声を短時間に区分けして各区画の特性を調べかつその変遷に着目すればよい<ref name=":0" />。これが短時間分析である。音声の言語音的側面を調べる際は短時間分析が多様される。一例として、[[短時間フーリエ変換]]等の[[時間周波数解析]]、[[PSOLA]]の分析段階が挙げられる。 ==== 分析窓 ==== {{読み仮名|'''分析窓'''|ぶんせきまど|{{lang-en-short|analysis window}}}}は音声から短時間区間を切り出す[[窓関数]]である<ref>{{Ilq|短時間の波形を'''窓関数'''により切り出}}{{harv|森勢|2018|p=19}}</ref>。<math>w_a(t)</math> や <math>h(t)</math> で表記される。 音声分析では(多くの場合)<math>t=0</math> を分析窓中心として静的な分析窓を記述し、これを分析したい区間の中心 <math>t</math> までシフトし原音声 <math>x(\tau)</math> に掛けることで信号 <math>\tilde{x}(\tau)</math> を取り出す。これは次の式で表される: :<math>\tilde{x}(\tau) = x(\tau) w_a(\tau - t)</math> 窓を掛けることにより、窓の台以外の区間では信号 <math>\tilde{x}(\tau)</math> は <math>0</math> になる。直感的には音声を[[フェードイン]]/[[フェードアウト]]させて一部区間のみ音がなるようにしているといえる。 [[音声分析#短時間分析|短時間分析]]では分析区間を動かして変遷を分析するため、区間中心(=分析窓のシフト量)である <math>t</math> を変数と見なす。これにより信号 <math>\tilde{x}(\tau, t)</math> は次の式で表される<ref>{{Ilq|波形を切り出す演算は以下のようになる。... <math>y(\tau, t) = x(\tau) w(\tau - t)</math>"}}{{harv|森勢|2018|p=19}}</ref>: :<math>\tilde{x}(\tau, t) = x(\tau) w_a(\tau - t)</math> なお、分析窓をパラメトリックにする音声分析も様々存在する(例: [[PSOLA]] - ウインドウ長が原音声の[[音高|ピッチ]]に依存<ref>{{Ilq|pitch-synchronous analysis windows <math>h_m(n)</math> ... Their lengths are ... proportional to the local pitch period,}}{{Harv|Moulines|1990|pp=454-455}}</ref>)。 == 手法 == [[フーリエ変換]]に基づく周波数解析がしばしば利用される。これによりスペクトルやスペクトログラムが得られ、また更なる分析によってf<sub>o</sub>や[[フォルマント]]の経時変化が得られる。 また、音声波形について、[[離散コサイン変換|DCT]]変換を用いて直接数値化する事も行われている。これを更にパターンに当てはめる事で伝送用に特化させたものが音声圧縮アルゴリズムの[[CELP]]であり、この数値の相関性を基にして、特定の人物の音声を合成することも可能である。 以下は特定の特徴量を得るために用いられる分析手法の一例である: * スペクトル包絡 ** [[線形予測符号|線形予測符号化]](LPC) ** [[ケプストラム]]法 * 非周期性指標 ** D4C === Acoustic Unit Discovery === 機械学習によりAcoustic Unit (AU) を得ることをAcoustic Unit Discovery; '''AUD''' という。典型的なAUDでは[[教師なし学習]]を用い、音声信号に繰り返し現れる単位(= AU)を抽出できるようモデルを学習する。学習方法やモデルによりAUがもつ特性は異なる(例: 音素に似た話者独立な特徴量、話者性を持つフォルマント的な特徴量)。AUは[[音声合成]](unit-to-speech, speech resynthesis)や[[言語モデル]](例: [[言語モデル#GSLM|GSLM]])に利用される。用途によりAUに求められる特性は異なる。 以下は具体的な手法の一例である。 *[[教師なし学習]]<ref>{{Ilq|Studies on unsupervised speech representation learning can roughly be divided into reconstruction and self-supervised learning methods.}}以下より引用。Polyak, et al. (2021). ''Speech Resynthesis from Discrete Disentangled Self-Supervised Representations''.</ref> **再構成ベース: VQ-VAE-WaveNet **[[自己教師あり学習]]ベース: CPC, wav2vec 2.0, HuBERT *ASRモデル == 脚注 == {{脚注ヘルプ}} === 出典 === {{Reflist}} == 参考文献 == * {{cite book|和書 |title=音声分析合成 |publisher=コロナ社 |year=2018 |series=音響テクノロジーシリーズ |ISBN=9784339011371 |last=森勢 |first=将雅 |ref=harv}} * {{cite journal2 |author1=Moulines |first=Eric |year=1990 |title=Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones |journal=Speech Communication |volume=9 |issue=5-6 |pages=453-467 |doi=10.1016/0167-6393(90)90021-Z}} == 関連項目 == *[[音声処理]] *[[話者認識]] {{Physics-stub}} {{DEFAULTSORT:おんせいふんせき}} [[Category:音声合成]] [[Category:音声認識]] [[Category:分析]]
このページで使用されているテンプレート:
テンプレート:Cite book
(
ソースを閲覧
)
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Cite journal2
(
ソースを閲覧
)
テンプレート:Harv
(
ソースを閲覧
)
テンプレート:Ilq
(
ソースを閲覧
)
テンプレート:Physics-stub
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
テンプレート:脚注ヘルプ
(
ソースを閲覧
)
テンプレート:読み仮名
(
ソースを閲覧
)
音声分析
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報