スペクトログラムのソースを表示
←
スペクトログラム
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
[[ファイル:Spectrogram of violin.png|thumb|300px|バイオリンのスペクトログラム(縦軸は線形周波数、横軸は時間)。色の線(すなわち輝点の連続)が周波数成分の経時変化を表す。色の明度は対数的(黒は −120dBFS)]] '''スペクトログラム'''({{lang-en-short|'''Spectrogram'''}})とは、複合[[信号 (電気工学)|信号]]を[[窓関数]]に通して、[[周波数スペクトル]]を計算した結果を指す。3次元のグラフ(時間、周波数、信号成分の強さ)で表される。 スペクトログラムは'''声紋'''の鑑定、動物の鳴き声の分析、[[音楽]]、[[ソナー]]/[[レーダー]]、[[音声処理]]などに使われている。スペクトログラムを'''声紋'''と呼ぶこともある。スペクトログラムを生成する機器を'''ソノグラフ'''(sonograph)という。 == 形式 == 最も一般的な形式では、横軸が[[時間]]を表し、縦軸が[[周波数]]を表す。そして、各点の明るさや色である時点のある周波数での強度を表す。 形式には様々なバリエーションがある。横軸と縦軸を入れ替えて、時間が上下に流れる形式にすることもある。また、強さをZ軸とした3次元のグラフで描画することもある。周波数は[[線型性|線型]]目盛でも[[対数目盛]]でもよく、用途によって使い分ける。例えば音声信号で倍音の関係を示す場合は周波数を線型目盛で表し、音楽的または音色的関係を表す場合は周波数を対数目盛で表す。 === 強度 === 振幅の大きさをもって強度とするものを'''振幅スペクトログラム'''({{lang-en-short|amplitude spectrogram}})<ref>"A(m, k) は振幅スペクトログラム{{harv|小野順貴(2016)}}</ref>、振幅の2乗をもって強度とするものを'''パワースペクトログラム'''({{lang-en-short|power spectrogram}})という<ref>"<math>\left\vert X(m, k) \right\vert ^2 = A ^2 (m, k)</math> はパワースペクトログラムと呼ばれる。{{harv|小野順貴(2016)}}</ref>。 強度はしばしば[[レベル表現]]([[対数スケール]])で表される。基準量は用途によって異なり、純粋に対数表現するならば <math>1</math>、スペクトログラム内の相対関係をみるならばピーク値 <math>max(S)</math><ref>"Compute dB relative to peak power ... librosa.power_to_db(S**2, ref=np.max)" [https://librosa.org/doc/main/generated/librosa.power_to_db.html librosa 0.9.1].</ref>や中央値 <math>median(S)</math><ref>"compare to median power >>> librosa.power_to_db(S**2, ref=np.median)" [https://librosa.org/doc/main/generated/librosa.power_to_db.html librosa 0.9.1].</ref>が用いられる。数値は[[デシベル|dB]]単位を採用する場合が多い。 == 生成 == [[ファイル:Praat-spectrogram-tatata.png|thumb|right|男性が「タタタ」と発声したときのスペクトログラム]] [[ファイル:Spectrogram -minato-.png|thumb|right|女性が「みなと」と発声したときのスペクトログラム]] スペクトログラムを作成する方法は主に2種類存在する。1つは[[バンドパスフィルタ]]群を使う方法、もう1つは[[短時間フーリエ変換]](STFT)で計算する方法である。 フィルタを使った手法は主に[[アナログ]]の連続信号で使われる。信号の周波数範囲(音声信号の場合、20Hz から 20kHz)を等間隔に分ける。ただし、線型に等間隔な場合(例えば 0-100、100-200、200-300、…)と対数的に等間隔の場合(例えば 10-100、100-1000、1000-10000、…)がある。信号が各フィルタに入力されると、その周波数帯域以外の周波数成分は除去される(ただし、実際のフィルタは[[窓関数]]としては不完全なので、周囲の周波数帯域の成分が若干残る)。各フィルタの出力を時間と共に記録する。その記録を水平にしたものを周波数帯域の順番に積み重ねるように置くと、横軸を時間とし縦軸を周波数としたスペクトログラムが完成する。 [[デジタル信号]]では、STFTを使ってスペクトログラムを作成する。時間領域で[[標本化]]されたデータはチャンクに分けられ(チャンクは一般にオーバーラップさせる)、チャンク毎にフーリエ変換を施す。各チャンクの変換結果がスペクトログラムのある時間の全周波数成分のグラフ([[スペクトル]])となるので、これを垂直において時系列に並べるとスペクトログラムが完成する。 == スペクトログラムからの音響生成 == 上述の変換処理を逆に行うこともできる。以下の[[プログラム (コンピュータ)|プログラム]]はデジタル画像をスペクトログラムと解釈して音に変換できる。 * [http://www.uisoftware.com/PAGES/acceuil_meta.html MetaSynth] ([[Macintosh]]) * [https://www.abc.se/~re/Coagula/Coagula.html Coagula] ([[Microsoft Windows|Windows]]) * [http://www.coppercloudmusic.com/enscribe/ Enscribe] ([[Linux]]) * [https://arss.sourceforge.net/ The Analysis & Resynthesis Sound Spectrograph] ([[クロスプラットフォーム]]) * [http://faculty.washington.edu/dillon/PhonResources/javoice/vowjavoice2.html JavOICe] ([[Java]]アプレット) * [[FL Studio]] の "BeepMap" [[ファイル:Spectrogram - Nine Inch Nails - My Violent Heart.png|thumb|right|[[ナイン・インチ・ネイルズ]]のアルバム「イヤー・ゼロ」リーク版の最後にあるホワイトノイズ部分のスペクトログラム]] この技法を[[電子音楽]]のアーティストが利用して、音楽にスペクトログラムの画像を潜ませることがある。以下に例を挙げる。 * [[エイフェックス・ツイン]]は自身の画像をスペクトログラムとして潜ませた。''Windowlicker'' のトラック2の最後の9秒間がそれである。[[MP3]]でも認識可能だが、CDから直接スペクトログラム化したときほど鮮明ではない。同じシングルのトラック1にも螺旋の画像が潜ませてある[http://www.bastwood.com/aphex.php] 。 * [[ナイン・インチ・ネイルズ]]は2007年のアルバム「イヤー・ゼロ」でこの技法を使っている。イヤー・ゼロのリリース前にリークされた "My Violent Heart" には最後に無音の部分がある。ここをスペクトログラム化すると、空から手が伸びてきている画像が出てくる。正式リリース版では、"The Warning" という曲の最後に同じ画像がある。イヤー・ゼロには他にもいくつかの画像が潜ませてある。 [[現代音楽]]では、製作途中にスペクトログラムを使う場合がある。スペクトログラム化した状態で直接周波数や時点を指定して音の強さを変更し、再度もとの音に戻す。 == 派生 == === メルスペクトログラム === メルスペクトログラム({{lang-en-short|mel spectrogram}})は周波数軸が[[メル尺度]]のスペクトログラムである。 メルスペクトログラムは(リニア)スペクトログラムにメルフィルターバンクを適用して生成されることが多く、その場合は周波数軸の次元数が小さくなる。すなわち聴覚特性に基づいた次元圧縮としても機能するため、信号処理、特に[[ディープラーニング]]の前処理でしばしば用いられる<ref>"ニューラルボコーダはメルスペクトログラムなどの音響特徴量から音声を復元するボコーダに深層学習を適用したもの" 松原. (2021). [http://www.me.cs.scitec.kobe-u.ac.jp/publications/papers/2021/1-3-10_0129.pdf ''HiFi-GAN ボコーダにおける LPCNet 特徴量の検討'']. 日本音響学会.</ref>。 メルスペクトログラムは振幅スペクトログラムを非可逆的に変換したものであるため<ref>"メルフィルタバンクも不可逆な変換である." 以下より引用。田口. (2020). ''[[hdl:2324/4475138|深層学習を用いたデータ駆動型調音・音声間変換に関する研究]]''. 九州大学.</ref>、メルスペクトログラムから振幅スペクトログラムを厳密に再生することは出来ない。振幅スペクトログラムの推定には{{仮リンク|非負最小二乗法|en|Non-negative least squares}}や最小二乗法+クリッピングが用いられる<ref>"メルスペクトログラムから振幅スペクトルへの復元は非負拘束最小二乗法 ... によって得られる." 以下より引用。田口. (2020). ''[[hdl:2324/4475138|深層学習を用いたデータ駆動型調音・音声間変換に関する研究]]''. 九州大学.</ref><ref>"specgram = torch.relu(torch.linalg.lstsq" 以下より引用。PyTorch. ''[https://pytorch.org/audio/stable/_modules/torchaudio/transforms/_transforms.html#InverseMelScale torchaudio.transforms._transforms]''. 公式HP. 2024-06-13 閲覧.</ref>。 == 脚注 == {{脚注ヘルプ}} {{Reflist}} ==参考文献== * {{Cite journal|和書|publisher=日本音響学会 |title=短時間フーリエ変換の基礎と応用 |url=https://doi.org/10.20697/jasj.72.12_764 |author=小野順貴 |year=2016 |journal=日本音響学会誌 |volume=72 |issue=12 |pages=764-769 |doi=10.20697/jasj.72.12_764 |ref={{harvid|小野順貴(2016)}}}} == 関連項目 == * [[スペクトラムアナライザ]] * [[高速フーリエ変換]] * [[短時間フーリエ変換]] * [[ウェーブレット変換]] * [[分光器]] * [[スペクトル]] * [[音声学]] * [[コウモリ探知機]] == 外部リンク == * [http://www.christoph-lauer.de Sonogram Visible Speech] Javaで書かれたスペクトログラム生成ソフト。Java WebStart により直接ウェブページから起動できる。 * [http://www.bastwood.com/aphex.php エイフェックス・ツインのスペクトログラム画像] * [https://tfd.sourceforge.net/ DiscreteTFDs] - スペクトログラムなどを計算するソフトウェア([[MATLAB]]用) * [http://www.fon.hum.uva.nl/praat/ Praat] - 音声学用ソフトウェア * [http://www.speech.kth.se/wavesurfer/ KTH WaveSurfer] - 音声視覚化ソフトウェア * [http://www.baudline.com baudline signal analyzer] - FFTスペクトログラムソフトウェア * [http://www.xeno-canto.org xeno-canto] 3100以上の鳥の鳴き声のスペクトログラム {{DEFAULTSORT:すへくとろくらむ}} [[Category:音]] [[Category:信号処理]] [[Category:科学捜査]] [[Category:音響学]] [[Category:法科学]]
このページで使用されているテンプレート:
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Harv
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
テンプレート:仮リンク
(
ソースを閲覧
)
テンプレート:脚注ヘルプ
(
ソースを閲覧
)
スペクトログラム
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報