線形予測符号のソースを表示

'''線形予測符号化'''（せんけいよそくふごうか、{{lang-en-short|linear predictive coding, LPC}}）は[[線形予測法]]を用いた信号の符号化である。

特に[[音響信号処理]]・[[音声処理]]における音声分析・符号化・圧縮・合成で広く利用される。

== 概要 ==
'''線形予測符号化''' ('''LPC''') は[[線形予測法]]を用いた信号の符号化である。すなわち時点 <math>t</math> の信号 <math>s_t</math> を <math>p</math> 次の過去信号 <math>s_{t-1} \sim s_{t-p}</math> の[[線形結合|<u>線形</u>結合]]を用いて<u>予測</u>し、信号を予測係数 <math>a_i</math> と予測残差 <math>\varepsilon_t</math> に<u>符号化</u>する手法である。

<math>s_t = \varepsilon_t - \sum_{i=1}^p a_i s_{t-i} </math>

区間 <math>N</math> の信号 (<math>s_1 \sim s_N</math>) が線形結合でよく表現できれば、区間中で不変な予測係数 <math>p</math> 個 (<math>a_i \sim a_p</math>) と振幅の小さい残差 <math>N</math> 個 (<math>\varepsilon_1 \sim \varepsilon_N</math>) へと信号を変換できる。残差系列に対して様々な圧縮を適用することで信号をより小さい情報量で伝達できる。この区間はしばしばフレームと呼ばれる。

例えば[[声|音声]]信号は数十ミリ秒の区間で定常性を持ち線形結合で良く表現できると経験的に知られている。残差系列の小振幅を生かして[[エントロピー符号|エントロピー符号化]]をおこなえば高効率の可逆圧縮が実現でき、残差系列のパルス性を生かして量子化をおこなえば10倍スケールの非可逆圧縮が実現できる（例: [[Code Excited Linear Prediction|CELP]]）。

LPCが効率の良い符号化を可能にしているメカニズムには様々な解釈が存在する。[[音響信号処理]]・[[音声処理]]では[[声#モデル|ヒトの音声生成モデル]]に基づいた解釈がなされる。その1つに[[ソース・フィルタモデル]]がある。すなわち残差系列を声帯励起信号として、予測係数をフォルマント特性をもつ声道として解釈するモデルである。

== 歴史 ==
線形予測（信号推定分野で）は、遅くとも Norbert Wiener が雑音に埋もれた信号を検出する最適フィルタと予測の数学理論を打ち立てた1940年代にまで遡れる。Claude Channon が信号符号化の一般理論を確立した直後の1955年には、C. Chapin Cutler, Bernard M. Oliver, Henry C. Harrison, Peter Elias らが信号の線形予測に関する論文２編を発表した。 

線形予測の音声信号への適用は、1966年に[[日本電信電話|電電公社]]の齋藤收三と板倉文忠と、1967年にベル電話研究所の Bishnu S. Atal と Manfred R. Schroeder および John Burg により独立になされた。板倉と齋藤は、最尤推定に基づく統計的手法を論じ、Atal と Schroeder は適応的線形予測を論じ、Burg は最大エントロピー原理を提案した。

1969年の[[アメリカ音響学会]]年次総会では、板倉と齋藤は部分自己相関法(PARCOR方式)、Glen Jacob Cullerはリアルタイム[[音声符号化]]、B.S. Atal はLPC[[音声符号化]]を発表した。1971年、Philco-Ford は16ビットLPCハードウェアを使ったリアルタイムLPCのデモンストレーションを行い、4台が売れたという。1970-1980年代は、LPC技術が Atal と Schroeder によって進められ、1978年には Atal と BBN の Vishwanath らは可変レートLPCアルゴリズムを開発した。同年、ベル研究所の Atal と Schroeder は、適応線形符号化(adaptive predictive coding)と呼ばれる人間の聴覚マスキング特性を利用したLPCコーデック(codec)を提案した。これは後に、オーディオ圧縮フォーマットMP3が1993年に紹介された中で用いられた知覚符号化技術の基礎となった。

LPCは VoIP (voice-over-IP) 技術の基盤でもある。1972年、[[国防高等研究計画局|ARPA]]の Bob Kahn、[[リンカーン研究所]]の Jim Forgie、[[BBNテクノロジーズ]]の Dave Walden が音声信号のパケット化の開発を開始し、後の[[VoIP]]へと繋がっていった。1973年、リンカーン研究所の非公式記録によると、Ed Hofstetter が最初のリアルタイム2400bit/s LPC を実装した。1974年には、初の実時間双方向 3500bit/s LPC パケット音声通信が [[ARPANET]] 上で Culler-Harrison とリンカーン研究所間で達成された。1976年、ARPANET上で3500bit/sの [[Network Voice Protocol]] により、 Culler-Harrison、[[情報科学研究所]]、[[スタンフォード研究所]]、リンカーン研究所を結んで、初のLPC音声会議が行われた。

== 係数表現 ==
{{Main|線形予測法#係数表現}}
LPCの線形予測係数（LP coefficients）は数学的に等価な別の形式（例: [[Log Area Ratio|ログ面積比]]、反射係数/PARCOR）で表現できる。

様々な係数表現が開発された背景にはノイズ耐性がある。LPCは符号化手法であり、生成された符号はしばしばノイズをもつ伝送路を伝達される（例: 電話）。ゆえに符号は伝送誤りに対して耐性がなければならない。しかし線形予測係数は誤りに弱いためごく小さな誤差でもスペクトル全体が歪み、悪くすると小さい誤差のために予測フィルタが不安定になることもある。ゆえにノイズ耐性に着目した係数表現が開発されてきた。

線スペクトル対 (line spectral pairs; LSP) 分解は、予測器の安定性が保証されていることと、係数の小さい変移によっておこるスペクトルの誤差は局所的であることなどから、特に好評である。

一般にLPCを利用と称していても、詳細にはLSPが用いられている方式も多い。携帯電話やスマートフォン、オーディオ符号化、テレビジョンのディジタル放送方式などで広く用いられている。LSP方式は、2014年に[[IEEEマイルストーン]]に選ばれた。

== 応用 ==
LPCは、音声の分析と再合成に広く使われていて、例えば[[GSM]]のような標準化がなされて、電話会社の音声圧縮の方式としても使われている。また、音声を[[デジタイズ|ディジタル化]]し[[暗号]]化して狭帯域伝送しても安全な無線通信にも使われ、初期の例として米国政府の [[Navajo I]] がある。

LPC合成は、歌い手の音声から推定された時変フィルタを楽器音で駆動して[[ヴォコーダ|ボコーダ]]を構成することにも使われる。これは電子音楽ではポピュラーな方法である。[[ポール・ランスキー]] の有名な[[コンピュータ音楽]] "notjustmoreidlechatter" は線形予測符号化を用いて制作された。1980年代に人気を呼んだ教育玩具 [[Speak & Spell]] は10次のLPCを使っていた[http://www.music.princeton.edu/~paul/liner_notes/morethanidlechatter.html]。

LPC予測器は Shorten, MPEG-4 ALS, FLAC, SILK audio codec, および他にもロスなしオーディオコーデックにも使われている。

[[ヤマハ]]のデジタルサンプル方式の[[シンセサイザー]]では、波形をLPCアルゴリズムで圧縮して[[Read Only Memory|ROM]]に格納している。[[FLAC]]音声コーデックでは、最大32次のLPC予測器を使っている。

LPCはバイオリンなどの弦楽器の音色分析としても関心を持たれている。

== 予測符号化 ==
LPCはより大きな枠組みである'''予測符号化'''（predictive coding）の一種である。予測符号化とは「'''予測'''を利用した効率の良い'''符号化'''」の総称である<ref>"Predictive coding is a remarkably simple concept, where prediction is used to achieve efficient coding of signals" Bishnu S. Atal. (2006). ''The History of Linear Prediction''.</ref><ref>"予測符号化とは，着目している画素（対象画素）と空間的・時間的に近い位置にある画素（参照画素）の値から，予測関数に従って対象画素の画素値を予測し，このときの予測値と実際の画素値との誤差（予測誤差）を符号化する手法の総称である．" 宮田. (2013). 4 章 予測符号化. 電子情報通信学会『知識の森』.</ref>。

予測符号化では予測器（predictor）が過去系列に基づいて現在の値を推定する。予測器が完全でない限り、実際値-推定値間には誤差/残差が発生する。逆にいえば、残差がわかれば正確な実際値がわかる。すなわち過去系列・推定器・残差が手元にあれば、算出された推定値に残差を足しこむことで実際値を復号できる<ref>"prediction error is added to the predicted value to recover the signal." Bishnu S. Atal. (2006). ''The History of Linear Prediction''.</ref>。

符号化: <math>e_t = x_t - predictor(x_{<t} | \theta)</math>

復号: <math>\hat{x}_t = predictor(\hat{x}_{<t} | \theta) + e_t</math>

このように、予測により信号を残差へ符号化し、予測により残差を信号へ復号する方式が予測符号化である。変動量の大きい信号を予測符号化により小さい残差系列へ変換、この残差系列にさらなる符号化/圧縮をかけて伝達すれば効率の良い信号伝達が可能になる<ref>"予測関数が充分に正確であれば，予測誤差は 0 や 0 に近い値をとる可能性が高く，この誤差に対して変換，量子化及びエントロピー符号化を適用することで大幅な圧縮効率の向上が期待できる．" 宮田. (2013). 4 章 予測符号化. 電子情報通信学会『知識の森』.</ref>。

LPCは予測符号化のうち、サンプル間の関係を線形と仮定したもの、すなわち <math>predictor(x_{<t} | \theta) = \sum_{k=1}^N \theta_k x_{t-k}</math> としたものである。

== 関連項目 ==
*[[音声符号化]]
*[[赤池情報量規準]]
*[[音声圧縮]]
*[[Warped Linear Predictive Coding]]

== 脚注 ==
{{脚注ヘルプ}}
{{Reflist}}

== 参考文献 ==
* [http://www-ee.stanford.edu/~gray/dl.html Robert M. Gray, IEEE Signal Processing Society, Distinguished Lecturer Program]

== 外部リンク ==
*[http://soundlab.cs.princeton.edu/software/rt_lpc/ rt_lpc] リアルタイムLPC解析/合成ソフトウェア
*[http://www.hawksoft.com/hawkvoice/ HawkVoice] オープンソースのLPCソフトウェア、およびAPI
*[http://www.engineer.tamuk.edu/SPark/chap7.pdf Chapter 7 Linear Predictive Speech Processing] Dr. Sung-won Park[http://www.engineer.tamuk.edu/spark/spark.html] Texas A&M University-Kingsville[http://www.tamuk.edu/]

{{データ圧縮}}
{{DEFAULTSORT:せんけいよそくふこう}}
[[Category:音声ファイルフォーマット]]
[[Category:データ圧縮]]
[[Category:コーデック]]
[[Category:信号処理]]
[[Category:音声処理]]