多項式回帰

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:回帰分析 統計学における多項式回帰(たこうしきかいき、テンプレート:Lang-en-short)とは、従属変数 y独立変数 xn多項式でモデル化する回帰分析の一手法である。多項式回帰は、従属変数と独立変数とが非線形的な関係で表現されるような場合に適しており、例えば神経組織の成長[1]、湖底堆積物中の炭素同位体の分布[2]、感染症の拡大[3]の記述に用いられてきた。多項式回帰ではデータに非線形なモデルを当てはめるが、テンプレート:仮リンクにおいては線形の問題に分類される。というのも、推定される関数が未知母数の1次式だからである。この意味で、多項式回帰は重回帰分析の特別な場合とみなされる。

"ベースライン"変数 x のべき乗によって得られる説明変数(独立変数)は高次項と呼ばれる。このような項は統計的分類の問題にも現れることがある[4]

歴史

多項式回帰では、普通最小二乗法を用いてモデルの当てはめが行われ、これにより偏回帰係数の最小分散不偏推定量が求まる(ガウス=マルコフの定理)。最小二乗法は1805年にルジャンドル、1809年にガウスによって発表された。多項式回帰を用いた最初の実験計画の例がテンプレート:仮リンクの1815年の論文に見られる[5][6]。20世紀になって回帰分析が発達し、実験計画法や推定の理論の問題が重要視される中で、多項式回帰は大きな役割を果たしてきた[7]

定義と例

シミュレーションデータセットに3次多項式の回帰曲線を当てはめた例。95%同時信頼区間シェッフェの方法によって構築されている。

回帰分析の目的は、従属変数 y を独立変数 x で説明するモデルを作ることである。テンプレート:仮リンクではモデルは

y=β0+β1x+ε

となる。ここで ε は平均が0になるような偶然誤差。このモデルでは、変数 x が1単位増加するのに伴って yβ1 だけ増加する。

多くの場面で、このような線形の関係は成り立たなくなる。例えば、化学合成における収率と温度との関係を調べると、温度1単位の上昇に伴い収率が加速度的に向上することがある。この場合、モデルに2次式を用いることが考えられる。

y=β0+β1x+β2x2+ε

このモデルでは、温度が x から x+1 に1単位上昇すると、収率は平均して β1+β2(2x+1) だけ増加し( xx+1 で置き換えて差し引く)、また微小変動 Δx による y の全変動は (β1+2β2x)Δx である。収率の変化量が x に依存しているのは非線形性の現れである。

より一般には n次多項式を用いることができ、これが多項式回帰のモデルである。

y=β0+β1x+β2x2+β3x3++βnxn+ε

行列を用いた記法と推定値の計算

多項式モデル

yi=β0+β1xi+β2xi2++βnxin+εi (i=1,2,,m)

は、計画行列 𝐗、従属変数ベクトル y、母数ベクトル β、誤差ベクトル ε を使って行列の形で表現できる。𝐗 の第 i 行目と y の第 i 成分は、第 i 番目のサンプルデータにおける xy の値から成っている。全体としては次のように1次方程式の系として書ける:

[y1y2y3ym]=[1x1x12x1n1x2x22x2n1x3x32x3n1xmxm2xmn][β0β1β2βn]+[ε1ε2ε3εm]

行列だけで書くと次のようになる。

y=𝐗β+ε

ここで、相異なる n+1 個(=未知母数の個数)以上の x に対するサンプルが得られているとする( mn+1 )。このとき行列 𝐗ヴァンデルモンドの行列式を与える正方行列を小行列として持つため、階数は最大値である n+1 となる。行列の一般論から 𝐗𝖳𝐗 の階数も n+1 になり(QR分解を参照)、𝐗𝖳𝐗 は逆行列を持つ。

よって最小二乗法の一般論から、回帰係数の推定量は

β^=(𝐗𝖳𝐗)1𝐗𝖳y

と一意的に求められる。

解釈

多項式回帰は技術的には重回帰の一種ではあるが、当てはめられた多項式の解釈にはやや異なった視点が必要である。x,x2,,xn は強く相関しているため、それらの回帰係数を個別に解釈するのは難しいことが多い。例えば xx2 は、x が区間 (0, 1) 上の一様分布に従っているなら相関係数が 0.97 である。直交多項式を使うことで相関を減少させることもできるが、当てはめた関数を全体として捉えるほうが示唆的である。各点での信頼区間・同時信頼区間は回帰関数の不確かさを表す。

代替するアプローチ

多項式回帰は、2つの量の関係を何らかの基底関数(この場合は独立変数の有限個のべき乗)で表現する回帰手法の一例である。難点は、べき乗項の非線形性から、ある点 x0 での予測値が遠く離れた点 x でのサンプルデータの影響を強く受けてしまうことである[8]。近年では、多項式回帰に別の基底関数、例えば、スプライン放射基底関数ウェーブレット等を組み合わせることもある。こうした関数族を使うことで、より少ない関数だけから多様なデータに当てはまる回帰関数を作れることがある。

多項式回帰の目的は独立変数と従属変数の間の非線形な関係をモデル化することである。これは非線形な回帰関係を捉えようとするテンプレート:仮リンクの目標とも重なるところがあり、ノンパラメトリック回帰でのテンプレート:仮リンク等の手法は多項式回帰の有力な代替になり得る。これらの手法の中には、局所的な形式での多項式回帰を利用するものもある[9]。従来型の多項式回帰の長所は、推測のフレームワークが活用できることである(これは他の基底関数、例えばスプラインを使う場合にも当てはまる)。

残る代替手法として、カーネル法によるもの(例えば、テンプレート:仮リンクを用いたサポートベクターマシンによる回帰)がある。

関連項目

テンプレート:統計学

補足

  • Microsoft Excel では、X-Y散布図のデータ点に当てはまるような多項式曲線を引くことができる[10]

脚注

テンプレート:Reflist

外部リンク

  • Curve Fitting, PhET 対話型シミュレーション(コロラド大学ボルダー校)