多項式回帰のソースを表示
←
多項式回帰
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{回帰分析}} [[統計学]]における'''多項式回帰'''(たこうしきかいき、{{Lang-en-short|polynomial regression}})とは、[[従属変数]] <math>y</math> を[[独立変数]] <math>x</math> の <math>n</math> 次[[多項式]]でモデル化する[[回帰分析]]の一手法である。多項式回帰は、従属変数と独立変数とが[[非線形]]的な関係で表現されるような場合に適しており、例えば神経組織の成長<ref>{{cite journal | last=Shaw | first=P | journal=Nature | doi=10.1038/nature04513 | title=Intellectual ability and cortical development in children and adolescents | volume=440 | year=2006 | pages=676–679 | pmid=16572172 | issue=7084|display-authors=etal}}</ref>、湖底堆積物中の炭素同位体の分布<ref>{{cite journal | last=Barker | first=PA | year=2001 | doi=10.1126/science.1059612 | journal=Science | title=A 14,000-Year Oxygen Isotope Record from Diatom Silica in Two Alpine Lakes on Mt. Kenya | volume=292 | pages=2307–2310 | pmid=11423656 | last2=Street-Perrott | first2=FA | last3=Leng | first3=MJ | last4=Greenwood | first4=PB | last5=Swain | first5=DL | last6=Perrott | first6=RA | last7=Telford | first7=RJ | last8=Ficken | first8=KJ | issue=5525}}</ref>、感染症の拡大<ref>{{cite journal | doi=10.1097/00001648-199507000-00005 | last=Greenland | first=Sander | year=1995 | journal=Epidemiology | pages=356–365 | title=Dose-Response and Trend Analysis in Epidemiology: Alternatives to Categorical Analysis | volume=6 | jstor=3702080 | issue=4 | publisher=Lippincott Williams & Wilkins | pmid=7548341}}</ref>の記述に用いられてきた。多項式回帰ではデータに非線形なモデルを当てはめるが、{{仮リンク|推定理論|en|Estimation theory}}においては線形の問題に分類される。というのも、推定される関数が未知[[母数]]の1次式だからである。この意味で、多項式回帰は[[重回帰分析]]の特別な場合とみなされる。 "ベースライン"変数 <math>x</math> のべき乗によって得られる説明変数(独立変数)は高次項と呼ばれる。このような項は[[分類 (統計学)|統計的分類]]の問題にも現れることがある<ref name="Chang2010">{{cite journal |author1=Yin-Wen Chang |author2=Cho-Jui Hsieh |author3=Kai-Wei Chang |author4=Michael Ringgaard |author5=Chih-Jen Lin |year=2010 |url=http://jmlr.csail.mit.edu/papers/v11/chang10a.html |title=Training and testing low-degree polynomial data mappings via linear SVM |journal=[[Journal of Machine Learning Research]] |volume=11 |pages=1471–1490}}</ref>。 == 歴史 == 多項式回帰では、普通[[最小二乗法]]を用いてモデルの当てはめが行われ、これにより偏回帰係数の最小分散不偏推定量が求まる([[ガウス=マルコフの定理]])。最小二乗法は1805年に[[アドリアン=マリ・ルジャンドル|ルジャンドル]]、1809年に[[カール・フリードリヒ・ガウス|ガウス]]によって発表された。多項式回帰を用いた最初の[[実験計画法|実験計画]]の例が{{仮リンク|ジョセフ・ディエ・ジェルゴンヌ|en|Joseph Diaz Gergonne|fr|Joseph Diez Gergonne}}の1815年の論文に見られる<ref>{{cite journal | title=The application of the method of least squares to the interpolation of sequences |author=[[Joseph Diaz Gergonne|Gergonne, J. D.]] |journal=Historia Mathematica |volume=1 | issue=4 |date=November 1974 |origyear=1815 |pages=439–447 |edition=Translated by Ralph St. John and [[Stephen M. Stigler|S. M. Stigler]] from the 1815 French | doi=10.1016/0315-0860(74)90034-2 | url=http://www.sciencedirect.com/science/article/B6WG9-4D7JMHH-20/2/df451ec5fbb7c044d0f4d900af80ec86}}</ref><ref>{{cite journal | title=Gergonne's 1815 paper on the design and analysis of polynomial regression experiments | author=[[Stephen M. Stigler|Stigler, Stephen M.]] |journal=Historia Mathematica | volume=1 |issue=4 |date=November 1974 |pages=431–439 | doi=10.1016/0315-0860(74)90033-0|url=http://www.sciencedirect.com/science/article/B6WG9-4D7JMHH-1Y/2/680c7ada0198761e9866197d53512ab4}}</ref>。20世紀になって[[回帰分析]]が発達し、実験計画法や推定の理論の問題が重要視される中で、多項式回帰は大きな役割を果たしてきた<ref>{{cite journal | author=[http://www.webdoe.cc/publications/kirstine.php Smith, Kirstine] |title=On the Standard Deviations of Adjusted and Interpolated Values of an Observed Polynomial Function and its Constants and the Guidance They Give Towards a Proper Choice of the Distribution of the Observations | year=1918 |journal=Biometrika | volume=12 | issue=1/2 | pages=1–85 | jstor=2331929 | doi=10.2307/2331929}}</ref>。 == 定義と例 == [[Image:Polyreg scheffe.svg|thumb|325px|シミュレーションデータセットに3次多項式の回帰曲線を当てはめた例。95%同時[[信頼区間]]は[[シェッフェの方法]]によって構築されている。]] 回帰分析の目的は、従属変数 <math>y</math> を独立変数 <math>x</math> で説明するモデルを作ることである。{{仮リンク|単回帰|en|Simple linear regression}}ではモデルは :<math> y = \beta_0 + \beta_1 x + \varepsilon </math> となる。ここで <math>\varepsilon</math> は平均が0になるような偶然誤差。このモデルでは、変数 <math>x</math> が1単位増加するのに伴って <math>y</math> は <math>\beta_1</math> だけ増加する。 多くの場面で、このような線形の関係は成り立たなくなる。例えば、化学合成における[[収率]]と温度との関係を調べると、温度1単位の上昇に伴い収率が加速度的に向上することがある。この場合、モデルに2次式を用いることが考えられる。 :<math> y = \beta_0 + \beta_1x + \beta_2 x^2 + \varepsilon </math> このモデルでは、温度が <math>x</math> から <math>x+1</math> に1単位上昇すると、収率は平均して <math>\beta_1+\beta_2(2x+ 1)</math> だけ増加し( <math>x</math> を <math>x+1</math> で置き換えて差し引く)、また微小変動 <math>\Delta x</math> による <math>y</math> の全変動は <math>(\beta_1+2\beta_2x) \Delta x</math> である。収率の変化量が <math>x</math> に依存しているのは非線形性の現れである。 より一般には ''n''次多項式を用いることができ、これが多項式回帰のモデルである。 :<math> y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + \cdots + \beta_n x^n + \varepsilon </math> ==行列を用いた記法と推定値の計算== 多項式モデル :<math>y_i \,=\, \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \cdots + \beta_n x_i^n + \varepsilon_i\ (i = 1, 2, \dots , m) </math> は、計画行列 <math>\mathbf{X}</math>、従属変数ベクトル <math>\vec y</math>、母数ベクトル <math>\vec \beta</math>、誤差ベクトル <math>\vec\varepsilon</math> を使って行列の形で表現できる。<math>\mathbf{X}</math> の第 <math>i</math> 行目と <math>\vec y</math> の第 <math>i</math> 成分は、第 <math>i</math> 番目のサンプルデータにおける <math>x</math> と <math>y</math> の値から成っている。全体としては次のように1次方程式の系として書ける: :<math> \begin{bmatrix} y_1\\ y_2\\ y_3 \\ \vdots \\ y_m \end{bmatrix}= \begin{bmatrix} 1 & x_1 & x_1^2 & \dots & x_1^n \\ 1 & x_2 & x_2^2 & \dots & x_2^n \\ 1 & x_3 & x_3^2 & \dots & x_3^n \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_m & x_m^2 & \dots & x_m^n \end{bmatrix} \begin{bmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \vdots \\ \beta_n \end{bmatrix} + \begin{bmatrix} \varepsilon_1\\ \varepsilon_2\\ \varepsilon_3 \\ \vdots \\ \varepsilon_m \end{bmatrix} </math> 行列だけで書くと次のようになる。 : <math>\vec y = \mathbf{X} \vec \beta + \vec\varepsilon</math> ここで、相異なる <math>n+1</math> 個(=未知母数の個数)以上の <math>x</math> に対するサンプルが得られているとする( <math>m \ge n+1</math> )。このとき行列 <math>\mathbf{X}</math> は[[ヴァンデルモンドの行列式]]を与える正方行列を[[小行列]]として持つため、階数は最大値である <math>n+1</math> となる。行列の一般論から <math>\mathbf{X}^\mathsf{T} \mathbf{X}</math> の階数も <math>n+1</math> になり([[QR分解]]を参照)、<math>\mathbf{X}^\mathsf{T} \mathbf{X}</math> は逆行列を持つ。 よって最小二乗法の一般論から、回帰係数の推定量は : <math>\widehat{\vec \beta} = (\mathbf{X}^\mathsf{T} \mathbf{X})^{-1}\; \mathbf{X}^\mathsf{T} \vec y</math> と一意的に求められる。 ==解釈== 多項式回帰は技術的には重回帰の一種ではあるが、当てはめられた多項式の解釈にはやや異なった視点が必要である。<math>x,x^2,\ldots,x^n</math> は強く相関しているため、それらの回帰係数を個別に解釈するのは難しいことが多い。例えば <math>x</math> と <math>x^2</math> は、<math>x</math> が区間 (0, 1) 上の[[一様分布]]に従っているなら相関係数が 0.97 である。[[直交多項式]]を使うことで相関を減少させることもできるが、当てはめた関数を全体として捉えるほうが示唆的である。各点での信頼区間・同時信頼区間は回帰関数の不確かさを表す。 ==代替するアプローチ== 多項式回帰は、2つの量の関係を何らかの[[基底関数]](この場合は独立変数の有限個のべき乗)で表現する回帰手法の一例である。難点は、べき乗項の非線形性から、ある点 <math>x_0</math> での予測値が遠く離れた点 <math>x</math> でのサンプルデータの影響を強く受けてしまうことである<ref> Such "non-local" behavior is a property of [[Analytic function#Properties of analytic functions|analytic function]]s that are not constant (everywhere). Such "non-local" behavior has been widely discussed in statistics: *{{cite journal | doi=10.2307/2685560 | last=Magee | first=Lonnie | journal=The American Statistician | title=Nonlocal Behavior in Polynomial Regressions | volume=52 | year=1998 | jstor=2685560 | pages=20–22 | issue=1 | publisher=American Statistical Association}}</ref>。近年では、多項式回帰に別の基底関数、例えば、[[スプライン曲線|スプライン]]、[[放射基底関数]]、[[ウェーブレット]]等を組み合わせることもある。こうした関数族を使うことで、より少ない関数だけから多様なデータに当てはまる回帰関数を作れることがある。 多項式回帰の目的は独立変数と従属変数の間の非線形な関係をモデル化することである。これは非線形な回帰関係を捉えようとする{{仮リンク|ノンパラメトリック回帰|en|Nonparametric regression}}の目標とも重なるところがあり<!-- ; nonparametric regression is als useful when the error distribution is unknown (and not just for possibly non-Gaussian error distributions)-->、ノンパラメトリック回帰での{{仮リンク|平滑化|en|Smoothing}}等の手法は多項式回帰の有力な代替になり得る。これらの手法の中には、局所的な形式での多項式回帰を利用するものもある<ref>{{cite journal | last=Fan | first=Jianqing | year=1996 | title=Local Polynomial Modelling and Its Applications: From linear regression to nonlinear regression | series=Monographs on Statistics and Applied Probability | publisher=Chapman & Hall/CRC. | isbn=0-412-98321-4}}</ref>。従来型の多項式回帰の長所は、推測のフレームワークが活用できることである(これは他の基底関数、例えばスプラインを使う場合にも当てはまる)。 残る代替手法として、カーネル法によるもの(例えば、{{仮リンク|多項式カーネル|en|polynomial kernel}}を用いた[[サポートベクターマシン]]による回帰)がある。 ==関連項目== *[[曲線当てはめ]] *[[線形回帰]] *[[局所回帰]] *{{仮リンク|有理式モデル|en|Polynomial and rational function modeling}} *[[多項式補間]] *{{仮リンク|応答曲面法|en|Response surface methodology}} *[[平滑化スプライン]] {{統計学}} ==補足== * Microsoft Excel では、X-Y散布図のデータ点に当てはまるような多項式曲線を引くことができる<ref>{{cite web|last1=Stevenson|first1=Christopher|title=Tutorial: Polynomial Regression in Excel|url=https://facultystaff.richmond.edu/~cstevens/301/Excel4.html|website=facultystaff.richmond.edu|accessdate=22 January 2017}}</ref>。 == 脚注 == {{Reflist|30em}} ==外部リンク== *[https://phet.colorado.edu/en/simulation/curve-fitting Curve Fitting], [[PhET]] 対話型シミュレーション(コロラド大学ボルダー校) {{DEFAULTSORT:たこうしきかいき}} [[Category:統計学]] [[Category:統計モデル]] [[Category:数学に関する記事]]
このページで使用されているテンプレート:
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Cite web
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
テンプレート:仮リンク
(
ソースを閲覧
)
テンプレート:回帰分析
(
ソースを閲覧
)
テンプレート:統計学
(
ソースを閲覧
)
多項式回帰
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報