デミング回帰

統計学において、デミング回帰(デミングかいき、テンプレート:Lang-en-short)とは、W・エドワーズ・デミングにちなんで名付けられた2次元データセットへのテンプレート:仮リンクを行うテンプレート:仮リンクである。テンプレート:仮リンクとはことなり、テンプレート:Mvar軸およびテンプレート:Mvar軸両方の観測誤差を考慮するモデルで、テンプレート:仮リンクの特殊ケースと考えることができる。
デミング回帰は2つの変数の誤差が独立で正規分布し、かつその分散の比テンプレート:Mvarが既知の場合の最尤推定であるテンプレート:Sfn。実用上、この比は関連するデータソースから推定されることもあるが、デミング回帰の手続きにおいてこの比の誤差については考慮しない。
デミング回帰の難易度は単純線形回帰と比較してほとんど上がらない。臨床化学において用いられる統計ソフトウェアパッケージのほとんどはデミング回帰を行うことができる。
テンプレート:Mathの場合のこのモデルはテンプレート:Harvtxtが導入した。任意のテンプレート:Mvarへの一般化はテンプレート:Harvtxtによりなされた。しかし、このアイデアは50年以上見過され、テンプレート:Harvtxtが再導入したのちテンプレート:Harvtxtによりさらに広められた。臨床化学および関連分野においてデミングの著書は特に有名となり、同分野ではこの手法はデミング回帰と呼ばれるようになったテンプレート:Sfn。
定義
回帰直線上の「真の」値テンプレート:Mathの計測値テンプレート:Mathが
のように互いに独立な誤差テンプレート:Mvarおよびテンプレート:Mvarを持ち、分散の比
が既知であるものとする。
実用上、変数テンプレート:Mvarおよびテンプレート:Mvarの分散は未知であることが多く、テンプレート:Mvarの推定は難しい。もしテンプレート:Mvarおよびテンプレート:Mvarの測定方法が同じであればそれらの分散は等しく、テンプレート:Mathとなる尤度が高い。
このとき、データ点に「もっともよくあてはまる」直線
を求めたい。
デミング回帰では、次の重みつき二乗残差テンプレート:Mvarが最小となる直線を求めるテンプレート:Sfn。
完全な導出はテンプレート:Harvtxtを参照のこと。
解
この問題の解は2次標本モーメントにより表わすことができる。すなわち、まず次の統計量を計算する(和はテンプレート:Mathについてとるものとする)。
すると、モデルパラメータの最小二乗推定値は以下のように計算できるテンプレート:Sfn。
直交回帰
誤差分散が等しい、すなわちテンプレート:Mathの場合には、デミング回帰は直交回帰と一致する。直交回帰ではデータ点から回帰直線への直交距離の二乗和を最小化する。この場合、各データ点を複素平面上の点テンプレート:Mathと表わし、データ点の幾何中心(すなわちデータ点の横軸および縦軸上の位置の平均を取った点)と各データ点との差の二乗和をと書くことにするとテンプレート:Sfn、
- テンプレート:Mathのとき、幾何中心を通るすべての直線が最適直交回帰直線である。
- テンプレート:Mathのとき、直交回帰直線は幾何中心を通り原点からテンプレート:Mathへのベクトルに平行となる。
直交回帰の三角関数表現は1913年にCoolidgeが発表したテンプレート:Sfn。
応用
平面上に、共線でない3つの点があるとき、これらの点を頂点とする三角形は一意のシュタイナーの内接楕円をもち、この楕円は三角形の各辺にその中点で接する。この楕円の長軸は3つの点の直交回帰直線と一致するテンプレート:Sfn。2つのレポーターテンプレート:仮リンクのふるまいの観測値をデミング回帰にかけることで細胞の内因テンプレート:仮リンク を定量化することも行われるテンプレート:Sfn。
人間が散布図に回帰直線を書くとき、その直線は通常の最小二乗回帰直線よりも直交回帰直線に近い[1]。
ヨーク回帰
ヨーク回帰は、デミング回帰を拡張してテンプレート:Mvarおよびテンプレート:Mvarの誤差が互いに独立でなく相関を持つ場合を扱えるようにしたものである[2]。