Q-Qプロット



Q-Qプロット(テンプレート:Lang-en-short)は、統計学における確率プロットの一つで、2つの確率分布の分位数(quantiles)を互いにプロットして比較するテンプレート:Ill2である[1]。プロット上の点 テンプレート:Math は、第1の分布の同じ分位数(テンプレート:Math座標)に対して、第2の分布の分位数(テンプレート:Math座標)の1つを対応させてプロット(打点)する。したがって、これは分位区間のインデックスをパラメータとするパラメトリック曲線を定義する。
比較している2つの分布が類似している場合、Q-Qプロットの点は、ほぼテンプレート:Ill2 テンプレート:Math 上に位置する。分布が線形関係にある場合、Q-Qプロットの点は、ほぼ直線上に位置するが、必ずしも直線 テンプレート:Math 上に位置するとは限らない。Q-Qプロットは、テンプレート:Ill2のパラメータを推定するためのグラフィカルな手法としても使用できる。
Q-Qプロットは、分布の形状を比較するために使用され、テンプレート:Ill2、尺度、歪度などの特性が2つの分布でどのように類似しているか、または異なっているかをグラフィカルに表わす。Q-Qプロットは、データの集合や理論的分布を比較するために使用することができる。Q-Qプロットの使用して2組のデータ標本を比較することは、それらの潜在的な分布を比較するノンパラメトリック手法と見なすことができる。Q-Qプロットは、2つの標本のヒストグラムを比較する一般的な手法よりも診断に役立つが、(解釈にはより多くの技量を要し)あまり広くは知られていない。Q-Qプロットは、データ集合を理論モデルを比較するためによく使用されるテンプレート:Sfnp[2]。これにより、テンプレート:Ill2を、数値的な要約統計量に還元するのではなく、グラフィカルに行うことができる。また、Q-Qプロットは、2つの理論的分布を相互に比較するためにも使用される[3]。Q-Qプロットは分布を比較するので、散布図のように値を対として観察する必要はなく、比較される2つのグループの値の数を等しくする必要もない。
「確率プロット」(テンプレート:Lang-en-short)という用語は、特にQ-Qプロットを指すこともあれば、場合によってはより一般的なプロットの種類や、またあまり一般的でないテンプレート:Ill2を指すこともある。テンプレート:Ill2(テンプレート:Lang-en-short)は、Q-Qプロットの概念から派生した量であり、観察データと適合した分布との適合度を評価し、分布をデータに適合させる手段として使用されることもある。
定義と構成

Q-Qプロットは、2つの分布の分位数を相互にプロットしたもの、または分位数の推定に基づくプロットである。プロット中の点のパターンは、2つの分布を比較するために使用される。
Q-Qプロットを作成する主な手順は、プロットする分位数を計算または推定することである。Q-Qプロットの軸の一方または両方が、連続累積分布関数(CDF)を伴う理論的分布に基づく場合、すべての分位点は一意に定義され、CDFを反転する (逆関数を求める)ことで得られる。比較される2つの分布のうちの1つが、不連続なCDFを伴う理論的確率分布である場合、分位数が定義されない場合もあるため、補間された分位数をプロットするなどで対応する。Q-Qプロットがデータに基づいている場合、複数の分位点推定量が使用される。分位数を推定または補間しなければならない場合、Q-Qプロットの作成規則はプロット位置(テンプレート:Lang-en-short)と呼ばれる。
もっとも単純なケースは、まったく同じ大きさの2つのデータ集合の比較である。この場合、Q-Qプロットを作成するために、それぞれの集合のデータを昇順に並べ、対応する値を対にしてプロットする。異なる大きさの2つのデータ集合を比較する場合はより複雑となる。この場合のQ-Qプロットを作成するには、同じ潜在的な確率に対応する分位数を作成できるよう、補間された分位数推定値を使用する必要がある。
より抽象的に言えば[3]、関連する分位関数 テンプレート:Math と テンプレート:Math (CDFの逆関数が分位関数である)を有する2つの累積確率分布関数 テンプレート:Math と テンプレート:Math が与えられると、Q-Qプロットは、テンプレート:Math の値の範囲について、テンプレート:Math の テンプレート:Math 番目の分位数に対する テンプレート:Math の テンプレート:Math 番目の分位数をプロットする。したがって、Q-Qプロットは、テンプレート:Math 上に実平面 テンプレート:Math の値でインデックス付けされたパラメトリック曲線である。
解釈
Q-Qプロットにプロットされた点は、左から右に見たとき常に非減少(単調増加)となる。比較される2つの分布が同一である場合、Q-Qプロットは45°の直線 テンプレート:Math に従う。一方の分布の値の線形変換後に2つの分布が一致する場合、Q-Qプロットは何らかの直線をたどるが、必ずしも直線 テンプレート:Math とは限らない。Q-Qプロットの傾きが直線 テンプレート:Math よりも緩やかであれば、横軸にプロットされた分布は、縦軸にプロットされた分布よりも分散が大きい。逆に、Q-Qプロットの傾きが直線 テンプレート:Math よりも急であれば、縦軸にプロットされた分布は、横軸にプロットされた分布よりも分散が大きいことになる。Q-Qプロットはしばしば湾曲あるいはS字形状であり、それぞれ、一方の分布が他方よりも歪んでいる、あるいは裾の重い分布であることを示す。
Q-Qプロットは分位数に基づく手法であるが、標準的なQ-Qプロットでは、Q-Qプロットのどの点が特定の分位数であるかを決定することはできない。たとえば、Q-Qプロットを調べて、比較されている2つの分布の一方の中央値を決定することはできない。いくつかのQ-Qプロットでは、このような決定を可能にするために十分位数を示している。
分位数間の線形回帰の切片と傾きは、標本の相対位置と相対スケールの尺度を与える。横軸にプロットされた分布の中央値が 0 である場合、回帰直線の切片は位置の尺度に対応し、傾きはスケールの尺度に対応する。中央値間の距離は、Q-Qプロットに反映される相対的位置のもう1つの尺度である。確率プロット相関係数(テンプレート:Lang-en-short)は、対をなす標本の分位数間の相関係数である。相関係数が1に近づくほど、分布はシフトし、互いに線形変換された分布に近づく。単一の形状パラメータを有する分布の場合、確率プロット相関係数プロットは、形状パラメータを推定する方法となる。形状パラメータのさまざまな値に対する相関係数を単純に計算し、異なる種類の分布を比較する場合と同様に、最も適合するものを使用する。Q-Qプロットのもう1つの一般的な用途は、正規確率プロットのように、標本の分布を標準正規分布 テンプレート:Math のような理論的分布と比較することである。2組の標本データを比較する場合と同様、データを順序付けし(形式的には順序統計量を計算する)、それらを理論的分布の特定の分位数に対してプロットする[2]。
プロット位置
理論的分布からの分位数の選択は、状況や目的に依存しうる。大きさ テンプレート:Math の標本が与えられたとき、サンプリング分布が実現する分位数であるため、テンプレート:Math に対して テンプレート:Math を用いる。最後の テンプレート:Math は、100パーセンタイル(理論的分布の最大値)に対応し、これは無限大になりうる。他にも、テンプレート:Math を使用したり、あるいは テンプレート:Math を用いて、すべての点の間、および最も外側の2点と テンプレート:Math 区間の端の間の距離が等しくなるように テンプレート:Math 点を配置する手法がある[5]。
この他にも、理論的もしくは経験的文脈を伴うシミュレーションに基づく形式的あるいは発見的なものなど、多くの手法が提案されている。以下でこれらについて説明する。より詳しい問題に、テンプレート:Ill2として知られる最大値の選択(母集団の最大値の推定)があり、これには「標本の最大値にギャップを加えた」のような解が存在し、最も単純には テンプレート:Math となる。この間隔一様化へのより形式的な応用はパラメータのテンプレート:Ill2である。
一様分布の順序統計量の期待値
テンプレート:Math を用いる手法は、(テンプレート:Math) 個の無作為に抽出した値の最後の値が、最初の テンプレート:Math 個の無作為に抽出した値の テンプレート:Math 番目に小さな値を超えない確率に従って点をプロットすることと等価である[6][7]。
標準正規分布の順序統計量の期待値
テンプレート:Ill2を使用する場合、使用される分位数は、標準正規分布の順序統計量の期待値であるランキット(rankits)である。
より一般的には、シャピロ–ウィルク検定では、与えられた分布の順序統計量の期待値を用いる。得られたプロットと回帰直線は、(近似直線の切片と傾きから)位置とスケールに関するテンプレート:Ill2推定値を与える[8]。これは正規分布ではあまり重要ではないが(位置とスケールはそれぞれ平均と標準偏差によって推定されるため)、他の多くの分布では有用となる。
しかし、これには順序統計量の期待値を計算する必要があり、分布が正規分布でない場合には困難な場合がある。
順序統計量の中央値
その代わりに、順序統計量の中央値の推定値を使うこともでき、これは一様分布の順序統計量の中央値の推定値と、その分布の分位関数に基づいて計算される。この手法は、テンプレート:Harvpによって提案された[8]。これは、分位関数を計算することができる任意の分布に対して簡単に生成できるが、逆に、得られる位置およびスケールの推定値は、テンプレート:Math が小さい場合にのみ有意に異なるものの、正確には最小二乗推定値ではない。
ヒューリスティクス
さまざまな異なる式が、アフィン対称プロット位置(テンプレート:Lang-en-short)として使用または提案されている。このような式は、0から1までの範囲にある テンプレート:Math の値に対して、テンプレート:Math の形式をしており、テンプレート:Math と テンプレート:Math の間の範囲を与える。
次のような式がある。
- テンプレート:Math
- テンプレート:Math.[9]
- テンプレート:Math.[10]テンプレート:NoteTag
- テンプレート:Math.[11]
- テンプレート:Math.テンプレート:NoteTag
- テンプレート:Math.テンプレート:NoteTag
- テンプレート:Math.テンプレート:Sfnp
- テンプレート:Math.テンプレート:NoteTag
- テンプレート:Math.[12]
- テンプレート:Math.テンプレート:Sfnp
- テンプレート:Math.テンプレート:NoteTag
サンプルサイズ テンプレート:Math が大きい場合、これらのさまざまな式の間にほとんど違いはない。
Fillibenの推定法
順序統計量中央値(テンプレート:Lang-en-short)は、その分布の順序統計の中央値である。これらは、連続一様分布の分位関数および順序統計量の中央値を使用して、次式で表現できる。
ここで、テンプレート:Math は一様順序統計量の中央値、テンプレート:Math は目的の分布についての分位関数である。分位関数は、累積分布関数(テンプレート:Math がある値以下である確率)の逆関数である。すなわち、ある確率を仮定すると、それに対応する累積分布関数の分位数が必要となる。
James J. Fillibenは、一様順序統計量の中央値を推定するために、次の式を用いたテンプレート:Sfnp。
この推定値が非直感的な形をしている理由は、順序統計中央値は単純な形状をしていないためである。
ソフトウェア
Rプログラミング言語には、Q-Qプロットを作成する関数、すなわちテンプレート:Codeパッケージのqqnormとqqplotが用意されている。テンプレート:Codeパッケージは、多数のデータ点に対する高速プロットを実装している。
関連項目
- テンプレート:Ill2(empirical distribution function)- 標本の経験的尺度に関連する分布関数(eCDFとも呼ばれる)
- プロビット(probit)- Chester Ittner Blissが1934年に提案した解析手法
脚注
注釈
引用
資料
- テンプレート:NIST-PD
- テンプレート:Citation
- テンプレート:Citation
- Cleveland, W.S. (1994) The Elements of Graphing Data, Hobart Press テンプレート:Isbn
- テンプレート:Citation
- テンプレート:Citation
- テンプレート:Cite book
- テンプレート:Citation
外部リンク
- Probability plot
- Alternate description of the QQ-Plot: http://www.stats.gla.ac.uk/steps/glossary/probability_distributions.html#qqplot
- ↑ テンプレート:Citation
- ↑ 2.0 2.1 テンプレート:Harvp
- ↑ 3.0 3.1 テンプレート:Harvp
- ↑ テンプレート:Cite web
- ↑ テンプレート:Citation
- ↑ テンプレート:Citation
- ↑ テンプレート:Citation
- ↑ 8.0 8.1 Testing for Normality, by Henry C. Thode, CRC Press, 2002, テンプレート:Isbn, p. 31
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite web
- ↑ Distribution free plotting position, Yu & Huang
- ↑ テンプレート:Citation