偏りのソースを表示
←
偏り
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{出典の明記|date=2024年3月26日 (火) 18:36 (UTC)}} {{otheruses||その他|[https://dictionary.goo.ne.jp/word/%E5%81%8F%E3%82%8A/ goo辞書「偏り」]<!-- wikt:かたより(まだない 2022.1) -->}} '''偏り'''(かたより)または'''バイアス'''({{lang-en-short|bias}})とは、[[統計学]]で2つの異なる意味に用いられる。 #[[標本 (統計学)|標本]]の偏りとは、[[母集団]]の要素が標本として平等に選ばれていないと考えられる場合をいう。 #[[推定量]]の偏りとは、推定すべき量を何らかの理由で高く、または低く推定しすぎている場合をいう。 偏りという用語は悪い意味に聞こえるが、必ずしもそうではない。偏った標本は悪いものだが、偏った推定量のよしあしは状況による。 偏りがないことを'''不偏'''(ふへん、{{lang-en-short|unbiased}})と言う。 ==標本の偏り== 母集団の一部の要素が他よりも[[標本]]として選ばれやすい場合に、標本に偏りがあるという。偏った標本は一般に誤った推定量を与える。推定する量が高い、または低いような要素が標本に多く含まれていれば結果は本当の値とは違ってしまう。 有名な例に[[1936年]]のアメリカ大統領選の予想がある。Literary Digest誌は200万人の調査から、対立候補が[[フランクリン・ルーズベルト|F.D.ルーズベルト]]候補に勝つ(57%対43%)と予想したが、[[世論調査]]会社の[[ギャラップ (企業)|ギャラップ]]社は30万人の調査からルーズベルトの勝利を予想し、結局こちらが正しかった。Literary Digestは、標本のサイズが莫大だったにもかかわらず、電話や自動車の保有者リストを元に標本を抽出したために、これらを購入できる富裕層に偏ってしまったのである。 この種の偏りは通常、統計学的な[[ノイズ]]よりも悪いものと考えられる。ノイズの問題は標本を大きくすることで軽くすることができるが、偏った標本ではそのように簡単に解決できない。[[メタアナリシス]](複数の統計調査結果をまとめてさらに解析すること)はうまく用いれば、単独ではノイズを含む調査からよりよいデータを引き出すことができるが、偏りのある調査ばかり用いてメタアナリシスをしても偏りは減らせない。このような偏りを減らすには、適切な[[標本抽出]]の手法を、個別分野の知識に基づいて利用する必要がある。 ==推定量の偏り== これは、実際に推定しようとしている量とは違うような[[平均]]値をもつ[[統計量]]を[[推定量]]として使ってしまうことをいう。逆にこの平均値が推定しようとしている量に等しい場合には、'''不偏推定量'''という。 推定量(観察データの関数)<math>\hat{\theta}</math>を使って[[母数]] ''θ'' を推定するとしよう。''θ'' の偏りは: :<math>\operatorname{E}(\hat{\theta})-\theta</math> と定義される。つまり「推定量の[[期待値]]と本当の値 ''θ'' との差」。書き換えると :<math>\operatorname{E}(\hat{\theta}-\theta)</math> つまり「推定量と本当の値 ''θ'' との差の期待値」。 例えば ''X''<sub>1</sub>, ..., ''X''<sub>''n''</sub> を独立で同じ分布に従うランダム変数でその期待値を''μ'', [[分散 (確率論)|分散]](不偏分散)を''σ''<sup>2</sup>とし、 :<math>\overline{X}=(X_1+\cdots+X_n)/n</math> を標本平均、 :<math>S^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X}\,)^2</math> を標本分散とする。すると''S''<sup>2</sup>は、''σ''<sup>2</sup>の推定量としては偏りがある。なぜなら :<math>\operatorname{E}(S^2)=\frac{n-1}{n}\sigma^2\neq\sigma^2</math> しかし標本が[[正規分布]]に従う母集団から抽出されたものならば、この「偏りのある推定量」は、普通用いられる「平均二乗誤差」という意味では、''S''<sup>2</sup>の分母 n を n-1 に変えた不偏推定量よりもよい。それでも母分散の不偏推定量の平方根は母標準偏差の不偏推定量ではない。非線形[[関数 (数学)|関数]]''f'' と母数''p'' の不偏推定量''U'' に対しては''f(U)'' は普通''f(p)'' の不偏推定量ではないからである。 偏りのある推定量が不偏推定量よりもよいという極端な例に、次のようなものがある。''X'' が期待値''λ'' の[[ポアソン分布]]に従うとしよう。推定したいのは :<math>\operatorname{P}(X=0)^2=e^{-2\lambda}\quad</math> で、不偏推定量に当てはまるただ一つの関数は :<math>\delta(X)=(-1)^X\quad</math> である。 ''X'' の観察値が100とすると、推定量は1となるが、推定する本当の量は明らかに0に近く、これは反対の極端である。さらにXの観察値が101とすると推定量は-1となってしまうが、推定する量は正でなければならないはずである。最尤推定量([[最尤法]]で求められる推定量) :<math>e^{-2X}\quad</math> (これは偏りがある)は上の不偏推定量よりもよい。なぜならその平均二乗誤差 :<math>e^{-4\lambda}-2e^{\lambda(1/e^2-3)}+e^{\lambda(1/e^4-1)}</math> は、不偏推定量の平均二乗誤差 :<math>1-e^{-4\lambda}</math> よりも小さいからである。 この平均二乗誤差は本当の値''λ'' の関数である。最尤推定量の偏りは :<math>e^{-2\lambda}-e^{\lambda(1/e^2-1)}</math> ということになる。 最尤推定量の偏りはかなり大きくなるおそれがある。例えば、1 から n まで番号を打った n 枚のカードを箱に入れた場合を考える。ランダムに1枚を取り出したところ、番号は''X'' だったとしよう。n が不明ならば、''X'' の期待値が (n+1)/2 だとしても、n の最尤推定量は''X'' であり、n は少なくとも''X'' 以上と言えるだけである。この場合、自然な不偏推定量は 2''X''-1 である。 == 関連項目 == *[[偏りと分散]] *[[正確度と精度]] {{統計学}} {{デフォルトソート:かたより}} [[Category:統計学]] [[Category:数学に関する記事]]
このページで使用されているテンプレート:
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Otheruses
(
ソースを閲覧
)
テンプレート:出典の明記
(
ソースを閲覧
)
テンプレート:統計学
(
ソースを閲覧
)
偏り
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報