赤池情報量規準のソースを表示
←
赤池情報量規準
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
'''赤池情報量規準'''(あかいけじょうほうりょうきじゅん; 元々は An Information Criterion, のちに Akaike's Information Criterionと呼ばれるようになる)は、統計モデルの良さを評価するためのいくつかある[[指標]]のうちで最初に提唱されたものである。単にAICとも呼ばれ、この呼び方のほうが一般的である。[[統計学]]の世界では非常に有名な指標であり、多くの統計ソフトに備わっている。元[[統計数理研究所]]所長の[[赤池弘次]]が1971年に考案し1973年に発表した<ref>Akaike, H., "Information theory and an extension of the maximum likelihood principle", ''Proceedings of the 2nd International Symposium on Information Theory'', Petrov, B. N., and Caski, F. (eds.), Akadimiai Kiado, Budapest: 267-281 (1973).</ref>。 AICは、「モデルの[[複雑さ]]と、データとの適合度とのバランスを取る」ために使用される。例えば、ある測定データを統計的に説明するモデルを作成することを考える。この場合、[[パラメータ]]の数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な(測定対象の構造と無関係な)変動にも無理にあわせてしまうため、同種のデータには合わなくなる([[過適合]]問題、Overfitting)。この問題を避けるには、モデル化のパラメータ数を抑える必要があるが、実際にどの数に抑えるかは難しい問題である。AICは、この問題に一つの解を与える。具体的にはAIC最小のモデルを選択すれば、多くの場合、良いモデルが選択できる<ref>坂元慶行, 石黒真木夫, 北川源四郎, 情報量統計学, 共立出版 (1983).</ref>。 公式は次の通りである。 {{Indent|<math>\mathrm{AIC} = - 2 \ln L + 2 k\,</math>}} ここで<math>L</math>は最大[[尤度]]、<math>k</math>は自由パラメータの数である。 ==式の変形== AICは他にもさまざまな形で表される。 パラメータの数として局外変数(誤差の大きさを表すパラメータ)を数えない流儀があり、その場合、 {{Indent| <math>\mathrm{AIC} = - 2 \ln L + 2 (K + 1)\,</math><br /> <math>\mathrm{AIC} = - 2 \ln L + 2 K\,</math> }} となる。ここでは区別のため大文字の ''K'' を使ったが、通常は双方の「パラメータ数」の表現にはっきりした使い分けはない。AICはモデル間の互いの差のみが意味を持つため、定数項は無視し、2行目のように定義することもある。式の見かけは冒頭の式と同じだが、値は異なる。 各標本の誤差項が独立で[[確率分布]]が[[正規分布]]の場合、 {{Indent| <math>\mathrm{AIC} = \sum_{i=0}^n \ln (2 \pi \sigma_i^2) + 2 = \sum_{i=0}^n \ln \sigma_i^2 + 2 k + n \ln 2 \pi \,</math><br /> <math>\mathrm{AIC} = \sum_{i=0}^n \ln \sigma_i^2 + 2 k\,</math> }} と表せる。''n'' は標本サイズ、σ{{sub|i}} は各標本の標準誤差である。2行目は、定数項を省略した値である。 それに加えさらに、各標本の標準誤差が等しい場合は、 {{Indent| <math>\mathrm{AIC} = n \ln (2 \pi \sigma^2) + 2 k = n \ln \sigma^2 + 2 k + n \ln 2 \pi \,</math><br /> <math>\mathrm{AIC} = n \ln \sigma^2 + 2 k\,</math> }} とまで単純化できる。 ==有限修正== AICはその導出に漸近理論を使っており、標本サイズ無限を仮定している。そのため、標本サイズが小さい場合(およそ数十程度まで)ではその仮定は妥当せずに偏りが生じる。具体的には、AIC最小化によるモデル決定を行なうとパラメータ数を過大に見積もってしまう。これに対する対策を「AICの有限修正」と呼ぶ。 N. Sugiura (1978) は漸近理論を使わない不偏推定量である c-AIC を導出した<ref>Nariaki Sugiura, "Further analysts of the data by akaike' s information criterion and the finite corrections", ''Communications in Statistics - Theory and Methods'', '''7'''(1), pp. 13-26 (1978).</ref>。 {{Indent|<math>\textrm{c-AIC} = - 2 \ln L + \frac {2 k n} {n - k - 1} = \mathrm{AIC} + \frac {2 k (k + 1)} {n - k - 1} </math>}} ここで<math>n</math>はサンプルサイズである。<math>n</math>が大きくなるにつれて c-AIC は、AIC に収束してゆく。 たとえ n が小さくはなくても k / n が大きい(1に比べ十分に小さくない)場合には、一致性が成立しないため、 AIC はやはりパラメータ数を過大に見積もる。このような場合にも、c-AIC は正しい結果を出す。 ただし、c-AIC は漸近理論を使わないが、その代わりに誤差項が正規分布の一般化線形モデルを仮定している。そのため、それ以外の、たとえば誤差項が[[二項分布]]のモデルなどには適用できない。 ==他の規準との比較== しかし、AIC最小のものを選択すれば常に最良であるかと言うと一概にはそう言えない。そのため、AICの後、モデル選択規準として、[[ベイズ情報量規準|BIC]]、CIC、[[逸脱度情報量規準|DIC]]、EIC、GIC、PIC、TIC、[[広く使える情報量規準|WAIC]]、WBICなど多くの規準が提案されている。xICという名称のモデル以外では、[[最小記述長|MDL]]、[[ハンナン・クイン情報量規準|HQ]]などがある。 このうち、[[ベイズ情報量規準|BIC]](ベイズ情報量規準)、MDL(Minimum Description Length; 最小記述長)が特に有名である。ベイズモデルの予測力を測る規準として、1980年には赤池ベイズ情報量規準(ABIC)も提案され、広く用いられている。 また、GICは一般化情報量規準 (Generalized Information Criterion)で、統計的汎関数に基づいて提案された情報量規準である<ref>{{cite journal|author=Konishi, S. and Kitagawa, G. |title=Generalised information criteria in model selection|journal=Biometrika|volume=83|pages= 875–890 |year=1996|doi=10.1093/biomet/83.4.875}}</ref>。 ==参考文献== <references/> == 教科書 == (今後拡充予定) * 小西貞則、北川源四郎:「情報量規準」、朝倉書店(シリーズ 予測と発見の科学 2)、ISBN 978-4-254-12782-9 (2004年9月25日). * 樺島祥介、北川源四郎、甘利俊一、赤池弘次、下平英寿:「赤池情報量規準AIC:モデリング・予測・知識発見」、共立出版、ISBN 978-4-320-12190-4 (2007年7月6日). ※ AICとその歴史。 * 島谷健一郎:「フィールドデータによる統計モデリングとAIC」、近代科学社、ISBN 978-4-7649-0428-6 (2012年8月31日). == 関連項目 == *[[オッカムの剃刀]] == 外部リンク == *[http://www.garfield.library.upenn.edu/classics1981/A1981MS54100001.pdf This Week's Citation Classic CC/Number 51] {{統計学}} {{DEFAULTSORT:あかいけしようほうりようきしゆん}} [[Category:回帰分析]] [[Category:無次元数]] [[Category:数学のエポニム]] [[Category:数学に関する記事]] [[Category:日本の発明]]
このページで使用されているテンプレート:
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Indent
(
ソースを閲覧
)
テンプレート:Sub
(
ソースを閲覧
)
テンプレート:統計学
(
ソースを閲覧
)
赤池情報量規準
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報