最頻値のソースを表示

[[統計学]]における'''最頻値'''（さいひんち）または'''モード'''（{{lang-en-short|mode}}）とは、データや[[確率分布]]で頻度（度数、確率）が最大の値のことである<ref>{{Cite book |last=Butler|first=Gregory|editor-first=Neil |editor-last=Salkind |title=Encyclopedia of researchL design |publisher=Sage |year=2010 |pages=140-142 |chapter=Mode |isbn=978-1-4129-6127-1}}</ref>。（データ上で最も出てくる頻度が高い数値）[[日本産業規格]]では、「離散分布の場合は確率関数が，連続分布の場合は密度関数が，最大となる確率変数の値。分布が多峰性の場合は，それぞれの極大値を与える確率変数の値」<ref>[[JIS Z 8101]]-1 : 1999 [[統計]] − 用語と記号 − 第1部:[[確率]]及び一般統計用語 1.11 最頻値, [[日本規格協会]], http://kikakurui.com/z8/Z8101-1-1999-01.html</ref>と定義している。

最頻値は[[平均]]値や[[中央値]]と併せて、データ、確率分布の[[要約統計量|代表値]]の一つである<ref>西岡康夫、数学チュートリアル やさしく語る 確率統計,1.3 代表値 p.5, オーム社, 2013, ISBN  9784274214073</ref><ref>[[伏見康治]]「[[確率論及統計論]]」第III章 記述統計量 13節  確率分布、統計分布 p.110 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204</ref>。最頻値は一般に平均や中央値とは異なり、特に[[歪度]]の大きい分布では大きく異なることがある。

最頻値は一意とは限らない。[[一様分布]]は全ての値が最頻値となる。

== 確率分布の最頻値 ==
[[離散確率分布]]の最頻値は、[[確率質量関数]]が最大となる値である。言い換えれば、標本として最も頻繁に出現しやすい値である。[[連続確率分布]]の最頻値は、[[確率密度関数]]が最大となる値であり、大まかに言えばそのピークとなる値である。先述の通り、最頻値は一意とは限らず、確率質量関数や確率密度関数が複数の地点で最大となることもある。

先述の定義から全域的最大値が最頻値だとわかる。若干困惑させるが、確率密度関数が複数の[[極値]]をもつとき、それぞれをその分布の最頻値とすることもある。そのような連続確率分布を「多峰性分布」、そうでないものを「単峰性分布」と呼ぶ。

[[正規分布]]などの[[線対称]]な単峰性分布では、平均、中央値、最頻値が全て一致する。例えば、線対称な分布に従っていると判明していれば、標本群の平均を母集団の最頻値の推定値として使うことができる。

== 標本の最頻値 ==
標本データの最頻値は、その中で最も頻繁に出現する値を意味する。例えば [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] という標本群の最頻値は6である。[1, 1, 2, 4, 4] というデータでは最頻値は一意に定まらない。そのようなデータ群を「二峰性 ({{lang-en-short|bimodal}})」と呼び、最頻値が2つよりも多ければ「多峰性 ({{lang-en-short|multimodal}})」と呼ぶ。

連続確率分布の標本は [0.935..., 1.211..., 2.430..., 3.668..., 3.874...] のようになり、正確に同じ値が出現することはないため、そのままの定義では最頻値を求められない。この場合一般に、値の範囲を等間隔の[[区間 (数学)|区間]]に分割し、[[ヒストグラム]]を作成することで区間ごとの頻度を求め、区間の中央の値でその区間を代表させる。したがって最頻値はヒストグラムのピークの値ということになる。サンプルサイズが小さい場合、区間の幅をどう選択するかで値が大きく変わってくる。一般に各区間のサンプルをある程度以上確保するために区間数を少なくする。もう1つの手法として[[カーネル密度推定]]があるが、これは本質的に標本値をぼやけさせて確率密度関数を連続的に推定するもので、それによって最頻値を提供できる。

次の[[MATLAB]]のコード例は、標本群から最頻値を計算するものである。
<syntaxhighlight lang="matlab">
X = sort(x);
indices   =  find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] =  max (diff([0; indices]));     % longest persistence length of repeated values
mode      =  X(indices(i));
</syntaxhighlight>
このアルゴリズムでは、まず標本群を昇順に[[ソート]]する必要がある。次いでソートされたリストの離散微分係数を計算し、その微分係数が正となるインデックス群 (indices) を求める（つまり、値が上がっている位置を求める）。次にそのインデックス列の離散微分係数を計算し、それが最大となっている位置を求める（つまり、同じ値が長く続いているほどインデックスの差が大きくなり、微分係数が大きくなる）。

== 平均値、中央値、最頻値の比較 ==
{{See also|算術平均|中央値}}
<center>
{|style="border:1px solid black"|
|style="border:1px solid black;padding:5px; text-align:center;background:#E69F7C" colspan="5"| '''[[要約統計量|代表値]]の比較'''
|-
|style="border:1px solid black;padding:2px;text-align:left;width:115px"|'''種類'''
|style="border:1px solid black;padding:2px;text-align:center;width:475px"|'''意味'''
|style="border:1px solid black;padding:2px;text-align:center"|'''式'''
|style="border:1px solid black;padding:2px;text-align:center;width:170px"|'''例'''
|style="border:1px solid black;padding:2px;text-align:center"|'''結果'''
|-
|style="border:1px solid black;padding:2px;text-align:left"|[[算術平均]]
|style="border:1px solid black;padding:2px;text-align:center"|総和をサンプルサイズで割ったもの
|style="border:1px solid black;padding:2px;text-align:center"|<math>\scriptstyle\bar{x} = \frac{1}{n}\sum\limits_{i=1}^n x_i = \frac{1}{n} (x_1+\cdots+x_n)</math>
|style="border:1px solid black;padding:2px;text-align:center"|(1+2+2+3+4+7+9) / 7
|style="border:1px solid black;padding:2px;text-align:center"|'''4'''
|-
|style="border:1px solid black;padding:2px;text-align:left"|[[中央値]]
|style="border:1px solid black;padding:2px;text-align:center"|標本群を昇順に並べたとき中央に位置する値
|style="border:1px solid black;padding:2px;text-align:center"|
|style="border:1px solid black;padding:2px;text-align:center"|1, 2, 2, '''3''', 4, 7, 9
|style="border:1px solid black;padding:2px;text-align:center"|'''3'''
|-
|style="border:1px solid black;padding:2px;text-align:left"|最頻値
|style="border:1px solid black;padding:2px;text-align:center"|標本群で最も頻繁に出現する値
|style="border:1px solid black;padding:2px;text-align:center"|
|style="border:1px solid black;padding:2px;text-align:center"|1, '''2''', '''2''', 3, 4, 7, 9
|style="border:1px solid black;padding:2px;text-align:center"|'''2'''
|}
</center>

=== これらの値の意味 ===
平均や中央値とは異なり、最頻値の概念は「[[尺度水準|名義尺度]]」（数値以外のデータからなる場合）においても意味がある。例えば日本で姓の標本を採取すると、「佐藤」という姓が他の姓より頻繁に出現するだろう。したがってこの場合の最頻値は「佐藤」となる。得票数が最も多い人が勝ちとなる投票方式では、最頻値が1つに定まることで勝者が決まり、多峰性の分布になると引き分けとなってしまう。

中央値とは異なり、平均は何らかの[[ベクトル空間]]の値をとる確率変数でも意味がある。このベクトル空間にはもちろん、[[実数]]（1[[次元]]のベクトル空間）や[[整数]]も含まれる。例えば、[[平面]]上に分布する点群において平均や最頻値は存在するが、中央値の概念は適用されない。中央値は、とりうる値に線型順序が存在する場合に意味を持つ。中央値の概念を高次元の空間に一般化したものとして、{{ill|幾何学的中央値|en|geometric median}}と{{ill|中央点|en|centerpoint (geometry)}}がある。

=== 一意性と定義性 ===
一部の確率分布において、期待値は無限だったり未定義だったりすることもあるが、存在する場合は一意に定まる。（有限の）標本群では平均は常に定義される。中央値は、それより小さい標本の数とそれを越える標本の数が共に2分の1となる値である。一意とは限らないが、無限になったり未定義となることはない。標本群を昇順に並べたとき、その真ん中の値が中央値であり、サンプルサイズが偶数の場合は真ん中に最も近い2つの標本の平均を中央値とする。最頻値は前述の通り一意に定まるとは限らない。例えば[[カントール分布]]のような病的な ([[:en:pathological (mathematics)|pathological]]) 分布では、最頻値は全く定義されない{{要出典|date=November 2010}}。サンプルサイズが有限であれば、最頻値は標本内のいずれかの値に定まる（1つとは限らない）。

=== 特性 ===
定義性と単純化のための一意性を仮定すると、次のような特性が存在する。
* これら3つの値には次の特性がある。確率変数（または標本群のそれぞれの値） ''X'' の[[アフィン写像]] ''aX''+''b'' を求めたとき、変換後の平均値・中央値・最頻値も同じ変換で得られる。
* 任意の[[単調写像|単調な]]変換を施したとき、同様に変換に従うのは中央値のみである。例えば、''X'' を exp(''X'') に変換すると、中央値 ''m'' は exp(''m'') となるが、平均と最頻値はそうならない。
* サンプルサイズが極端に小さい場合を除けば、最頻値は「[[外れ値]]」に鈍感である。中央値も外れ値に強いが、平均値はやや敏感である。
* 連続な単峰性分布では、経験則として、平均値から最頻値の方に3分の1ほどのところに中央値がある。式で表すと「中央値 ≈ (2 &times; 平均値 + 最頻値)/3」となる。[[カール・ピアソン]]の経験則と呼ばれ、正規分布に近いやや非対称の分布に適用されるが、常に真ではなく、3つの値が並ぶ順序は様々である<ref>{{Cite web|url=http://www.btinternet.com/~se16/hgb/median.htm|title=Relationship between the mean, median, mode, and standard deviation in a unimodal distribution|archiveurl=https://archive.is/20120720160801/http://www.btinternet.com/~se16/hgb/median.htm|archivedate=2012-07-20|accessdate=2012-07-20|url-status=dead|url-status-date=2017-10}}</ref><ref>Paul T. von Hippel. ''[http://www.amstat.org/publications/jse/v13n2/vonhippel.html Mean, Median, and Skew: Correcting a Textbook Rule]''. J. of Statistics Education 13:2 (2005)</ref>。
* 単峰性分布では、最頻値は平均値から標準偏差の <math>\sqrt{3}</math> の範囲内にあり、最頻値の二乗平均偏差は標準偏差と標準偏差の2倍の間にある<ref>[https://web.archive.org/web/20061110032627/http://www.btinternet.com/~se16/hgb/mode.pdf Maximum distance between the mode and the mean of a unimodal distribution]</ref>。

=== 歪度の高い分布における例 ===
[[歪度]]の高い分布としてよく知られている例として「富の分布」がある。富裕層の方が少なく、中でも大富豪はさらに少なく、大部分は貧困層に分類される。

歪度を恣意的に変化させられる確率分布として、[[対数正規分布]]がよく知られている。正規分布の確率変数 ''X'' を ''Y'' = exp(''X'') となる確率変数 ''Y'' に変換することで得られる。この確率変数 ''Y'' の対数をとると正規分布となるため、このように呼ばれている。

''X'' の平均 μ を0としたとき、''Y'' の中央値は 1 となり、''X'' の[[標準偏差]] σ には依存しない。これは ''X'' が線対称の分布であるためで、その中央値も標準偏差によらず常に 0 である。''X'' から ''Y'' への変換は単調であり、''Y'' の中央値は exp(0) = 1 となる。

''X'' の標準偏差 σ = 0.2 のとき、''Y''の分布の歪度はあまり高くない。小数点以下4桁まで求めると次のようになる（計算方法は[[対数正規分布]]を参照）。
* 平均 = 1.0202
* 最頻値 = 0.9608
中央値は平均から最頻値までの3分の1ほどの位置となる。

''X'' の標準偏差がずっと大きく σ = 5 の場合、''Y'' の分布の歪度は大きくなる。この場合、次のような値となる。
* 平均 = 7.3891
* 最頻値 = 0.0183
この場合、ピアソンの経験則は成り立たない。

== 脚注 ==
{{Reflist}}

== 参考文献 ==
* {{Cite book|和書|author=西岡康夫|year=2013|title=数学チュートリアル やさしく語る 確率統計|publisher=[[オーム社]]|isbn=9784274214073}}
* {{Cite book|和書|author=伏見康治|authorlink=伏見康治|year=1942|title=[[確率論及統計論]]|publisher=[[河出書房]]|isbn=9784874720127|url= http://ebsa.ism.ac.jp/ebooks/ebook/204}}
* {{Cite book|和書|author=日本数学会|authorlink=日本数学会|year=2007|title=数学辞典|publisher=[[岩波書店]]|isbn=9784000803090}}
* [[JIS Z 8101]]-1:1999 [[統計]] − [[用語]]と[[記号]] − 第1部:[[確率]]及び一般統計用語, [[日本規格協会]], http://kikakurui.com/z8/Z8101-1-1999-01.html


== 関連項目 ==
* [[確率論]]
* [[統計学]]
* [[統計量]]
* [[要約統計量]]・[[代表値]]
** [[平均]]
** [[中央値]]
* [[モーメント (数学)]]

== 外部リンク ==
* [http://www.stats4students.com/Essentials/Measures-Central-Tendency/Overview_2.php A Guide to Understanding & Calculating the Mode]
* {{MathWorld| urlname=Mode | title=Mode}}

{{統計学}}

{{DEFAULTSORT:さいひんち}}
[[Category:平均]]
[[Category:統計量]]
[[Category:数学に関する記事]]