中央値のソースを表示
←
中央値
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{出典の明記| date = 2023-11}} {{Expand English|Median|date=2024年5月}} '''中央値'''(ちゅうおうち、{{lang-en-short|median}})あるいは'''メジアン'''、'''メディアン'''とは、[[データ]]や[[集合]]の[[要約統計量|代表値]]の一つで、順位が中央である値のことである。ただし、データの大きさが偶数の場合は、中央順位2個の値の[[算術平均]]をとる。 例えば5人の年齢10歳、32歳、96歳、100歳、105歳からなるデータの中央値は、順位が上からも下からも3である96(歳)となる。0歳の子供が2人増えて7人になると、中央値は32歳となる。 == 平均値との関係 == [[画像:Visualisation mode median mean-ja.svg|200px|thumb|[[最頻値]]・中央値・[[平均値]]の図示]] 中央値は[[算術平均|平均値]]と同様に集団の代表値を得る目的で使う。例えば年収からなるデータの場合を考えてみると分かりやすい。 一部の富裕層が平均年収をつり上げてしまう例を考える。人口100人の集落で、90人が年収200万円だとしても、10人が年収5000万円であれば平均年収は680万円となる。 一方中央値は、年収が低い順(高い順)に国民を並べたときにちょうど真ん中になる人の年収を表している。この場合、中央値はあいかわらず200万円であり、一部の富裕層の年収が中央値に与える影響はない。 例えば1人の億万長者が人口の少ない町に引っ越してくれば平均年収はつり上がってしまうが、年収の中央値はせいぜい1順位上がるに過ぎない。 == 厳密な定義 == 実[[確率変数]] {{mvar|X}} の[[累積分布関数]]を {{math|''F''(''x'')}} とするとき、 {{math|''F''(''x'')}} は実数値非[[単調減少関数]]、右[[連続関数]]となる。この時、次の不等式を満たす実数 {{mvar|m}} を中央値(メディアン)と呼ぶ。 :<math>\int_{-\infty}^m \mathrm{d}F(x) \geq \frac{1}{2}\text{ and }\int_m^{\infty} \mathrm{d}F(x) \geq \frac{1}{2}\,\!</math> ただし、積分記号は[[リーマン=スティルチェス積分]]の意味である。 データの大きさが有限値({{mvar|n}} とする)である場合は、以下のように簡単に記述することができる。(ただし、同一の順位が無いと仮定する。) データの値を {{math2|''x''{{sub|1}}, ''x''{{sub|2}}, …, ''x{{sub|n}}''}} とする。それらを小さい順に並べ替えたものを {{math2|''x''′{{sub|1}}, ''x''′{{sub|2}}, …, ''x′{{sub|n}}''}} とするとき、<math>\boldsymbol{x} =(x_1, x_2, \cdots , x_n)</math> の中央値 <math>\mathrm{Q}_{\frac{1}{2}}(x)</math> は :<math>\mathrm{Q}_{\frac{1}{2}}(x) = \begin{cases} x'_{\frac{n+1}{2}} &n \text{ は 奇 数 } \\ \dfrac{1}{2}( x'_{\frac{n}{2}} + x'_{\frac{n}{2}+1}) &n \text{ は 偶 数 } \end{cases}</math> により定義される。なお、単純に <math>\mathrm{Q}_{\frac{1}{2}}(x) = x_{\frac{n}{2}}</math> とならないのは、<math>x</math> の添字が {{math2|0, …, ''n''}} ではなく {{math2|1, …, ''n''}} だからである。 中央値は{{ill|平均絶対誤差|en|Mean absolute error}} (mean absolute error, MAE) :<math>\operatorname{MAE}(t) = \frac{1}{n} \sum_{i=1}^{n} |x_i-t|</math> を最小にする性質をもっている(ただし、そうなる値は一意ではない)。データの大きさが偶数のときは、その値 {{mvar|t}} は一意には定まらないが便宜上、上で述べた定義を採用する。 == 平均値との関係(数式的なもの) == * 分布が対称であるデータに対しては、中央値は[[算術平均|平均値]]に等しい。ただし、分布が対称でなくても、中央値と平均値が等しくなることもある。 * 以下の性質により、平均値よりも、全体の傾向を表す代表値として適切である場合が多い。 ** 平均値は、測定ミスなどによって発生する[[外れ値]](他の値より著しく異なる値)に大きく影響され、誤差が大きくなったり、無意味な値となることがある。そのため、[[刈り込み]]、[[ロバスト統計]]などの対策が必要になる。しかし、中央値は外れ値にほとんど影響されないので、対策は不要である。 ** たとえばデータが正値のみといったように限定されている場合、そうでない場合と比べて分布はより非対称になりやすく、少数の大きな値に引きずられて平均値は大多数の分布より大きくずれることがある。しかし、中央値ではそういった影響はほとんどない。 ** <math>\pm \infty</math> を含むデータに対しても中央値は有限となることがある。(平均値は、必ず無限または不定となる) ** 分布の谷に位置するようなケースが、平均値に比べて少ない。(平均値は、2峰分布に対ししばしば谷に位置する) * 中央値を求めるには、線形汎用[[選択アルゴリズム]]を使うと<math>\mathrm{O}(n)</math> の計算量で求められる(平均値も <math>\mathrm{O}(n)</math>)。逐次データが得られる場合は全てのデータを保持しておく必要があり、<math>\mathrm{O}(n)</math> のメモリを要する(平均値は <math>\mathrm{O}(1)</math>)。 * 代表値として平均値を使うときは、分布の広がりは[[分散 (確率論)|分散]]または[[標準偏差]]で表すことが多い。それに対し、代表値として中央値を使うときは、分布の広がりは第3[[四分位点]]と第1四分位点の差である[[分位数|四分位範囲]]({{lang-en-short|interquartile range, IQR}})で表すことが多い。 == その他の性質 == * 誤差はデータの誤差と同程度である。(平均値の誤差はデータの誤差の <math>\frac{1}{\sqrt n}</math> 倍である) * 中央値は、第2四分位数、50[[パーセンタイル]]、0.5[[クォンタイル]]でもある。 == 確率分布の中央値 == 1次元の[[確率分布]] {{math|''f''(''x'')}} に対し、 : <math>\int_{-\infty}^m f(x)\, \mathrm{d}x \ge \frac{1}{2} \; \mathrm{and} \; \int_m^\infty f(x)\, \mathrm{d}x \ge \frac{1}{2}</math> を満たす {{mvar|m}} を、中央値と呼ぶ。 == 関連項目 == * [[要約統計量]] * [[箱ひげ図]] * [[順序統計量]] * [[ホッジス・レーマン推定量]] * {{仮リンク|幾何中央値|label=幾何学的中央値|en|geometric median}} == 外部リンク == * {{Kotobank}} {{統計学}} {{DEFAULTSORT:ちゆうおうち}} [[Category:統計量]] [[Category:平均]] [[Category:数学に関する記事]]
このページで使用されているテンプレート:
テンプレート:Expand English
(
ソースを閲覧
)
テンプレート:Ill
(
ソースを閲覧
)
テンプレート:Kotobank
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Math
(
ソースを閲覧
)
テンプレート:Math2
(
ソースを閲覧
)
テンプレート:Mvar
(
ソースを閲覧
)
テンプレート:仮リンク
(
ソースを閲覧
)
テンプレート:出典の明記
(
ソースを閲覧
)
テンプレート:統計学
(
ソースを閲覧
)
中央値
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報