要約統計量
要約統計(ようやくとうけい、テンプレート:Lang-en-short)あるいは、記述統計(テンプレート:Lang-en-short)とは、標本の分布の特徴を定量的に記述し要約する統計学上の値であり、統計量の一種である。基本統計(テンプレート:Lang-en-short)または代表値(テンプレート:Lang-en-short)とも呼ばれることもあるテンプレート:Sfnテンプレート:Sfn。
概要
記述統計学(テンプレート:Lang-en-short)は、こうした統計量を用いて分析する学問領域である。記述統計学は、データを用いてデータの標本が表すと考えられる母集団について知るのではなく、標本を要約することを目的としている点で、推計統計学(テンプレート:Lang-en-short)と区別される[1]。つまり、記述統計は推計統計と異なり、確率論に基づいて発展したものではなく、ノンパラメトリック手法であることが多い[2]。
データ分析においては、推計統計を用いて主要な結論を出す場合でも、一般的には記述統計も提示される[1]。たとえば、ヒト被験者について報告する論文では、通常、全体のテンプレート:Ill2、重要なサブグループ(たとえば、各治療群や曝露群)の標本数、平均年齢、各性の被験者の割合、関連する併存症を持つ被験者の割合などの人口統計学または臨床的特徴を示す表が含まれる。
データセットを記述するために一般的に使用される指標には、テンプレート:Ill2の指標と、変動性またはばらつきの指標がある。中心傾向の指標には平均値、中央値、最頻値があり、変動性の指標には標準偏差(または分散)、変数の最小値と最大値、尖度、歪度がある[3]。
統計分析での利用
記述統計は、標本や行われた観察についての簡単な要約を提供する.このような要約は、テンプレート:Ill2のような定量的なものもあれば、わかりやすいグラフのような視覚的なものもある。また、これらの要約は、より広範な統計解析の一部としてデータを最初に説明する際の基礎を成すこともあれば、特定の調査のためにはそれ自体で十分なこともある。
たとえば、バスケットボールのシュート決定率は、選手やチームの成績を要約する記述統計量である。この数値は、ゴールしたシュート数を放ったシュート数で割ったものである。たとえば、シュート率33%の選手は、3回に1回の割合でシュートを決めている。パーセンテージは、複数の離散事象を要約または説明する。学生の成績評価も考えてみよう。この単一の数値は、ある学生のコース経験の範囲全体にわたる一般的な成績を記述するものである[4]。
記述統計と要約統計の使用には幅広い歴史があり、実際、人口や経済データの単純な集計は、統計学というトピックが最初に登場した手法であった。最近では、探索的データ解析という見出しの下に要約手法のコレクションが作成されている。そのような手法の例として、箱ひげ図がある。ビジネスの世界では、記述統計は多くの種類のデータに対する有用な要約を提供する。たとえば、投資家やブローカーは、将来のより良い投資決定を行うために、投資に関する実証的分析および解析的分析を行うことによって、リターン動向の歴史的根拠を活用することができる。
単変量解析
テンプレート:Ill2では、中心傾向(平均値、中央値、最頻値)と分散(データセットのテンプレート:Ill2と四分位数、分散や標準偏差などの広がりの尺度)を含む、単一変数の分布を記述する。分布の形状は、歪度や尖度などの指標によって記述することもできる。変数の分布の特性は、ヒストグラムや幹葉表示など、グラフまたは表形式で表すこともできる。
正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。正規分布からのずれを知るためには、尖度や歪度などの高次モーメントから求められる統計量を用いる。
正規分布から著しく外れた場合には、より頑健な中央値、四分位点、最大値・最小値や最頻値が用いられる。「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少なくても0未満にはならないのに対し、収入が多いほうでは数十億円という年収を稼ぐ少数者があり得る。この場合の分布は、少数者が上側にいることによって、上側に極端に尾を引いた非対称な分布となる。平均値はこれらの極端な高値の影響を受け、分布の代表値として適切でないものとなってしまう。中央値や最頻値では、いかに飛び抜けた値であっても1例としてしか扱われないので、より大多数の実感に近い値を示すことができる。
二変量解析および多変量解析
標本が複数の変数で構成されている場合、記述統計を使用して、変数のペア間の関係を記述することができる。この場合、記述統計には次にあげるようなものがある。
単変量解析と二変量解析を区別する主な理由は、二変量解析が単なる記述的な解析にとどまらず、異なる二つの変数間の関係を記述することである[5]。依存性の定量的尺度には、相関(両方の変数が連続型の場合はピアソンのr、一方または両方が連続型でない場合はスピアマンのrhoなど)と共分散(尺度変数が対応していることを反映するテンプレート:訳語疑問点)がある。回帰分析では、傾きも変数間の関連性を反映する。標準化されていない勾配は、予測変数の1単位の変化に対する目的変数の単位変化を示す。標準化されている勾配は、この変化を標準化された単位(標準得点)で示す。大きく歪んだデータは、対数をとって変換されることがよくある。対数を用いると、グラフはより対称的になり、正規分布に近くなるので、直感的に解釈しやすくなる[6]テンプレート:Rp。
モーメントから求められる要約統計量
テンプレート:Main N 個のデータ に対する統計量を考える。まず、平均値 と、平均値まわりの m 次中央モーメント[7] を
で定義する。
平均
原点まわりの1次モーメント 。和を個数で割ったもの。
分散、標準偏差
2次中央モーメントから求められる統計量。分布の広がりを表す。
- 分散:
- 標準偏差:
歪度
3次中央モーメントから求められる統計量。分布の左右非対称の度合いを表す。
尖度
4次中央モーメントから求められる統計量。分布の峰の鋭さ(裾野の広さ)を表す。
ただし、3 を引かない定義もある。
順序から求められる要約統計量
テンプレート:Main 以下、昇順にソートされた N 個のデータ に対する統計量(順序統計量)を考える。
中央値
メジアン、メディアン (テンプレート:Lang-en-short) ともいう。データの大きさに関してちょうど中央に当たるデータ x (N + 1) / 2 。ただし、整数でない添数に対する中央値は線形補間によって定義する(つまり N が偶数のときは xN / 2 と xN / 2 + 1 の平均とする)。
刈込平均(テンプレート:仮リンク)
最大値、最小値を除外した平均。除外する数を増やして行くと、最後は中央値になる。そのため、中央値は刈込平均の一つである[8]。
四分位点
集団を値の大きさで4等分するとき、その境界となる値。x (N + 3) / 4 を第1四分位点、x (3N + 1) / 4 を第3四分位点という。x(2N + 2) / 4 、つまり第2四分位点は中央値である。
最小値・最大値
集団に含まれる最も小さい値 x1 と、最も大きい値 xN 。
これらの統計量を視覚化するために、箱ひげ図を用いる。
中点値
最大値と最小値を足して2で割ったものを中点値(テンプレート:Lang-en-short)とよび、代表値として用いることがあるテンプレート:Sfn。
範囲
最大値と最小値の差を範囲(テンプレート:Lang-en-short)とよび、代表値として用いることがあるテンプレート:Sfn。記号はRを用いる。
度数から求められる要約統計量
最頻値
最頻値は、モード (テンプレート:Lang-en-short)または 並み数 ともいい、データのうち、度数分布において最も高い度数を示す値、つまり最も多く現れているデータの値である。
脚注
参考文献
関連項目
外部リンク
テンプレート:Statistics テンプレート:Portal bar
- ↑ 1.0 1.1 テンプレート:Citation
- ↑ テンプレート:Cite book
- ↑ Investopedia, Descriptive Statistics Terms
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite book
- ↑ テンプレート:Cite book
- ↑ 用語「m 次中央モーメント」は、竹内啓(編集委員代表)『統計学辞典』東洋経済新報社, 1989 による。
- ↑ 西岡康夫,数学チュートリアル やさしく語る 確率統計,オーム社, p.5, p.52013, ISBN 9784274214073