分類 (統計学)のソースを表示
←
分類 (統計学)
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{Otheruses|統計学における分類|その他|分類}} {{Machine learning bar}} '''分類'''(ぶんるい、{{lang-en-short|classification}})や'''統計的分類'''や'''統計的識別'''とは、[[統計学]]において、データを複数のクラス(グループ)に[[分類]]すること。2つのクラスに分ける事を[[二項分類]]や二値分類、多数のクラスに分ける事を[[多クラス分類]]という。Y = f(X) というモデルを適用する際に、Y が離散であれば[[分類]]、連続値であれば[[回帰分析|回帰]]である。 個体をクラス分けする[[統計学|統計的]]手続きの一つであり、分類対象に固有な1つ以上の特性についての数値化された情報に基づいて実施される。このとき、事前にラベル付けされた[[訓練例]]({{lang-en-short|training set}})を用いる。 形式的に表すと、次のようになる。訓練データ <math>\{(\mathbf{x_1},y_1),\dots,(\mathbf{x_n}, y_n)\}</math> から、オブジェクト <math>\mathbf{x} \in \mathcal{X}</math> から分類ラベル <math>\mathbf{y} \in \mathcal{Y}</math> へマップする分類器({{lang-en-short|classifier}}、識別器とも) <math>h:\mathcal{X}\rightarrow\mathcal{Y}</math> を生成するのが統計分類である。例えば、スパムのフィルタリングをする場合、<math>\mathbf{x_i}</math> は具体的な[[電子メール]]の例であり、<math>y</math> は "Spam" か "Non-Spam" のどちらかである。 統計的分類アルゴリズムは主に[[パターン認識]]システムなどで使われる。 注: [[群集生態学]]で言う「分類; classification」という用語は、一般に(たとえば[[機械学習]]で)[[データ・クラスタリング]]と呼ばれているものと同じものを指す。詳しくは[[教師なし学習]]などを参照されたい。 == 技法 == 分類手法は多数存在するが、それらは3つの相互に関連する数学的問題のいずれかを解決する。 第一の問題は、特徴空間(一般に多次元の[[ベクトル空間]])からラベルの集合への写像を求める問題である。これは、特徴空間を領域分割して、各領域にラベルを割り当てるのと同じである。このようなアルゴリズム(例えば[[k近傍法]])は事後処理を行わないと[[事後確率|クラス確率]]を生成できないのが一般的である。この問題を解く別のアルゴリズムとしては、特徴空間への[[教師なし学習|教師なし]] [[データ・クラスタリング|クラスタリング]]の適用をし、次いで各クラスターまたは領域にラベルを付ける。 第二の問題は、統計分類を一種の予測問題とみなし、以下のような形式の関数を予測することを目標とするものとみなす。 :<math>P({\rm class}|{\vec x}) = f\left(\vec x;\vec \theta\right)</math> ここで、特徴ベクトル入力が <math>\vec x</math> であり、関数 ''f'' は一般に <math>\vec \theta</math> の一部によってパラメータ化される。この問題の[[ベイズ推定]]的アプローチでは、唯一のパラメータベクトル <math>\vec \theta</math> を選ぶのではなく、考えられる全てのθの積分が結果となり、各θが訓練データ ''D'' によって与えられる確率で重み付けされる。 :<math>P({\rm class}|{\vec x}) = \int f\left(\vec x;\vec \theta\right)P(\vec \theta|D) d\vec \theta</math> 第二の問題とも関連するが、第三の問題は[[条件付き確率]] <math>P(\vec x|{\rm class})</math> を推測する問題であり、それに第二の問題のようにクラス確率を生成するために[[ベイズの定理]]を利用する。 主な統計分類アルゴリズム: * [[線形分類器]] ** フィッシャーの線形[[判別分析]] ** [[ロジスティック回帰]] ** [[単純ベイズ分類器]] ** 単純[[パーセプトロン]] ** 線形[[サポートベクターマシン]] * [[:en:Quadratic classifier|二次分類器]] ** 二次[[判別分析]] * その他、非線形など ** [[k近傍法]] ** [[ブースティング]] ** [[決定木]] ** [[ニューラルネットワーク]] ** [[ベイジアンネットワーク]] ** [[サポートベクターマシン]] ** [[隠れマルコフモデル]] 問題の性質(分類すべきデータ)と各種分類アルゴリズム(分類器)の性能の関係は、未だ解決されていない興味深い問題である。Van der Walt と Barnard(参考文献参照)は特定の人工的なデータ群を使って、どの分類器がよい性能を示すかを研究した。 分類器の性能は分類すべきデータの特性に大きく依存する。あらゆる問題について最高の性能を示す分類器は存在しない([[ノーフリーランチ定理]]と同様の現象である)。分類器の性能を比較し、データの特性を特定するために各種実験的検証を実施して分類器の性能を決定する。ただし、ある問題に適した分類器を特定する手法は科学というよりも技能である。 == 評価手法 == <!-- この文章は[[判別分析]]から移動しました --> {{main|交差検証}} 判別式の妥当性は、誤判別率などで評価できる。適した[[変数選択]]と判別方法にもとづいて分析することが必要であり、判別式(のみならず[[変数選択]])の妥当性を検証する手法として、元のデータから1つだけ外して判別(モデル)式を得、外したデータを新たなデータとして適用した際に妥当な結果が得られるかを検証する、1つとって置き法({{lang-en-short|leave-1-out}})などが一般に用いられる。 == 例 == <!-- この文章は[[判別分析]]から移動しました --> [[入学試験|入試]]を具体例に取ると、個々の受験生は、各群に属する個々の入試得点により、合格・不合格という2群に分けられる。学校側で明確な基準を設ける場合、たとえば英語で100点満点中70点を合否ラインにした場合、生徒の合否は得点が70点を境に分かれることとなるが、合否基準が非公開な場合や、その年度によって、合格者の平均点も変動することは周知である。 このような教師データが存在する場合(予備校などでは自己採点結果などから、相当に精度の高い標本を有しており、これを教師データとして扱うことは相応に妥当と考えられる)、統計分類により、過去の受験生の点数実績と合格実績から、合否の基準を計算によって求めることができる。 == 応用分野 == * [[コンピュータビジョン]] ** [[医用画像処理]] ** [[光学文字認識]] * [[地球統計学]] * [[音声認識]] * [[手書き文字認識]] * [[生体認証]] * [[文書分類]] * インターネット[[検索エンジン]] == 参考文献 == * C.M. van der Walt and E. Barnard,“Data characteristics that determine classifier performance”, in Proceedings of the Sixteenth Annual Symposium of the Pattern Recognition Association of South Africa, pp.160-165, 2006. ==関連項目== * [[データマイニング]] * [[ファジィ論理]] * [[情報検索]] == 外部リンク == * [http://blog.peltarion.com/2006/07/10/classifier-showdown/ Classifier showdown] 分類アルゴリズムの実用的な比較 {{統計学}} {{DEFAULTSORT:ふんるい}} [[Category:統計学的分類|*]] [[Category:分類|*]] [[Category:統計学]] [[Category:機械学習]] [[Category:分類アルゴリズム|*]]
このページで使用されているテンプレート:
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Machine learning bar
(
ソースを閲覧
)
テンプレート:Main
(
ソースを閲覧
)
テンプレート:Otheruses
(
ソースを閲覧
)
テンプレート:統計学
(
ソースを閲覧
)
分類 (統計学)
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報