特徴選択のソースを表示

'''特徴選択'''（とくちょうせんたく、{{lang-en-short|feature selection}}）とは、[[機械学習]]と[[統計学]]の用語であり、[[頑健性|頑健]]な学習モデルの構築のため、特徴集合のうち意味のある部分集合だけを選択する手法のことを指す。'''特徴量選択'''、'''変数選択'''、'''特徴削減'''、'''属性選択'''、'''素性選択'''、'''変数部分集合選択'''などとも呼ばれる。[[生物学]]の文脈では、[[DNAマイクロアレイ]]の実験に基づいて影響力のある[[遺伝子]]を検出する手法を指す場合もある。不要で冗長な特徴量をデータから除去することによって、特徴選択は学習モデルを次の点で改善する：

* [[次元の呪い]]の効果を緩和する。
* 汎化性能を向上させる。
* 学習を高速化する。
* モデルの可読性を改善する。

特徴選択を行うと、データのうちどの特徴量が重要でありどのようにそれらが関係しているかなどといった点について、人間が理解しやすくなるという効果もある。

==導入==
単純な特徴選択アルゴリズムは場当たり的なものだが、より系統だったアプローチも存在する。理論的観点からは、[[教師あり学習]]問題において最適な特徴選択を行うには、選ばれた大きさのすべての部分集合を特徴集合から取り出し、総当たりで試す必要があるということが証明できる。特徴の数が多くなれば、このやり方は実用的でなくなる。実用的な教師あり学習アルゴリズムの特徴選択では、最適な集合ではなく満足できる集合を求めることになる。

特徴選択アルゴリズムは典型的には、特徴ランキングと部分集合選択という二つのカテゴリに分類される。特徴ランキングでは、ある指標によって特徴をランクづけし、一定のスコアに達しなかった特徴を除去する。部分集合選択では、最適な部分集合を目指して特徴の組み合わせを探索する。

統計学では、{{仮リンク|ステップワイズ回帰|en|Stepwise regression}}がもっともよく用いられる特徴選択の形態である。この手法は、各ステップにおいてもっとも良い特徴を追加する（もしくはもっとも悪い特徴を除去する）貪欲アルゴリズムである。機械学習では[[交差検証]]によって特徴の良さを評価することが多く、統計学ではなんらかの規準を最適化することが多い。このやり方には入れ子型の特徴量に関する問題が内在しているため、[[分枝限定法]]や区分線形ネットワークなど、より[[頑健性|頑健]]な手法が研究されている。

==部分集合選択==
部分集合選択では、特徴集合の部分集合がまとまりとして適切かどうかを評価する。部分集合選択のアルゴリズムは、ラッパー、フィルター、埋め込みの三種に分類できる。ラッパーは探索アルゴリズムを用いて可能な特徴の空間を探索し、それぞれの部分集合でモデルを走らせて評価を行う。ラッパーは計算量的にコストが高く、モデルの過剰適合を起こす危険性がある。フィルターは探索を行う点でラッパーに似ているが、モデルを走らせるかわりにより単純なフィルターを用いて評価を行う。埋め込み型の方法はモデルごとに特化したものであり、モデルに埋め込まれている。

よく用いられる探索のアプローチは[[貪欲アルゴリズム|貪欲]]な[[山登り法]]である。山登り法では、候補となる特徴部分集合を評価し、部分集合の一部を書き換えてそれが古い部分集合を改善している限り手続きを繰り返す。部分集合の評価では、特徴部分集合をスコアづけする指標が必要となる。総当たり探索は通常実用的でないため、実装者が停止点を定め、その停止点までに見つかったうち最高のスコアを持つ特徴部分集合を満足できる特徴部分集合として採用する。停止の規準は、アルゴリズムによって異なるが、部分集合のスコアがしきい値を超える、プログラムの実行時間が規定値を超える、などである。

[[探索]]（[[組合せ最適化]]）のアプローチには、
* 総当たり
* [[最良優先探索]]
* [[焼きなまし法]]
* [[遺伝的アルゴリズム]]
* 貪欲前向き選択
* 貪欲後ろ向き選択
などがある。

フィルターの規準として、分類問題では[[相関]]と[[相互情報量]]の二つがよく用いられる。<!-- 原文にある次の注釈は英語特有の用語の衝突なので、訳さなかった。 --><!-- although neither are true metrics or 'distance measures' in the mathematical sense, since they fail to obey the triangle inequality and thus do not compute any actual 'distance' – they should rather be regarded as 'scores'. -->これらのスコアは候補となる特徴（もしくは特徴部分集合）と求める出力カテゴリの間で計算される。

フィルターの規準としてはほかに、次のものがある：
* クラスの分離性
** 誤分類確率
** クラス内距離
** 確率分布の距離
** [[エントロピー]]
* 一貫性に基づく特徴選択
* 相関に基づく特徴選択

==最適性規準==
特徴選択を制御する最適性規準には様々なものがある。もっとも古いものとしては[[マローズのCp]]統計量や[[赤池情報量規準]]がある。これらの手法では {{仮リンク|t統計量|en|t-statistic}}が <math>\sqrt{2}</math> を超えた変数を採用する。

その他の規準としては、 <math>\sqrt{\log{n}}</math> を用いる[[ベイズ情報量規準]] (BIC) 、  <math>\sqrt{\log{n}}</math> を近似的に用いる[[最小記述長]]（この近似の計算は正しくないとする議論もある{{要出典|date=2010年6月}}）、 <math>\sqrt{2\log{p}}</math> を用いる Bonnferroni 法や RIC 、{{仮リンク|偽発見率|en|false discovery rate}}に基づいて  <math>\sqrt{2\log{\frac{p}{q}}} </math>付近のしきい値を用いる様々な規準がある。

== 正則化 ==
{{main|正則化}}
L1 正則化、L0 正則化を用いても特徴選択できる。詳細は[[正則化]]の項目を参照。

<!-- 独自研究だと判断して翻訳から除外 -->
<!-- 
==Minimum-redundancy-maximum-relevance feature selection==

Features can be selected in many different ways. One scheme is to select features that correlate strongest to the classification variable. This has been called maximum-relevance selection. Many heuristic algorithms can be used, such as the sequential forward, backward, or floating selections.

On the other hand, features can be selected to be mutually far away from each other, while they still have "high" correlation to the classification variable. This scheme, termed as minimum-redundancy-maximum-relevance selection ([http://penglab.janelia.org/proj/mRMR] mRMR), has been found to be more powerful than the maximum relevance selection.

As a special case, the "correlation" can be replaced by the statistical dependency between variables. Mutual information can be used to quantify the dependency. In this case, it is shown that mRMR is an approximation to maximizing the dependency between the joint distribution of the selected features and the classification variable.
-->
==特徴選択が埋め込まれている手法==
* L1[[正則化]]：[[Lasso]]、[[エラスティックネット]]
* [[決定木]]や[[ランダムフォレスト]]
* {{仮リンク|多変量適応的回帰スプライン|en|Multivariate adaptive regression splines}}
* {{仮リンク|Random multinomial logit|en|Random multinomial logit}}
* {{仮リンク|Memetic algorithm|en|Memetic algorithm}}
* ボトルネック層を持つ自己記述ネットワーク
* {{仮リンク|決定木プルーニング|en|Decision tree pruning}}ステップのあるその他の多数の[[機械学習]]手法

==特徴選択のためのソフトウェア==

[[MATLAB]], [[Scilab]], [[NumPy]], [[R言語]]などの多くの標準的なデータ解析ソフトウェア（参考：[[:en:Category:Data analysis software]]）では、特徴選択の機能が提供されている。特徴選択に特化したソフトウェアとしては次のものがある。

* [[RapidMiner]] &ndash; 無料で公開されている[[オープンソース]]ソフトウェア。
* [[Weka]] &ndash; 無料で公開されている[[オープンソース]]ソフトウェア。
* [[Orange (ソフトウェア)]] &ndash; 無料で公開されている[[オープンソース]]ソフトウェア。([http://www.ailab.si/orange/doc/modules/orngFSS.htm orngFSS]モジュール)。
* [https://sites.google.com/site/tooldiag/ TOOLDIAG Pattern recognition toolbox] &ndash; 無料で公開されている C のツールボックス。
* [http://penglab.janelia.org/proj/mRMR/ minimum redundancy feature selection tool] &ndash; 無料で公開されている、最小冗長性による特徴選択を行う C/Matlab のソースコード。

==関連項目==
* [[クラスター分析]]
* [[次元削減]]
* [[特徴抽出]]
* [[データマイニング]]

==参考文献==
* [http://jmlr.csail.mit.edu/papers/special/feature03.html JMLR Special Issue on Variable and Feature Selection]
<!-- 独自研究だと判断して翻訳から除外 -->
<!-- * Peng, H.C., Long, F., and Ding, C., Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy, ''IEEE Transactions on Pattern Analysis and Machine Intelligence'', Vol. 27, No. 8, pp.&nbsp;1226&ndash;1238, 2005. [http://penglab.janelia.org/proj/mRMR/index.htm Program] -->
* [http://www.springer.com/west/home?SGWID=4-102-22-33327495-0&changeHeader=true&referer=www.wkap.nl&SHORTCUT=www.springer.com/prod/b/0-7923-8198-X Feature Selection for Knowledge Discovery and Data Mining] （本）
* [http://jmlr.csail.mit.edu/papers/volume3/guyon03a/guyon03a.pdf An Introduction to Variable and Feature Selection] （サーベイ）
* [http://ieeexplore.ieee.org/iel5/69/30435/01401889.pdf Toward integrating feature selection algorithms for classification and clustering] （サーベイ）
* [http://www.ijcai.org/papers07/Papers/IJCAI07-187.pdf Searching for Interacting Features]
* [http://www.icml2006.org/icml_documents/camera-ready/107_Feature_Subset_Selec.pdf Feature Subset Selection Bias for Classification Learning]
* M. Hall 1999, [http://www.cs.waikato.ac.nz/~mhall/thesis.pdf Correlation-based Feature Selection for Machine Learning]

==外部リンク==
* [http://www.clopinet.com/isabelle/Projects/NIPS2003/ NIPS challenge 2003] （{{仮リンク|NIPS|en|NIPS}}も参照）
* [http://paul.luminos.nl/documents/show_document.php?d=198 Naive Bayes implementation with feature selection in Visual Basic] （実行ファイルとソースコード）
<!-- 独自研究だと判断して翻訳から除外 -->
<!-- * [http://penglab.janelia.org/proj/mRMR/index.htm Minimum-redundancy-maximum-relevance (mRMR) feature selection program] -->
* [http://ibisforest.org/index.php?%E7%89%B9%E5%BE%B4%E9%81%B8%E6%8A%9E 特徴選択 - 機械学習の「朱鷺の杜Wiki」]

{{DEFAULTSORT:とくちようせんたく}}
[[Category:機械学習]]
[[Category:統計学]]