XGBoost

テンプレート:Infobox Software

XGBoost^[1]は、 C++、Java、Python^[2]、R^[3]、Julia^[4]、Perl ^[5]、Scala用の正則化勾配ブースティングフレームワークを提供するオープンソースソフトウェアライブラリ。 Linux、Windows^[6]、macOSで動作する^[7]。プロジェクトの説明によると、「スケーラブルでポータブルな分散型勾配ブースティング（GBM、GBRT、GBDT）ライブラリ」を提供することを目的としている。単一のマシンだけでなく、分散処理フレームワークであるApache Hadoop、Apache Spark、Apache Flink、Daskでも動作する^[8]^[9]。

機械学習コンテストの優勝チームの多くが選択するアルゴリズムとして、人気と注目を集めている^[10]。

同様に勾配ブースティングに基づくアルゴリズムとして、LightGBMとCatBoostが存在する。

歴史

XGBoostは、Distrubuted (Deep) Machine Learning Community (DMLC) グループの一員であるTianqi Chen氏の研究プロジェクトとしてスタートした^[11]。当初は、libsvmの設定ファイルで設定可能なターミナル・アプリケーションだった。 Higgs Machine Learning Challenge で優勝した際に使用されたことで、機械学習コンテストの世界で広く知られるようになった。その後すぐにPythonとRのパッケージが作られ、Java、Scala、Julia、Perl、その他の言語のパッケージ実装ができた。これにより、XGBoost はより多くの開発者に利用されるようになり、Kaggleコミュニティでも人気を博し、多くのコンペティションで利用されている^[10]。

すぐに他の多くのパッケージと統合され、それぞれのコミュニティでの使用が容易になった。 Pythonユーザーにはscikit-learn、Rユーザーにはcaretパッケージと統合された。また、抽象化されたRabit^[12]とXGBoost4Jを使って、Apache Spark、 Apache Hadoop、Apache FLINK^[13] などのデータフローフレームワークに統合することもできる。XGBoostは、OpenCL for FPGAでも利用できる^[14] 。 XGBoostの効率的でスケーラブルな実装は、Tianqi ChenとCarlos Guestrinによって発表された^[15]。

特徴

XGBoostは、他の勾配ブースティングアルゴリズムとは異なる、以下の様な特徴を持っている^[16]^[17]^[18]。

Clever penalization of trees
A proportional shrinking of leaf nodes
Newton Boosting
Extra randomization parameter
Implementation on single, distributed systems and out-of-core computation
Automatic Feature selection

アルゴリズム

XGBoostは、関数空間でニュートンラフソンとして動作する。関数空間で勾配降下法として機能する勾配ブースティングとは異なり、損失関数に2次テイラー近似を使用してニュートンラフソン法との関連性を持たせている。

一般的な非正則化 XGBoost アルゴリズムは次の通り。テンプレート:枠の始まり Input: training set ${(x_{i}, y_{i})}_{i = 1}^{N}$ , a differentiable loss function $L (y, F (x))$ , a number of weak learners $M$ and a learning rate $α$ .

Algorithm:

Initialize model with a constant value:
${\hat{f}}_{(0)} (x) = \underset{θ}{\arg \min} \sum_{i = 1}^{N} L (y_{i}, θ) .$
For テンプレート:Mvar = 1 to テンプレート:Mvar:
1. Compute the 'gradients' and 'hessians':
  ${\hat{g}}_{m} (x_{i}) = {[\frac{\partial L (y_{i}, f (x_{i}))}{\partial f (x_{i})}]}_{f (x) = {\hat{f}}_{(m - 1)} (x)} .$
  
  ${\hat{h}}_{m} (x_{i}) = {[\frac{\partial^{2} L (y_{i}, f (x_{i}))}{\partial f (x_{i})^{2}}]}_{f (x) = {\hat{f}}_{(m - 1)} (x)} .$
2. Fit a base learner (or weak learner, e.g. tree) using the training set ${x_{i}, - \frac{{\hat{g}}_{m} (x_{i})}{{\hat{h}}_{m} (x_{i})}}_{i = 1}^{N}$ by solving the optimization problem below:
  ${\hat{ϕ}}_{m} = \underset{ϕ \in 𝜱}{\arg \min} \sum_{i = 1}^{N} \frac{1}{2} {\hat{h}}_{m} (x_{i}) {[- \frac{{\hat{g}}_{m} (x_{i})}{{\hat{h}}_{m} (x_{i})} - ϕ (x_{i})]}^{2} .$
  
  ${\hat{f}}_{m} (x) = α {\hat{ϕ}}_{m} (x) .$
3. Update the model:
  ${\hat{f}}_{(m)} (x) = {\hat{f}}_{(m - 1)} (x) + {\hat{f}}_{m} (x) .$
Output $\hat{f} (x) = {\hat{f}}_{(M)} (x) = \sum_{m = 0}^{M} {\hat{f}}_{m} (x) .$

テンプレート:枠の終わり

賞

2006年

ジョン・チェンバース賞^[19]
High Energy Physics Meets Machine Learning Award（HEP Meets ML^[20]

脚注

テンプレート:Reflist

外部リンク

[source-code-1] テンプレート:Cite web

[xgboost-python-2] テンプレート:Cite web

[xgboost-cran-3] テンプレート:Cite web

[xgboost-julia-4] テンプレート:Cite web

[xgboost-perl-5] テンプレート:Cite web

[xgboost-windows-6] テンプレート:Cite web

[xgboost-macos-7] テンプレート:Cite web

[Dask-docs-8] テンプレート:Cite web

[9] テンプレート:Cite web

[xgboost-competition-winners-10] 10.0 ^10.1 テンプレート:Cite web

[history-11] テンプレート:Cite web

[rabit-12] テンプレート:Cite web

[xgboost4j-13] テンプレート:Cite web

[xgboost_FPGA-14] テンプレート:Cite web

[paper-15] テンプレート:Cite conference

[16] テンプレート:Cite web

[17] テンプレート:Cite web

[18] テンプレート:Cite web

[john-chambers-19] テンプレート:Cite web

[hep-meets-ml-20] テンプレート:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

XGBoost

目次

歴史

特徴

アルゴリズム

賞

関連項目

脚注

外部リンク

ナビゲーションメニュー

XGBoost

歴史

特徴

アルゴリズム

賞

関連項目

脚注

外部リンク

ナビゲーション メニュー

検索

ナビゲーションメニュー