7章アンサンブル学習とランダムフォレスト

数千、数万の人々に片っ端から複雑な問題を尋ね、その答えを集計してみよう。このようにして得られた答えは、1人の専門家の答えよりもよいことが多い。これを集合知(wisdom of crowd)と呼ぶ。同様に、一群の予測器(分類器や回帰器)の予測を1つにまとめると、もっとも優れている1つの予測器の答えよりもよい予測が得られることが多い。この予測器のグループをアンサンブル(ensemble)と呼ぶ。そして、このテクニックをアンサンブル学習(ensemble learning)、アンサンブル学習アルゴリズムをアンサンブルメソッド(ensemble method)と呼ぶ。

アンサンブルメソッドの例として、訓練セットから無作為に作ったさまざまなサブセットを使って一連の決定木分類器を訓練し、予測するときにはすべての木の予測を集め、多数決で全体の予測クラスを決めてみよう(6章の最後の演習問題を参照)。このような決定木のアンサンブルをランダムフォレスト(random forest)と呼び、単純でありながら今日もっとも強力な機械学習アルゴリズムの1つになっている。

さらに、2章でも触れたように、アンサンブルメソッドはプロジェクトの終わり近くなってから使うことが多いが、すでに少数のよい予測器ができているなら、それらを組み合わせればさらによい予測器になる。実際、機械学習コンテストの優勝者は、複数のアンサンブルメソッドを使っていることが多い(もっとも有名なのは、Netflix賞:http://netflixprize.com/の勝者である)。

この章では、もっともよく使われているバギング(bagging)、ブースティング(boosting)、スタッキング(stacking)などのアンサンブルメソッドを取り上げる。そして、ランダムフォレストについても掘り下げていく ...

Get scikit-learn、Keras、TensorFlowによる実践機械学習 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.