本ページでは、機械学習におけるランダムフォレストという手法の概要についてまとめたい。ランダムフォレストとは、アンサンブル学習の一つであり、多数の決定木を用いて分類や回帰等を行うアルゴリズムである。
決定木については以下のページで説明している。
アンサンブル学習
アンサンブル学習とは、複数の機械学習のモデルを組み合わせて学習を行う手法である。アンサンブル学習には主に「バギング」「ブースティング」の2種類がある。
バギングとは、データセットから一部をランダムにサンプリング(これをブートストラップという)することを繰り返し、複数のモデルを並列的に学習を行う方法である。
ブースティングとは、複数のモデルを直列的に学習させる方法である。
ランダムフォレストは、アンサンブル学習の中でも「バギング」に分類される。
ランダムフォレスト
ランダムフォレストは、冒頭でも触れた通り、複数の決定木を用いて学習を行うモデルである。
まず、ブートストラップを用いて元データからサンプリングを行い、n個のサブデータを作る。そして、それぞれに対して決定木モデルを用いた学習を行う。そうすると、n通りの予測結果が出てくることになる。
分類の場合はこれらの多数決、回帰の場合はこれらの平均を取ることで、最終的な予測を得る。
決定木モデルには過学習を行いやすいという欠点があり、ランダムフォレストはその欠点を補ったものとなっている。
(出典):
総務省「高等学校における「情報II」のためのデータサイエンス・データ解析入門」