<金融アトラス/a>

金融アトラス

個人の勉強も兼ねて、少しずつまとめます。

過学習とその対処法について

本ページでは、機械学習における過学習の問題とその対処法についてまとめたい。

 

教師付き学習

機械学習には、大きく分けて「教師付き学習」「教師なし学習」がある。このうち、教師付き学習は、総務省の定義によれば、「特徴を表す情報と正解を表す情報がセットになった状態のデータを用いてコンピュータに学習させる手法」とされる。「特徴を表す情報」は説明変数と呼ばれ、「正解を表す情報」は目的変数と呼ばれる。これらの教師付き学習を行うには、説明変数と目的変数が揃っているデータセット(教師データ)が必要である。まず説明変数と目的変数の関係を教師データによって学習し、そこで学習した関係に基づき、説明変数のデータから目的変数(未知)を予測する。

 

過学習とは

学習を行う際、過学習と呼ばれる問題に留意する必要がある。過学習とは、「教師
データ全てを用いてモデルの構築を行うと、そのデータには適合することができても、その後入ってくる未知のデータには全く合わないモデルが形成されてしまうこと」である(総務省)。例えば説明変数と目的変数の関係を高次式で表現することを考える。教師データへのフィットをよりよくするには、次数を上げていけばよい※。3次式よりも20次式の方が教師データへのフィットが良い。しかし、20式のモデルは、未知のデータには全く合わないものとなっている可能性がある。

 

この過学習への対処法として、交差検証法が挙げられる。交差検証法の代表的なものとしてK分割法がある。

 

K分割法(K分割交差検証)

K分割法では、まずデータセットをK個に分割する。そして、モデル構築と検証をK回分繰り返す。

1回のモデル構築・検証を1セットとすると、各セットにおいて、K個の分割されたデータセットのうち1つは検証用(評価データ)、残り(K-1)はモデル構築用(教師データ)とする。各セットで検証用に使用するデータセットを変えるので、Kセット実施する必要がある。

 

各セットにおいて、構築したモデルの当てはまり具合を検証することになる。例えば、回帰分析においては、構築したモデルで評価データの回帰を行ったときに、モデルの予測値と評価データの実測値の差分の大きさが評価の基準となる。K回モデルの当てはまり具合の測定を繰り返し、その平均値を結果とする。

 

例えば3次式のモデルを使用するか20次式のモデルを使用するかで迷っていたとする。そこで、3次式、20次式それぞれについてK回ずつ上記のプロセスを行い、誤差の小さい方を選択すれば良い。

 

※次数はその項が何乗であるかを示す。紛らわしい概念に次元というものがあり、次元は変数の数である。

 

(出典):

総務省高等学校における「情報II」のためのデータサイエンス・データ解析入門