本ページでは、機械学習における教師なし学習とは何かについてまとめたい。
教師なし学習とは、教師付き学習と対になる概念である。教師あり学習は、総務省の定義によれば、「特徴を表す情報と正解を表す情報がセットになった状態のデータを用いてコンピュータに学習させる手法」である。「特徴を表す情報」は説明変数と呼ばれ、「正解を表す情報」は目的変数と呼ばれる。教師あり学習については以下のページで概説している。
教師無し学習は、教師あり学習と異なり、正解のラベルが無い状態で似ているデータどうしを分類する方法である。正解がないので、似ているデータをいかにしてグルーピングするかが分析のポイントとなる。また、グルーピング結果それ自体だけでは意味をなさないので、出力されたグルーピングがどのような意味を持つのか、人間によって解釈を加得る必要がある。
教師無し学習の代表的な分析方法に「主成分分析」と「クラスター分析」がある。それぞれについてリンク先にて概説している。
主成分分析
クラスター分析
(出典):
総務省「高等学校における「情報II」のためのデータサイエンス・データ解析入門」