<金融アトラス/a>

金融アトラス

個人の勉強も兼ねて、少しずつまとめます。

主成分分析とは何か

f:id:hongoh:20230809062819j:image

本ページでは、主成分分析とは何かについてまとめたい。

 

まず、具体例として、国語、算数、理科、社会の4科目による学力テストを考える。

 

それぞれと科目の点数による評価の他に、この4科目を基に「総合的な学力」による評価ができないか考えてみる。具体的には、国語の点数をx1、算数をx2、理科をx3、社会をx4とし、zを

z = ax1+ bx2 + cx3 + dx4

と定義する。a,b,c,dは重み付け(ウェイト)と解釈することができる。そして、zが、4科目の点数を踏まえた「総合的な学力」と考えることができる。そして、このzを「主成分」という。

 

では、a,b,c,dをどのように設定すれば良いか?主成分分析では、zの分散を最大化するようなa,b,c,dを設定することが効果的と考える。なぜなら、その方が個体値の差が大きくなり、比較可能性が生まれるためである。そもそも、主成分分析は、(上記の例で言えば)x1,x2,x3,x4という4次元の情報を、zという1次元の情報に縮減する方法である。次元を縮減すると、データの扱いが簡単になる一方、情報が失われてしまう。zの分散を最大化し個体差が現れやすくすると、もとの情報をできる限り失わずに済むと考えられる。

 

では、zはどのように求められるか?zの分散は、x1からx4の分散共分散行列の固有値として求められることが知られている。これを最大化するようなa,b,c,dを求める。

 

そして、上記の例で、例えば生徒Aの4科目の点数を上記の式に代入すると、生徒Aのzを求められる。これを主成分得点という。

 

主成分は、変数の数(上記の例で言えば4つ)だけ求めることができ、分散が大きい順に第一主成分、第二主成分、、となる。

 

さらに、主成分得点と各変数(x1からx4)の相関係数を主成分負荷量という。この値が高い変数ほど、主成分をよく説明していることになる。

 

(参考):

主成分の導出に関連した説明:

主成分分析とは何なのか、とにかく全力でわかりやすく解説する | CCT-recruit

行列の固有値と固有ベクトル、対角化について - 金融アトラス