<金融アトラス/a>

金融アトラス

個人の勉強も兼ねて、少しずつまとめます。

決定木とは何か

本ページでは、機械学習における決定木と呼ばれる分析手法についてまとめたい。決定木は、データを分類する手法の一つで、樹形図の形で視覚的に分類結果を出力することができる。

 

以下、カイ二乗値を用いて分類を行うCHAIDと呼ばれる手法に基づいて、数値例を用いて決定木の考え方について説明する。

 

ある感染症の患者100人のサンプルデータを収集し、感染症による死亡・生存が、どのような要因によって決定されるかを検証するとする。ここでは簡単化のため、性別、年齢(大人または子供)の2種類の要因のみについて考える。ここで、死亡または生存が目的変数、性別・年齢が説明変数となる。

 

まず、死亡・性別と性別の分布を明らかにするため、以下のような表を作成する。

これが実際のデータ(観測度数)である。死亡した患者と生存した患者の比は2:3(40:60)であることが分かる。もし、性別と死亡・生存が全く関係ない場合、男性における死亡・生存の比も2:3、女性においても2:3であると言えるではないか?と考える。このとき、表は以下のようになる。

これはもちろん実際のデータではなく、期待度数と呼ばれる。

 

ここで、カイ二乗値は以下の様に定義できる。

nは観測度数、Eが期待度数である。目的変数がr通り、ある説明変数がc通りの値を取り得るとすると、r×c個の数値が存在することになる(今回の例ではr,cともに2個なので観測度数・期待度数の数は4つずつである)。このカイ二乗値は、自由度(r-1)(c-1)のカイ二乗分布に従う。このカイ二乗値を用いて、独立性のためのカイ二乗検定を行う。帰無仮説は「生死と性別に関係はない(独立である)」、対立仮説は「生死と性別に関係がある(独立ではない)」となる。p値が十分に低ければ、帰無仮説は棄却され、対立仮説が採択されることとなる。

 

決定木の分岐を決定するにあたり、全ての説明変数と目的変数の組み合わせについてカイ二乗検定を行い、最もp値が低い説明変数(つまり最も目的変数と関連があると考えられる変数)を分岐の条件として採用する。

 

今回の例で、性別と年齢という2種類の説明変数についてカイ二乗検定を行った結果、性別のp値がより低かったとする。そこで、まず性別を分岐の条件とする。

 

決定木は、こうした分類を繰り返すことで、最終的にどのような説明変数の条件の下で目的変数が決定されるかを視覚的に表現することができる。今回の例では、以下のような決定木が出来上がったとする(以下の図は数値例にすぎないので、実際に分析を行ったわけではない点に注意)。

例えば「男性かつ大人」の場合の死亡率は67%(=20/30)である一方、「女性かつ子供」の場合の死亡率は17%(=4/24)であることが分かる。このようにして、死亡率の高低がどのような条件の下で変わるかを検証することができる。

 

(参考):

総務省高等学校における「情報II」のためのデータサイエンス・データ解析入門

奥 喜正 、内桶 誠二(2005)「決定木による判別と予測」流通經濟大學論集 39 (4), 33-43