<金融アトラス/a>

金融アトラス

個人の勉強も兼ねて、少しずつまとめます。

回帰分析における仮定が成立しない場合とその対処法

f:id:hongoh:20220422004412j:image

本ページでは、回帰分析における仮定が成立しない場合と、その対処法についてまとめたい。

 

最小二乗推定量とは

回帰分析は、標本(サンプル)を抽出し、母集団分布の性質の一つである回帰パラメーター(変数間の関係)を推測するものであり、統計的推論の一つである。

 

回帰係数を求める方法に「最小二乗法」がある。最小二乗法は、説明変数と被説明変数の関係を線形の式で表す際、実測値との誤差の二乗和が最小になるようにパラメーターを定める方法である。最小二乗法によって推定された回帰パラメーターを最小二乗推定量と呼ぶ。

 

回帰分析における仮定

回帰分析においては、一般に以下が仮定される。

 

標本抽出についての仮定

①標本は母集団から無作為に抽出されている。

 

被説明変数についての仮定

②被説明変数(y)は、説明変数(x1,x2,…)と誤差項(ε)による線形の式によって表すことができる。

 

説明変数についての仮定

③説明変数xに変動がある。

④説明変数間に完全な共線関係がない(ある説明変数が別の説明変数を完全に決定してしまうことがない)。

 

誤差項についての仮定

⑤誤差項(ε)の期待値は0。誤差項と説明変数xは平均独立(つまりxの値が分かってもεを知ることはできない)。この2つより、E[ε|x]=0。

⑥εの分散はどの標本についても一定(分散均一)。たとえばXの値が大きくなるほどεの値が大きくなる、といったことがない。

⑦εは正規分布に従う。

⑧誤差項どうしに相関がない(系列相関がない)。

 

とくに、①,②,③,④,⑤の仮定は、最小二乗推定量が不偏性を持つために必要な仮定である。①〜⑤に加え、⑥の分散均一の仮定を満たしている時、最小二乗推定量は、不偏性を持ちかつ最も効率的(分散が小さい)な推定量である。これをガウス=マルコフ定理という。このときの最小二乗推定量はBLUE(Best Linear Unbiased Estimator)と呼ばれる。

 

以下、上記の仮定が成り立たない代表的な理由と、その対処法についてまとめたい。

 

サンプルセレクションバイアス

上記の①が満たされていない場合。サンプルの抽出方法に問題があり、何らかのバイアスが発生する可能性がある。無作為に抽出するよう注意する必要がある。

 

モデルの定式化

モデルの定式化が間違っている場合。例えば回帰式に二乗項を含めたり、対数直すなど、モデルの定式化を工夫することが考えられる。

 

欠落変数

上記の⑤が満たされない場合。被説明変数に影響を与える説明変数を正しく抽出できていないケースである。欠落変数によって最小二乗推定量にバイアスが生まれる場合の条件は以下の二つを満たすことである。

(1)省略された変数が被説明変数と相関関係がある

(2)省略された変数が説明変数と相関関係がある

(1)が認められるということは、その欠落変数が誤差項の中に含まれているということである。そして(2)が認められるということは、誤差項と説明変数に相関がある、すなわち⑤が満たされていないということである。

 

対処法としては、まず多めに変数を追加してから、有意でないものを順次外していくことが考えられる。

 

同時方程式バイアス

上記の⑤が満たされていない場合。これは、説明変数が内生的で、説明変数と被説明変数が相互に依存している(=連立方程式の解として同時に決定される)と、回帰式の誤差項と説明変数に相関が生まれてしまい、正しく推定できなくなる。一般に、誤差項と説明変数が相関している状態を内生性があるという。内生性がある状況は、要するに回帰モデルで捉えられない「何か」が、説明変数(や被説明変数)に影響を与えていることを示している。

 

同時方程式バイアスへの対処法に、「2段階最小二乗法」がある。元の回帰式の右辺にあった内生変数を被説明変数とし、外生変数のみを説明変数とするように導いた誘導形を回帰分析し、内生変数に関する推定値を求める。この推定値を、元の回帰式に代入した式についてもう一度回帰分析を行う。

 

(参考)操作変数法

被説明変数Yと説明変数Xに相関がある場合、両者にどちらとも作用するなんらかの要因Uがある場合、見せかけの相関が生じる可能性がある。この時、説明変数が誤差項と相関していることを意味するので、内生性が生じていることになる。

 

そこで、Xには相関するが、Uには無相関かつYと直接的に関係のない変数Zを設定し、Zが変動した際にYも変動するのであれば、それは(Uではなく)Xを通じた効果であり、よってXとYには関係があると見なすことができるのである。この考え方を操作変数法という。操作変数法は、2段階最小二乗法の特殊ケースとして位置付けられる。

 

 

多重共線性

上記の④が満たされない場合。説明変数同士の相関が強いと、回帰係数の推定が不安定になってしまう(t値が小さくなる、決定係数が大きな値となる、回帰係数の符号が本来なるべきものとは逆の符号となるなど)。

 

上記のような症状が出たら、変数間で相関が高そうなものを回帰してみて、相関の高い変数のどちらかを除外することが対処法として考えられる。

 

分散不均一

上記の⑥が満たされない場合。例えば、説明変数の値が大きくなるほど分散が大きくなる傾向があれば、それは均一な分散とは言えない。

均一分散の仮定が満たされていなくても、それだけをもって推定値の不偏性と一致性は崩れない。よって、不均一分散の状態でも、推定値は変化しない。

しかし、標準誤差の値にはバイアスが生じる。仮説検定で用いるt値が推定値/標準誤差で算出されるため、標準誤差にバイアスが生じれば、仮説検定は信頼できなくなる。言い換えれば、本当は有意でないのに有意である(またはその逆)という結果が導かれる可能性がある。

 

分散不均一かどうかを検証する方法に、ブルーシュ=ペーガン検定やホワイト検定がある。基本的な考え方は、誤差項の分散が均一であるということ、つまり分散は説明変数に依存しないことを利用し、誤差項の二乗を説明変数で回帰して、説明変数のどれか一つでも有意に誤差項の二乗に影響を与えているかどうかについてF検定を行う。

 

分散不均一の対処法として、変数の対数化などの定式化の工夫が挙げられる。

 

系列相関

上記の⑧が満たされない場合。隣接する誤差項間に相関関係がある状態であり、典型的には時系列データで、ある期の誤差が前の期の誤差と相関している場合があげられる。分散不均一と同様、系列相関があると標準誤差の値にはバイアスが生じるため、仮説検定は信頼できなくなる。ダービン・ワトソン(DW)統計量を算出し、2に近ければ系列相関なし、0あるいは4に近ければ系列相関ありと考えられる。対処法として、前の期との階差を取るなどが考えられる。

 

(出典):

秋山裕(2009)「Rによる計量経済学オーム社

田中隆一(2015)「計量経済学の第一歩 実証分析のススメ」有斐閣ストゥデイア