<金融アトラス/a>

金融アトラス

個人の勉強も兼ねて、少しずつまとめます。

中心極限定理とは何かを平たく説明

f:id:hongoh:20220216233846j:image

 

本ページでは、統計学における重要な定理である中心極限定理の基本的な考え方についてまとめたい。本ページでは数式を使用しないため、より厳密な説明は統計学計量経済学の専門書を参考にされたい。

 

母集団と標本

まず、母集団と標本の関係について整理する。

ある調査対象(例えば日本人、日本企業など)があり、その全ての要素を含んだものが母集団である。その調査対象で何か(例えば収益の平均など)を調べようと思ったとき、できることなら全数調査をして、すべての要素を集計した方が正確である。しかしながら、技術的に全ての要素を集計するのは難しいことも多いので、いくつか標本(サンプル)を抽出して、そのサンプルの中での平均(標本平均)を調べ、母集団の平均(母平均)を推測する、と言う方法が取られることがしばしばある。

 

例えば、テレビの視聴率は典型的なサンプル調査で、サンプルに選ばれた世帯の視聴状況を調べて、日本全体の(あるいは各地域の)視聴率を推定しているのである。

 

母平均と標本平均の関係

もちろん、サンプルを恣意的に抽出してはならず、あくまでランダムに抽出することで、母平均に近い標本平均を導くことができる。

 

しかし、もちろん、標本平均が完全に母平均に一致するとは考えにくい。どのサンプルを抽出したかによって、微妙に母平均とのズレが生じるのは自然なことだろう。では、標本平均は母平均と比べてどの程度ズレるのだろうか?

 

標本平均の確率分布

例えば10000の要素からなる母集団があり、そこから100のサンプルをランダムに抽出して標本平均を算出する場合を考える。そして、このサンプルの抽出、標本平均の抽出を何回も(例えば100回)繰り返すとする。

 

ある回では、標本平均と母平均が大きく異なることもある。またある回では、両者が完全に一致しているかもしれない。

 

このようにして何回も何回も試行を繰り返していくと、標本平均の分布(確率分布)が出来上がる。

 

母平均をμ、母分散をσ^2、標本のサンプル数をnとすると、この標本平均の分布は、(平均μ、分散σ^2/n)の正規分布に従うことが知られている。これを中心極限定理という。

 

何回も試行を繰り返していけば、ばらつきはあるものの、標本平均の期待値は母平均と一致するということである。

 

ここでとても重要なのは、母集団の分布がいかなる形であっても、標本平均の分布は正規分布になるということである。これは非常に重要な発見であると言える。

 

この中心極限定理を用いて、統計的仮説検定など各種分析がおこなわれる。