<金融アトラス/a>

金融アトラス

個人の勉強も兼ねて、少しずつまとめます。

相関係数と回帰係数の関係について

本ページでは、相関係数と回帰係数の関係についてまとめたい。

 

相関係数

2つの変数間の関係を示したものが相関係数である。相関係数の導出のためには、まず共分散を知っておく必要がある。

 

共分散は、

で求められる。i番目のx、yの平均との乖離が同じ方向であればプラス、違う方向であればマイナスとなる。xとyの平均との乖離の積をn番目まで合計し、nで除したものが共分散となる。全体としてxとyが同じ方向に動けばプラス、違う方向に動けばマイナスとなる。

 

そして、相関関係は以下のように表せる。

σ_x、σ_yはそれぞれの標準偏差となる。相関係数はー1から1までの数をとり、0の場合はxとyには関係がないということになる。(なぜー1から1までの値をとるかは、高校数学で習うコーシー・シュワルツの不等式で示すことができる。)

 

回帰係数

yを被説明変数、xを説明変数として回帰分析を行うことを考える。

このとき、最小二乗法によって求めた回帰係数の推定値は以下のように表せる。

相関係数と回帰係数の関係

以上より、相関係数と回帰係数の関係は以下のように表すことができる。

 

(参考):

田中隆一(2015)「計量経済学の第一歩 実証分析のススメ」有斐閣ストゥディア

時系列データにおける自己相関について

本ページでは、時系列データにおける自己相関とは何かについてまとめたい。

 

時系列データの特徴

クロスセクションデータセットと異なり、時系列データは観測された順序が重要であり、時点で順序付けられたデータである。そして、時系列データはしばしば自己相関を示す。例えば、ある時系列データのt期における値は、t-1期、t-2期といった同じ系列の値と相関を示す可能性がある。

時系列分析では、観測された時系列データを確率変数の集合(確率変数列)の1つの実現値と考え、確率変数列の生成過程に何らかの構造があると仮定する。この確率変数列を確率過程(または単に過程)という。

 

自己相関係数

ある時系列データについて、t期と別の期の相関係数を求めることを考える。

まず、自己共分散は以下のように定義される。

ここで、μはyの期待値(平均)である。添字のkはt期との時間差を表し、k=1であれば、一期前との共分散を示す。

自己相関係数は、

で与えられる。自己相関係数は、kの関数として見ることができる。つまり、kが増えると(時期が遡っていくと)相関係数がどのように変化していくかを見ることができる。

 

定常性

時系列データが以下の性質を持つとき、そのデータには定常性があるという(厳密に言えば弱定常性という)。

要するに、ある時系列データに定常性があるとき、その平均が時点によらず一定であり、共分散も時点には依存せず時間差のみに依存する。そしてこのとき、自己相関係数ρも時点には依存しないことになる。

 

例えばGDPが右肩上がりに上昇しているとき、データが定常性を満たしているとは言えないが、前の期との差分を取ったデータは定常性を満たしていることも多い。定常性の仮定は時系列モデルを構築する際に重要となる。

 

(参考):

沖本竜義(2010)「経済・ファイナンスデータの計量時系列分析」朝倉書店

行列の基本的な計算について

本ページでは、行列の基本的な計算についてまとめたい。具体的には、行列の積、単位行列逆行列、転置について取り扱う。

行列の積

行列の積は以下のように計算できる。

ある行列の行(横)の本数をa、列(縦)の本数をbとして、行列の型を(a,b)で表すとする。このとき、A,B2つの行列の積ABを定義できるのは、

A:(l,m)

B:(m,n)

となる場合、すなわちAの列の本数とBの行の本数が等しくなる場合のみである。このとき、(l,m)×(m,n)=(l,n)となり、2つの行列の積によって計算された新たな行列は、Aの行の本数×Bの列の本数となる。

単位行列

正方行列(行と列の数が同じ行列)の対角線上の要素(対角要素)がすべて1で、それ以外の要素がすべて0のものを単位行列と呼ぶ。

逆行列

正方行列Aについて、

 

となるような行列A^-1をAの逆行列という。2×2の場合の逆行列は以下の通りである。

なお、ad-bcの値は2次正方行列における行列式といい、|A|またはdet Aといった表記の仕方がある。3次以降の正方行列においても行列式は存在するが、計算はより複雑になる。行列式がゼロの場合は逆行列は存在しない。常に逆行列が存在するとは限らない。

 

Aの逆行列は、Aの余因子行列を行列式で除すことで計算できる。余因子行列は、以下の手順で求められる。

①Aの(i,j)成分の余因子を求める。余因子は、Aのi列とj列を取り除いた行列行列式に、ー1のi+j乗を乗じたものになる。

例えば、

の(2,2)余因子は、

となる。

②Aの各成分における余因子で行列を構成する。例えば(1,1)成分に(1,1)余因子、(2,3)成分に(2,3)余因子をおく。次に、この行列の行と列を入れ替えると(転置)、余因子行列が完成する。転置については後述を参照。


転置

行列の転置とは行と列を入れ替えることである。行列Xを転置したものはX’と表現される。例えば、

となる。

列ベクトルの転置×列ベクトルは要素の2乗和になる。つまり、

列ベクトル×行ベクトルは行列になる。

行列演算を用いた連立方程式の解き方について

本ページでは、行列演算を用いた連立方程式の解き方についてまとめたい。

行列を用いた連立方程式の表現

以下の連立方程式を考える。

2x+y+z=3

x+3y-z=-4

-x+2z=3

この連立方程式を行列で表現すると以下のようになる。

ここで、

を係数行列、

を拡大係数行列という。連立方程式をAX=Bと表現した時、Aが係数行列、[A|B]が拡大係数行列となる。

 

階段行列と階数

階段行列とは、以下を満たす行列である。

・行番号が増えていく(上から下に見ていく)につれて左端から連続して並ぶ0の数が増えていく

・その行に主成分(行列を左から見た時に、各行で初めに出てくる0以外の成分)が無く全ての成分0である場合、それより下の行は同じように成分が0である

 

そして、階段行列の中で、0でない成分が残っている行の数を階数という。

例えば、

は階段行列であり、その階数は3となる。このとき、rankA=3 と表現する。

 

連立方程式の解の数

連立方程式AX=Bに関し、

rankA=rank[A|B]であれば、連立方程式解が存在する。

rankA≠rank[A|B]であれば、連立方程式解は存在しない。

さらに、解が存在する場合、未知数がn個、階数がrankA=rank[A|B]=rであるとすると、

n-r>0 であれば、無数に解が存在する。

n-r=0であれば、ただ一組の解が存在する。

 

連立方程式の解き方

行列を用いて連立方程式を解くには、まず以下の基本的な行の変形を用いる。

・ある行をk倍する(k≠0)

・ある行に、別のある行のk倍を加える

・ある行と別のある行を入れ替える

この基本変形をもとに、係数行列を単位行列に変形することを目指す。単位行列とは、

正方行列(行と列の数が同じ行列)の対角線上の要素(対角要素)がすべて1で、それ以外の要素がすべて0の行列のことを言う。

例えば、

という連立方程式を考える。解を求めるにあたり、以下の要領で式変形を行う。

①2行目+1行目×3、3行目ー1行目×2

②1行目ー2行目、3行目+2行目×3、2行目÷2

③3行目÷17、1行目+3行目×7、2行目ー3行目×4

このように、基本変形を用いて左の列から順に階段を作っていく。

すると、

となり、x=3, y= -2, z=1

という解が求められる。

 

クラメルの公式

連立方程式の解法にクラメルの公式というものがある。以下、クラメルの公式を用いるにあたっては行列式の知識が必要となるが、行列式の概要については以下のページを参照されたい。

hongoh.hatenablog.com

 

未知数がx_1, x_2, ..., x_nである連立方程式AX=Bについて、

|A|≠0のとき、

となる。A_nは係数行列のi列をBの成分で入れ替えたものである。

例えば、

という連立方程式について、

となる。|A|=-2であるため、

x_1=-4, x_2=9/2

が解となる。 

標準偏差と標準誤差の違いについて平たく説明

f:id:hongoh:20220922093320p:image

本ページでは、標準偏差と標準誤差の違いについてまとめたい。

 

母集団と標本

標準偏差と標準誤差の説明に入る前に、まず、母集団と標本の関係について整理しておきたい。

 

ある調査対象(例えば日本人、日本企業など)があり、その全ての要素を含んだものが母集団である。その調査対象で何か(例えば収益の平均など)を調べようと思ったとき、できることなら全数調査をして、すべての要素を集計した方が正確である。しかしながら、技術的に全ての要素を集計するのは難しいことも多いので、いくつか標本(サンプル)を抽出して、そのサンプルの中での平均(標本平均)を調べ、母集団の平均(母平均)を推測する、と言う方法が取られることがしばしばある。

 

例えば、テレビの視聴率は典型的なサンプル調査で、サンプルに選ばれた世帯の視聴状況を調べて、日本全体の(あるいは各地域の)視聴率を推定しているのである。


もちろん、サンプルを恣意的に抽出してはならず、あくまでランダムに抽出することで、母平均に近い標本平均を導くことができる。

 

しかし、もちろん、標本平均が完全に母平均に一致するとは考えにくい。どのサンプルを抽出したかによって、微妙に母平均とのズレが生じるのは自然なことだろう。しかしながら、標本平均が以下の不偏性と一致性を持つとき、標本平均は母平均の推定値として望ましいと考えられる。

 

標準偏差

前置きが長くなったが、標本(サンプル)と母集団の関係を整理したところで、標準偏差と標準誤差についての説明に入りたい。

 

標準偏差とはサンプルを抽出した時のサンプルのばらつきを示す。人口100万人の都市で無作為に100人をサンプルとして抽出することを考えてみたときに、その中には10歳の人もいれば80歳の人もいるかもしれない。100人のサンプルの年齢について調べるとすると、その100人の中での年齢のばらつきが、標準偏差となる。

 

標準誤差

対して標準誤差は、標本平均のばらつきとなる。

100人サンプルを抽出したときの年齢の平均が35歳だったとする。しかし、同じ母集団(人口100万人の都市)からもう一度100人を抽出してみると、今度は年齢の平均が40歳になるかもしれない。

 

このように繰り返しサンプルを何度も抽出すると、その度毎に違った標本平均が算出される。この標本平均のちらばりのことを、標準誤差という。

 

標準偏差と標準誤差の関係

標準偏差と標準誤差には、以下の関係があることが知られている。

se =sd/√n

ここで、nはサンプル数、seは標準誤差、sdは標準偏差である。

 

 

(参考):

Q2 同じ実験を繰り返して得られた平均値の誤差を出すときに,標準偏差と標準誤差ではどちらを用いるのでしょうか?|バイオ実験に絶対使える統計の基本Q&A|実験医学online:羊土社 - 羊土社

税の帰着について―価格弾力性との関係―

本ページでは、いわゆる「税の帰着」についてまとめたい。

ある商品に対して課税した際、その負担は消費者と生産者にどの程度帰着されるのだろうか。

 

課税後に消費者が払う価格をP_d、生産者が商品を販売する価格をP_s、課税額をtとすると、

という関係がある。問題は、この課税額のうち、どの程度消費者の負担、生産者の負担になるかということだ。

 

これは、需要の価格弾力性、供給の価格弾力性という概念を導入することによって明らかにすることができる。基本的に、価格が上昇すると財の需要は減少する。それでは、価格が1%上昇した時に、需要は何%変化するのか。需要の価格弾力性とはこれを表す指標となる。逆に、価格が1%上昇した時に、供給が何%増えるのかを示したのが供給の価格弾力性である。

 

以下、需要の価格弾力性(の絶対値)をE_d、供給の価格弾力性(の絶対値)をE_sとすると、課税額のうち消費者に転嫁される割合は以下のように表せる。

一方、課税額のうち生産者に転嫁される割合は以下のように表せる。

例えば課税額が10で、消費者の負担が3,生産者の負担が7だったとすると、消費者への転嫁割合は30%、生産者への転嫁割合は70%となる。この配分が、上記の式のとおり、それぞれの価格弾力性の大きさによって決定されるということだ。

 

ここから分かるのは、価格弾力性がより大きい方がより多く税を帰着されるということだ。需要曲線、供給曲線のグラフを思い返してみると、傾きが大きい(=より価格弾力性が大きい)ほど税の帰着が大きくなる。

 

 

(参考):

www.investopedia.com

2標本t検定について平たく説明

本ページでは、2標本t検定とは何かについてまとめたい。(ここではいわゆる「対応がない」2標本検定について取り上げている)。

仮説検定の基本的な考え方については、以下のページでまとめている。なお、ここで紹介されているt検定の例は、1標本のt検定である。

hongoh.hatenablog.com

 

2標本t検定とは、異なる二つの独立した母集団から標本を抽出し、その2つの平均に差があるかどうかを検証するものである。

 

2つの集団をA、Bとし、それぞれの母平均をμ_A、μ_Bとすると、この仮説検定における帰無仮説、対立仮説はそれぞれ以下のようになる。

帰無仮説:μ_A = μ_B

対立仮説:μ_A ≠ μ_B

 

そして、それぞれの標本平均をx_A、x_B、標本分散をs^2_A、s^2_B、サンプルサイズをn_A、n_Bとすると、t統計量は

帰無仮説が正しいとき、以下のように表すことができる。

このt統計量は、自由度n_A+n_B -2のt分布に従う。

このt値の値によって、二つの母集団の平均値が同じであること可能性が低いこと(通常5%以下)を示せれば、帰無仮説を棄却することができる。