版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第一講普通最小二乘法的代數(shù)
一、問題
假定y與x具有近似的線性關(guān)系:y=/3o+B\X+£,
其中£是隨機誤差項。我們對萬°、片這兩個參數(shù)的值一
無所知。我們的任務(wù)是利用樣本數(shù)據(jù)去猜測片、注的
取值?,F(xiàn)在,我們手中就有一個樣本容量為N的樣本,
其觀測值是:(%,%),(%,%2),“”(yN,%N)。問題是,如
何利用該樣本來猜測£°、4的取值?
為了回答上述問題,我們可以首先畫出這些觀察
值的散點圖(橫軸X,縱軸y)。既然y與X具有近似
的線性關(guān)系,那么我們就在圖中擬合一條直線:
,=氐+6光。該直線是對y與x的真實關(guān)系的近似,
而反,6分別是對片的猜測(估計)。問題是,如何
確定A與孩,以使我們的猜測看起來是合理的呢?
筆記:
1、為什么要假定y與x的關(guān)系是y=/?()+/?1%+£呢?一種合
理的解釋是,某一經(jīng)濟學(xué)理論認(rèn)*x與y具有線性的因果關(guān)系。
該理論在討論x與y的關(guān)系時認(rèn)為影響y的其他因素是不重要
的,這些因素對y的影響即為模型中的誤差項。
2、y=4+/?]X+£被稱為總體回歸模型。由該模型有:
E(y|x)=&+&x+E(e[%)。既然2代表其他不重要因素對y
的影響,因此標(biāo)準(zhǔn)假定是:E(^|x)=0o故進而有:
E(Mx)=4+gx,這被稱為總體回歸方程(函數(shù)),而
人/X
9=鳳+力工相應(yīng)地被稱為樣本回歸方程。由樣本回歸方程確定
的夕與y是有差異的,y-$被稱為殘差£。進而有:
y=B\X+£,這被稱為樣本回歸模型。
二、兩種思考方法
法一:
(y,%yNS與(%,%,…,一)'是N維空間的兩
點,尺與幺的選擇應(yīng)該是這兩點的距離最短。這可以
歸結(jié)為求解一個數(shù)學(xué)問題:
NN
—%)2=M〃£(K—A)—£王『
i=\A)/i=l
由于%-力是殘差段的定義,因此上述獲得A,與6的方
法即是A與區(qū)的值應(yīng)該使殘差平方和最小。
法二:
給定飛,看起來必與少越近越好(最近距離是0)。
然而,當(dāng)你選擇擬合直線使得外與力是相當(dāng)近的時候,
X與少的距離也許變遠了,因此存在一個權(quán)衡。一種
簡單的權(quán)衡方式是,給定工[,工2,“,樂,擬合直線的選擇
應(yīng)該使X與必、>2與%、…、%與村的距離的平均值
是最小的。距離是一個絕對值,數(shù)學(xué)處理較為麻煩,
因此,我們把第二種思考方法轉(zhuǎn)化求解數(shù)學(xué)問題:
NN
—力)2/N=—A—黑了/N
Pd>P\/=]PQ>P\/=|
由于N為常數(shù),因此法一與法二對于求解A與R的值
是無差異的。
三、求解
N
定義。=£(y-A-/內(nèi)兒利用一階條件,有:
i=\
oO人人
號=X2(y—4―4王)(一1)=0
明0
n儲-8吊)=。⑴
Xg=。
由(1)也有:
?=£)+而
1N1N
在這里產(chǎn)獷小、釬滔X,
筆記:
八/\
這表明:1、樣本回歸函數(shù)$=&+廣]%過點(無,歹),即穿過
數(shù)據(jù)集的中心位置;2、$=9(你能證明嗎?),這意味著,盡
人人A人
管Bo、B、的取值不能保證x-=yi9但0()、P\的取值能夠保證y
方程(1)與(2)被稱為正規(guī)方程,把£)=歹-£天帶
入(2),有:
工[丫-歹-6(七-無)]七=。
A=E(2IZ22^
1
2(七-君王
上述獲得尺、£的方法就是普通最小二乘法(OLS)。
練習(xí):
(1)驗證:
A=2,一刃芯_£,一。)("一君二Z》一君y
12
匕2(七一制22L(XZ.-X)
二Z'y一福.歹
一?w
_N
提示:丸義Z.的蓋看為z.=Z.—Z、則離差之和S'z.=0必為
iII’i
i=\
繆。利用這個簡單的代數(shù)性質(zhì),不難得到:
Z(y一刃(%,-君=Z(y一切不
Z(X-9)(七一亍)=X必(七一H)
筆記:
定義y與x的樣本協(xié)方差、x的樣本方差分別為:
Cov(x,y)=2(七一初y-歹)/N
V。廠(x)=Z(七一無y/N'
則6小包32。
Var(x)
上述定義的樣本協(xié)方差及其樣本方差分別是對總體協(xié)方差5及
其總體方差2的有偏估計。相應(yīng)的無偏估計是:
b人
%=Z(x,—H)(y—F)/(NT)
d=Z(i)2/(NT)
基于前述對VZz?x)與Cov(x,y)的定義,可以驗證:
Var(ci+bx)=b2Var(x)
Cov{a+bx,y)=hCov(x,y)
其中a,b是常數(shù)。值得指出的是,在本講義中,在沒有引起混
淆的情況下,我們有時也用Var(x)>Cou(x,y)來表示總體方
差與協(xié)方差,不過上述公式同樣成立。
(2)假定y=4x+£,用OLS法擬合一個過原點的克
線:§=Bx,求證在OLS法下有:
xy.
E___/—/
并驗證:
筆記:
1、現(xiàn)在只有一個正規(guī)方程,該正規(guī)方程同樣表明
工£丙二0。然而,由于模型無截距,因此在0LS法下我們不
能保證Zg=0恒成立。所以,盡管Z&Xj=0成立,但現(xiàn)在
該式并不急味著Cov(£,x)=0成立。
2、無截距回歸公式的一個應(yīng)用:
丫二4+4%+弓
u>n(y-9)=4(%一君+(弓一3)
y=^+^x+e
定義與二y一歹、Dj=七一無、弓二與一M,則耳二BPito
按照OLS無截距回歸公式,有:
自=£E,=Z(K—田(乙—君
百一Ai
(3)假定了=4+£,用OLS法擬合一水平直線,即:
§=B,求證/二9。
筆記:
證明上式有兩種思路,一種思路是求解一個最優(yōu)化問題,我
們所獲得的一個正規(guī)方程同樣是Z&=。;另外一種思路是,
模型y=〃+£是模型y=〃X+£的特例,利用Z&%=。的
結(jié)論,注意到此時七=1,因此同樣有=o。
(4)對模型〉二尸0+廣科+£進01^估計,證明殘差與
亍樣本不相關(guān),即COu(£J)=0。
四、擬合程度的判斷
(一)方差分解及其R2的定義
可以證明,Var(y)=Var(y)+Var(e)。
證明:
)=/+£=>Var{y}=Var{y}+Var(e)+2cou(£,£)
vCov(y^)=Cov(B()+B、X,£)=£Cou(x,C)=0
:.Var(y)=Var(y)+Vkzr(^)
方差表示一個變量波動的信息。方差分解亦是信息分
解。建立樣本回歸函數(shù)f=時,從直覺上看,
我們當(dāng)然希望關(guān)于勺的波動信息能夠最大程度地體現(xiàn)
關(guān)于y的波動信息。因此,我們定義判定系數(shù)
心=肛應(yīng),顯然,0</?2<lo如果R2大,則y的波
Var(y)
動信息就越能夠被勺的波動信息所體現(xiàn)。R2也被稱為
擬合優(yōu)度。當(dāng)R2=l時,Var(£)=0,而殘差均值又為
零,因此著各殘差必都為零,故樣本回歸直線與樣本
數(shù)據(jù)完全擬合。
(二)總平方和、解釋平方和與殘差平方和
定義:
TSS=E(X7¥
ESS=Z?")2=X(t-W
RSS=£②金)2=*;
其中TSS、ESS、RSS分別被稱為總平方和、解釋平
方和與殘差平方和。根據(jù)方差分解,必有:
TSS=ESS+RSS。因止匕,R2=ESS/TSS=1-RSS/TSS
(三)關(guān)于R2的基本結(jié)論
1、R2也是y與5;的樣本相關(guān)系數(shù)r的平方。
證明:
>=$+£=>Cov(y,9)=Wzr(j)+Cou(£,y)=Var(y)
=/==匹?9)=*
rVar(y^ar{y}Var(y)
2、對于簡單線性回歸模型:y=&+&x+£,R2是y
與X的樣本相關(guān)系數(shù)的平方。
證明:
R2=CW(yj)=Cov2(y,8q+B\X)=斤CW(y,%)
Var(y)Var(y)y)+£x)^Var(y)Var(x)
=[。絲]2=f2
JVar(y)W"(x)?”
練習(xí):
(1)對于模型:>=/?+£,證明在OLS法下R2=0。
(2)對于模型:y=£()+£/+£,證明在OLS法
R2”:Var(x)
Var(y)
警告!
軟件包通常是利用公式穴2=1—RSS/TSS,其中
RSS=Z居來計算R?。應(yīng)該注意到,我們在得到結(jié)論
Z(y-歹了=-y)2+時利用了》=o的性
質(zhì),而該性質(zhì)只有在擬合直線帶有截距時才成立,因
此,如果擬合直線無截距,則上述結(jié)論并不一定成立,
因此,此時我們不能保證R2為一非負(fù)值??偠灾?,
在利用R?時,我們的模型一定要帶有截距。當(dāng)然,還
有一個大前提,即我們所采用的估計方法是OLS。
五、自由度與調(diào)整的R?
如果在模型中增加解釋變量,那么總的平方和不
變,但殘差平方和至少不會增加,一般是減少的。為
什么呢?舉一個例子。假如我們用OLS法得到的模型
估計結(jié)果是:a=A+6xj+A%2,,此時,OLS法估
計等價于求解最小化問題:
N人人人
盛4E(y「儲一8網(wǎng)一8.2了
DQFI,%j=\
令最后所獲得的目標(biāo)函數(shù)值(也就是殘差平方和)
為RSS1?,F(xiàn)在考慮對該優(yōu)化問題施加約束:A=0并
求解,則得到目標(biāo)函數(shù)值RSS2。
比較上述兩種情況,相對于RSS1,RSS2是局部
最小。因此,RSS1小于或等于RSS2。應(yīng)該注意到,
原優(yōu)化問題施加約束后對應(yīng)于模型估計結(jié)果:
%=6+編
因此,如果單純依據(jù)R2標(biāo)準(zhǔn),我們應(yīng)該增加解釋
變量以使模型擬合得更好。增加解釋變量將增加待估
計的參數(shù),在樣本容量有限的情況下,這并不一定是
明智之舉。這涉及到自由度問題。
什么叫自由度?假設(shè)變量x可以自由地取N個值
(王,孫…,%N),那么x的自由度就是N。然而,如果施
加一個約束,、>,=,,。為常數(shù),那么X的自由度就
減少了,新的自由度就是N-1。
考慮在樣本回歸直線力=A+及J+瓦%下殘差
£的自由度問題。對殘差有多少約束?根據(jù)正規(guī)方程
(1)(2),有:因此存在兩個約
束。故殘差的自由度是N-2。如果當(dāng)樣本回歸函數(shù)是:
0=BO+B\X'B/,則殘差的自由度為N-3。顯然,待
估計的參數(shù)越多,則殘差的自由度越小。
自由度過少會帶來什么問題?簡單來說,自由度
過少會使估計精度很低。例如,我們從總體中隨機抽
取石,工2,…,來計算元以作總體均值的估計,現(xiàn)在X的
自由度是N,顯然N越大則以亍作為總體均值的估計
越精確。
根據(jù)正規(guī)方程,我們是通過殘差來獲得對參數(shù)的
估計,因此,殘差自由度過少意味著我們對參數(shù)的估
計也是不精確的。
筆記:
舉一個極端的例子,對葡單線性回歸模型,假定我們只有兩
次觀測(,,芯)、(%,無2)。顯然,我們可以保證R'n,即完全擬
合。但我們得到的這個擬合直線很可能與y與x的真實關(guān)系相去
甚遠,畢竟我們只有兩次觀測。事實上,此時殘差的自由度為0!
我們經(jīng)常需要對估計方法進行自由度調(diào)整。例如,
當(dāng)利用公式V"(x)=Z(%,-元)2/N來估計總體方差
時,我們實際上是對變量(X-君2求樣本均值。然而應(yīng)
該注意到,約束條件Z(x,-君=0恒成立,這意味著
變量(X-君2的自由度是NJ而不是N。現(xiàn)在對估計方
法進行自由度調(diào)整,利用君2作為對
總體方差的估計。上述兩種估計具有什么不同的后果
呢?可以證明,%?%)是有偏估計而S;是無偏估計。
筆記:
什么叫有偏估計?如果我們無限次重復(fù)抽串樣本容量為N的
樣本,針對每一個樣本都可以依據(jù)公式
va廠共1jj-y),計算總體方差的一個估計值。然后,
對這些方差的估計值計算平均值,如果該平均值不等于總體方
差,那么我們就稱VZzr(x)是對總體方差的一個有偏估計。抽象
一點,E[Var(x)]8^o
IV忽視了自由度調(diào)整,這由下面的推導(dǎo)可以看出:
R2=iZ得=11為「(旬
在這里,V"(£)與V〃(y)都是對相應(yīng)總體方差的有偏
估計?,F(xiàn)在我們對自由度作調(diào)整,重新定義一個指標(biāo),
即所謂的調(diào)整的R2(4):
TRSS/(N-2)
F=1
--二一TSS/(N—?
Z(y一丁)
N-l
應(yīng)該注意到,如果是針對多元線性回歸模型,待估
計的斜率參數(shù)有k個,另外還有1個截距(即總的待
估計系數(shù)參數(shù)的個數(shù)為k+1個),那么上述公式就是:
-=/SS/(N-I)?上L
TSS/(N—N-k-\
乃且可能為負(fù)數(shù)。
思考題:
如果用增加解釋變量的方法來提高R2,這一定會
提高R2嗎?
筆記:
人人/X
假設(shè)甲同學(xué)的回歸結(jié)果是y=&+/?丙+四/+£,而乙同
人/X
學(xué)的回歸結(jié)果是),=加+/7優(yōu)+£'。甲同學(xué)足夠幸運,他獲得
的/?2確實比乙同學(xué)所獲得的高,但這是否就意味著,依據(jù)已有
的樣本,甲同學(xué)所選取的模型就一定優(yōu)于乙同學(xué)所選取的呢?答
案是“不一定!乙對模型的選取不能僅僅依靠R?這個指標(biāo),其
他的因素應(yīng)該被考慮,例如,模型是否符合經(jīng)濟學(xué)理論,估計參
數(shù)是否有符合預(yù)期的符號,這些因素在模型選擇時都十分重要。
另外一點也特別要引起重視,即被解釋變量不同的模型(例如一
個模型的被解釋變量是logy,而另一個模型其被解釋變量是y)
其R2(或者A2)是不可比的??偠灾?,初學(xué)者要堅決抵制僅
2
僅依靠R來進行模型選擇的誘惑!
六、簡單線性回歸模型的拓展:多元線性回
歸模型
考慮£=A+各系數(shù)的估計按照OLS
是求解數(shù)學(xué)問題:
NN
MinZ(X一A一瓦。一瓦%了
A),PI.K2[.]口o鳳fh.a
因此,存在三個正規(guī)方程:
6司一曲20=工3=o
<E(y「及-仄入-隈21)%=工亂入=。
Z(y-A)--常)4=£通=o
第一個方程意味著殘差之和為零,也意味著手=歹及其
歹=尺+/西+以雙
筆記:
第一個正規(guī)方程Zg=0可以被改寫為
=。,%=1。
第二個方程結(jié)合第一個正規(guī)方程意味著殘差與Xi樣本
不相關(guān);
第三個方程結(jié)合第一個正規(guī)方程意味著殘差與X2樣本
不相關(guān)。
根據(jù)上述三個方程,可以獲得A、反、A,在此
不給出具體公式。
筆記:
對于估計結(jié)果夕=4+注%+62七,是不是打的數(shù)值大于
A
以就一定意味著在解釋變量y時々比玉更加重要呢?答案是
“不一定!”。這是因為,通過對々與占取不同的測量單位,那
么超與玉前面的估計系數(shù)值將發(fā)生改變。有一種辦法可以使估
計系數(shù)不隨解釋變量的測度單位變化而變化,其基本原理如下:
y=/)+4甌?+尸22+弓]
9=A+6x+A元2I
/\A
=X一—=4(甌一%)+42(%2,—豆)+£
n"立=加名)也』+神里)玉二上+工片
SyS),5VISy先Sy
在這里S表示變量的樣本標(biāo)準(zhǔn)差。定義:
/\AS/\AS
b\=B,3比=仇上
sysy
則有:z=b[Zx、+h2zx.+£1。
-vVj1i\?xi2
在新模型中,解釋變量是原變量的標(biāo)準(zhǔn)化,它是無量綱的。
人
保持其他因素不變,當(dāng)Az=1時,Az。注急到
xli>i=h1
Az=A(―——),當(dāng)樣本容量很大時石與s分別和總體均值
x\ic1x\
xl
"一及其總體標(biāo)準(zhǔn)差3.近似,因此Az-xo類似,
X[X]A|j11/sX]
A
、急味著「因此對右的一個
AzAy../5oAz=1AX|;ps1
>i/J],>v\AtI/KAI
翻譯是,保持其他因素不變,當(dāng)王變化一個標(biāo)準(zhǔn)差時,y約將變
人人
化4個標(biāo)準(zhǔn)差。類似可以對A進行翻譯。
八
/?被稱為標(biāo)準(zhǔn)化系數(shù)或者月系數(shù)。在實踐中,我們可以先利
用標(biāo)準(zhǔn)化變量進行無截距回歸得到標(biāo)準(zhǔn)化系數(shù),然后反推出非標(biāo)
準(zhǔn)化變量回歸模型中的各個斜率系數(shù)的估計值。
七、OLS的矩陣代數(shù)
(一)矩陣表示
總體多元回歸模型是:
%=4+自為j+分24j+…+4%+弓”=L…,N
如果用矩陣來描述,首先定義下列向量與矩陣:
/4
/\
(g、x
X1\\xk\4
S21否2…々2
Y=*,u=*,X=????,B=…
?*????
????4
產(chǎn)N,}X\N…XkNj
\
模型的矩陣表示:
Y=X0+U
(二)如何得到OLS估計量?
求解一個最小化問題:MinQ—XB)S—XB),有:
B
21yBy(丫二x£)]_S[(r二"x,)(y—x£)]
印/\印/X
_d(yyyx/"xy+"xx£)_0
而根據(jù)矩陣微分的知識(見下面的筆記),有:
叫丫)=€0(y#)=(yx),=xy
鄧鄧
d{p'X'Y}=x,Y0("X36)=xx£+(£,xXy=2XX/
鄧dp
故,XY=XXB,則£=(xx)-i(xy)
筆記:
1、d(a'b)/db=d(t/a)/db=ad(brAb)/db=2Ab。在這里,
〃同是向量,4M〃是對稱矩陣,。為與"4人都是標(biāo)量。重要規(guī)
則是:一個標(biāo)量關(guān)于一個列向量的導(dǎo)數(shù)仍是列向量,并且維數(shù)保
持不變。
2、矩陣微分規(guī)則與標(biāo)準(zhǔn)的微積分學(xué)中的微分規(guī)則具有一定的
對應(yīng)性。假定/(x,\,)=必")〃(),),則*門=g(x)/?(),)+M(y)。注
OXOX
意到:=x,xBzBxxy=2xxB,在這里?xx之
明
所以要取轉(zhuǎn)置,是因為按照規(guī)則:一個標(biāo)量關(guān)于一個列向量的導(dǎo)
數(shù)仍是列向量,而/'XX是一個行向量>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 居間合同2025年度版:定義、屬性與服務(wù)質(zhì)量評估體系3篇
- 二零二五年度能源項目權(quán)益轉(zhuǎn)讓與投資合同3篇
- 二零二五年軟件開發(fā)服務(wù)合同4篇
- 二零二五版智能LED戶外廣告平臺合作項目合同3篇
- 影視器材租賃與技術(shù)服務(wù)2025年度合同3篇
- 二零二五年度房地產(chǎn)開發(fā)項目造價咨詢合同6篇
- 二零二五版搬家運輸合同:搬家運輸途中物品丟失賠償3篇
- 二零二五版海鮮加盟店日常運營管理與維護服務(wù)合同范本2篇
- 二零二五年度車輛轉(zhuǎn)讓附帶綠色出行獎勵政策合同3篇
- 二零二五年度智能辦公桌椅研發(fā)合作合同2篇
- 一年級語文雨點兒-教學(xué)課件【希沃白板初階培訓(xùn)結(jié)營大作業(yè)】
- 替格瑞洛藥物作用機制、不良反應(yīng)機制、與氯吡格雷區(qū)別和合理使用
- 河北省大學(xué)生調(diào)研河北社會調(diào)查活動項目申請書
- GB/T 20920-2007電子水平儀
- 如何提高教師的課程領(lǐng)導(dǎo)力
- 企業(yè)人員組織結(jié)構(gòu)圖
- 日本疾病診斷分組(DPC)定額支付方式課件
- 兩段焙燒除砷技術(shù)簡介 - 文字版(1)(2)課件
- 實習(xí)證明模板免費下載【8篇】
- 復(fù)旦大學(xué)用經(jīng)濟學(xué)智慧解讀中國課件03用大歷史觀看中國社會轉(zhuǎn)型
- 案件受理登記表模版
評論
0/150
提交評論