版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第一講普通最小二乘法的代數(shù)
一、問題
假定y與X具有近似的線性關(guān)系:y=△)+/%+£,其
中£是隨機(jī)誤差項(xiàng)。我們對(duì)片、回這兩個(gè)參數(shù)的值一無所
知。我們的任務(wù)是利用樣本數(shù)據(jù)去猜測夕0、4的取值?,F(xiàn)
在,我們手中就有一個(gè)樣本容量為N的樣本,其觀測值
是:(%,%]),(%,馬),??”(川,%N)。問題是,如何利用該樣本
來猜測自、笈的取值?
為了回答上述問題,我們可以首先畫出這些觀察值的
散點(diǎn)圖(橫軸x,縱軸y)。既然y與x具有近似的線性關(guān)
系,那么我們就在圖中擬合一條直線:g=A+6%。該直
線是對(duì)y與x的真實(shí)關(guān)系的近似,而A,4分別是對(duì)用,片的
猜測(估計(jì))。問題是,如何確定氐與囚,以使我們的猜
測看起來是合理的呢?
1、為什么要假定y與x的關(guān)系是丁二4+/X+£呢?一種合理的解
釋是,某一經(jīng)濟(jì)學(xué)理論認(rèn)為乂與丫共有線性的因果關(guān)系。該理論在討論
x與y的關(guān)系時(shí)認(rèn)為影響y的其他因素是不重要的,這些因素對(duì)y的影
響即為模型中的誤差項(xiàng)。
2、y=4+/%+6?被稱為總體回歸模型。由該模型有:
E(y\x)=尸0+^x+E(e|x)。既然e代表其他不重要因素對(duì)y的影
響,因此標(biāo)準(zhǔn)假定是:E(E|X)=0G故進(jìn)而有:
E(y|x)=4)+以x,這被稱為總體回歸方程(函數(shù)),而§=B()+B、x
相應(yīng)地被稱為樣本回歸方程。由樣本回歸方程確定的『與y是有差異
AA
的,y-勺被稱為殘差£。進(jìn)而有:y=Qo+P|X+£,這被稱為樣本
回歸模型。
二、兩種思考方法
法一:
(如當(dāng),…,%)'與(%,%,…JN)'是N維空間的兩點(diǎn),A)
與獨(dú)的選擇應(yīng)該是這兩點(diǎn)的距離最短。這可以歸結(jié)為求解
一個(gè)數(shù)學(xué)問題:
由于y-力是殘差我的定義,因此上述獲得瓦與6的方法
即是瓦與A的值應(yīng)該使殘差平方和最小。
法二:
給定餐,看起來%與少越近越好(最近距離是0)。然
而,當(dāng)你選擇擬合直線使得必與力是相當(dāng)近的時(shí)候,刀與
力的距離也許變遠(yuǎn)了,因此存在一個(gè)權(quán)衡。一種簡單的權(quán)
衡方式是,給定%],%2,“,”心擬合直線的選擇應(yīng)該使必與
%、%與%...均與村的距離的平均值是最小的。距離
是一個(gè)絕對(duì)值,數(shù)學(xué)處理較為麻煩,因此,我們把第二種
思考方法轉(zhuǎn)化求解數(shù)學(xué)問題:
由于N為常數(shù),因此法一與法二對(duì)于求解瓦與£的值是無
差異的。
三、求解
N
定義。=£(%-6)-/丙y,利用一階條件,有:
/=1
由(1)也有:
1N1N
在這里六門尸、釬及J
筆記:
人人
這表明:1、樣本回歸函數(shù)5=/?()+//過點(diǎn)(無,9),即穿過數(shù)據(jù)
---A人
集的中心位置;2、y=y(你能證明嗎?),這急味著,盡管。()、
八/X
的取值不能保證y.=y,但0()、伙的取值能夠保證y的平均值與y的
平均值相等;3、雖然不能保證每一個(gè)殘差都為0,但我們可以保證殘
/\/\
差的平均值為0。從直覺上看,00、4作為對(duì)廣0、川的一個(gè)良好的猜
測,它們應(yīng)該滿足這樣的性質(zhì)。
筆記:
對(duì)于藺單線性回歸模型:y=BNB\X+£,在0LS法下,由正規(guī)
方程(1)可知,殘差之和為零【注意:只有擬合直線帶有截距時(shí)才存
在正規(guī)方程(1)】。由正規(guī)方程(2),并結(jié)合正規(guī)方程(1)有:
__-見練習(xí)⑴提示「一
工2=0nZ(&一£)七=£(我—£)(七—制=。無論
=>Cov(c.x)=0
用何種估計(jì)方法,我們都希望殘差所包含的信息價(jià)值很小,如果殘妾
還含有大量的信息價(jià)值,那么該估計(jì)方法是需要改進(jìn)的!對(duì)模型
y=4+gx+£利用OLS,我們能保證(1):殘差均值為零;(2)
殘差與解釋變量X不相關(guān)【一個(gè)變量與另一個(gè)變量相關(guān)是一個(gè)重要的信
息】O
方程(1)與(2)被稱為正規(guī)方程,把A=9-攻亍帶入(2),
有:
上述獲得反)、4的方法就是普通最小二乘法(OLS)。
練習(xí):
(1)驗(yàn)證:
_N
提示:定義Z,?的離差為Z,=Zj-Z,則離差之和£4=0必為筌。
i=l
利用這個(gè)簡單的代數(shù)性質(zhì),不難得到:
筆記:
定義y與x的樣本協(xié)方差、x的樣本方差分別為:
Cov{x,y)=Z(N-無)(y-刃/N
2
Var(x)=^j(xi-x)/N'
則成=包3。
Var(x)
上述定義的樣本協(xié)方差及其樣本方差分別是對(duì)總體協(xié)方差3及其總體
方差"2的有偏估計(jì)。相應(yīng)的無偏估計(jì)是:
基于前述對(duì)VZzr(x)與Cbu(x,y)的定義,可以驗(yàn)證:
其中a,b是常數(shù)。值得指出的是,在本講義中,在沒有引起混淆的情
況下,我們有時(shí)也用V^r(x)、Cov(x,y)來表示總體方差與協(xié)方差,
不過上述公式同樣成立。
(2)假定y=/7x+e,用OLS法擬合一個(gè)過原點(diǎn)的直線:
$=Bx,求證在OLS法下有:
并驗(yàn)證:
筆記:
1、現(xiàn)在只有一個(gè)正規(guī)方程,該正規(guī)方程同樣表明2g七二0。
然而,由于模型無截距,因此在0LS法下我們不能保證=0恒成
文。所以,盡管2/七二0成立,但現(xiàn)在該式并不意味著
Cbu(£,x)=0成立。
2、無截顯巨回歸公式的一個(gè)應(yīng)用:
?二4+四西+與
U>=>(y-5)二41(玉一君+(憶一刀
定義耳=丫一1、口=Xj―天、ei-81-8,則4二42+令。按
照0LS無截距回歸公式,有:
(3)假定)=分+£,用OLS法擬合一水平直線,即:
'=B,求證/
筆記:
證明上式有兩種思路,一種思路是求解一個(gè)最優(yōu)化問迪,我們所
獲得的一個(gè)正規(guī)方程同樣是£我=0;另外一種思路是,模型
y='+2是模型y=/?x+e的特例,利用Z$%=0的結(jié)論,注意
到此時(shí)七二1,因此同樣有2弓=0o
(4)對(duì)模型y二4+4工+£進(jìn)OLS估計(jì),證明殘差與夕樣
本不相關(guān),即Cou(£J)=0。
四、擬合程度的判斷
(一)方差分解及其R2的定義
可以證明,Vkzr(y)=Var(y)+Var(s)?
證明:
方差表示一個(gè)變量波動(dòng)的信息。方差分解亦是信息分解。
建立樣本回歸函數(shù)9=A+區(qū)]時(shí),從直覺上看,我們當(dāng)然
希望關(guān)于y的波動(dòng)信息能夠最大程度地體現(xiàn)關(guān)于y的波動(dòng)
信息。因此,我們定義判定系數(shù)改=也3,顯然,
Wzr(y)
0<7?2<1O如果R2大,則y的波動(dòng)信息就越能夠被亍的波
動(dòng)信息所體現(xiàn)。R2也被稱為擬合優(yōu)度。當(dāng)心=1時(shí),
匕/廠(£)=0,而殘差均值又為零,因此著各殘差必都為零,
故樣本回歸直線與樣本數(shù)據(jù)完全擬合。
(二)總平方和、解釋平方和與殘差平方和
定義:
其中TSS、ESS、RSS分別被稱為總平方和、解釋平方和與
殘差平方和。根據(jù)方差分解,必有:TSS=ESS+RSS。因
此,R2=ESS/TSS=1-RSS/TSS
(三)關(guān)于R2的基本結(jié)論
1、R2也是y與亍的樣本相關(guān)系數(shù)r的平方。
證明:
2、對(duì)于簡單線性回歸模型:廣4+公:+£,R2是y與X
的樣本相關(guān)系數(shù)的平方。
證明:
R2=Co廿(yj)=CovYy,Ro+Kx)=鬲。卅⑶,%)
Var(y)Var(y)Var(y)Var(^0+^x)^Var(y)Var(x)
=[Cov(乍)J=r2
dVar(y)]Var(x)0'
練習(xí):
(1)對(duì)于模型:y=/3+c,證明在OLS法下R2=0。
(2)對(duì)于模型:),=4+/?I%+£,證明在OLS法
警告!
軟件包通常是利用公式R2=I_RJS/NS,其中
RSS=Z因來計(jì)算R?。應(yīng)該注意到,我們在得到結(jié)論
£(X-?=X(y,-歹了+時(shí)利用了+=。的性質(zhì),而
該性質(zhì)只有在擬合直線帶有截距時(shí)才成立,因此,如果擬
合直線無截距,則上述結(jié)論并不一定成立,因此,此時(shí)我
們不能保證R2為一非負(fù)值??偠灾?,在利用R2時(shí),我們
的模型一定要帶有截距。當(dāng)然,還有一個(gè)大前提,即我們
所采用的估計(jì)方法是OLS。
五、自由度與調(diào)整的R2
如果在模型中增加解釋變量,那么總的平方和不變,
但殘差平方和至少不會(huì)增加,一般是減少的。為什么呢?
舉一個(gè)例子。假如我們用OLS法得到的模型估計(jì)結(jié)果是:
力=尺++A%],此時(shí),OLS法估計(jì)等價(jià)于求解最小
化問題:
令最后所獲得的目標(biāo)函數(shù)值(也就是殘差平方和)為
RSSk現(xiàn)在考慮對(duì)該優(yōu)化問題施加約束:月=0并求解,
則得到目標(biāo)函數(shù)值RSS2O
比較上述兩種情況,相對(duì)于RSS1,RSS2是局部最
小。因此,RSS1小于或等于RSS2。應(yīng)該注意到,原優(yōu)化
問題施加約束后對(duì)應(yīng)于模型估計(jì)結(jié)果:義=a+
因此,如果單純依據(jù)R2標(biāo)準(zhǔn),我們應(yīng)該增加解釋變量
以使模型擬合得更好。增加解釋變量將增加待估計(jì)的參
數(shù),在樣本容量有限的情況下,這并不一定是明智之舉。
這涉及到自由度問題。
什么叫自由度?假設(shè)變量x可以自由地取N個(gè)值
(%],%2,...,痂),那么X的自由度就是N。然而,如果施加一
個(gè)約束,2玉=。,。為常數(shù),那么x的自由度就減少了,
新的自由度就是N-1。
考慮在樣本回歸直線2=鳳+能“+Aw,下殘差e的自
由度問題。對(duì)殘差有多少約束?根據(jù)正規(guī)方程(1)(2),
有:X我=°;?e=0,因此存在兩個(gè)約束。故殘差的自
由度是N-2。如果當(dāng)樣本回歸函數(shù)是:
9=6)+£]X+Az,則殘差的自由度為N-3。顯然,待估計(jì)
的參數(shù)越多,則殘差的自由度越小。
自由度過少會(huì)帶來什么問題?簡單來說,自由度過少
會(huì)使估計(jì)精度很低。例如,我們從總體中隨機(jī)抽取
西,々,…,八來計(jì)算亍以作總體均值的估計(jì),現(xiàn)在X的自由度
是N,顯然N越大則以亍作為總體均值的估計(jì)越精確。
根據(jù)正規(guī)方程,我們是通過殘差來獲得對(duì)參數(shù)的估
計(jì),因此,殘差自由度過少意味著我們對(duì)參數(shù)的估計(jì)也是
不精確的。
筆記:
舉一個(gè)極端的例子,對(duì)簡單線性回歸模型,假定我們只有兩次觀測
(y,X1)、(%,々)。顯然,我們可以保證R2=1,即完全擬合。但我們得
到的這個(gè)擬合直線很可能與y與x的真實(shí)關(guān)系相去甚遠(yuǎn),畢竟我們只有
兩次觀測。事實(shí)上,此時(shí)殘差的自由度為0!
我們經(jīng)常需要對(duì)估計(jì)方法進(jìn)行自由度調(diào)整。例如,當(dāng)
利用公式左〃(%)=Z(%?-君2/N來估計(jì)總體方差時(shí):我們
實(shí)際上是對(duì)變量(%-君2求樣本均值。然而應(yīng)該注意到,約
束條件Z(巧-初=0恒成立,這意味著變量(%-X)2的自由
度是N-1而不是N?,F(xiàn)在對(duì)估計(jì)方法進(jìn)行自由度調(diào)整,利
用火制2作為對(duì)總體方差的估計(jì)。上述兩種
估計(jì)具有什么不同的后果呢?可以證明,V”(x)是有偏估
計(jì)而S;是無偏估計(jì)。
筆記:
什么叫有偏估計(jì)?如果我們無限次重復(fù)抽取樣本容量為N的樣本,
針對(duì)每一個(gè)樣本都可以依據(jù)公式論―(X)=Z(七-x)2/N計(jì)算總體
方差的一個(gè)估計(jì)值。然后,對(duì)這些方差的估計(jì)值計(jì)算平均值,如果該
平均值不等于總體方差,那么我們就稱VZz?x)是對(duì)總體方差的一個(gè)有
偏估計(jì)。抽象一點(diǎn),即仇憶〃。)]W發(fā)。
人
R2忽視了自由度調(diào)整,這由下面的推導(dǎo)可以看出:
在這里,與都是對(duì)相應(yīng)總體方差的有偏估
計(jì)?,F(xiàn)在我們對(duì)自由度作調(diào)整,重新定義一個(gè)指標(biāo),即所
謂的調(diào)整的R2(店):
應(yīng)該注意到,如果是針對(duì)多元線性回歸模型,待估計(jì)的
斜率參數(shù)有k個(gè),另外還有1個(gè)截距(即總的待估計(jì)系數(shù)參
數(shù)的個(gè)數(shù)為k+1個(gè)),那么上述公式就是:
產(chǎn)WR2,且可能為負(fù)數(shù)。
思考題:
如果用增加解釋變量的方法來提高R2,這一定會(huì)提高
R2嗎?
筆記:
/X/XA
假設(shè)甲同學(xué)的回歸結(jié)果是y=/3()+臟\+J32X2+£,而乙同學(xué)的
回歸結(jié)果是丁=氏+4'否+£’。甲同學(xué)足夠幸運(yùn),他獲得的確實(shí)
比乙同學(xué)所獲得的高,但這是否就意味著,依據(jù)已有的樣本,甲同學(xué)
所選取的模型就一定優(yōu)于乙同學(xué)所選取的呢?答案是“不一定!”
對(duì)模型的選取不能僅僅依靠R?這個(gè)指標(biāo),其他的因素應(yīng)該被考慮,例
如,模型是否符合經(jīng)濟(jì)學(xué)理論,估計(jì)參數(shù)是否有符合預(yù)期的符號(hào),這
些因素在模型選擇時(shí)都十分重要。另外一點(diǎn)也特別要引起重視,即被
解釋變量不同的模型(例如一個(gè)模型的被解釋變量是logy,而另一個(gè)
模型其被解釋變量是),)其R2(或者R2)是不可比的??偠灾?/p>
學(xué)者要堅(jiān)決抵制僅僅依靠R2來進(jìn)行模型選擇的誘惑!
六、簡單線性回歸模型的拓展:多元線性回歸
模型
考慮%+A/,各系數(shù)的估計(jì)按照OLS是求
解數(shù)學(xué)問題:
因此,存在三個(gè)正規(guī)方程:
第一個(gè)方程意味著殘差之和為零,也意味著手=歹及其
筆記:
第一個(gè)正規(guī)方程=??梢员桓膶憺?0,%=1。
第二個(gè)方程結(jié)合第一個(gè)正規(guī)方程意味著殘差與XI樣本不相
關(guān);
第三個(gè)方程結(jié)合第一個(gè)正規(guī)方程意味著殘差與X2樣本不相
關(guān)。
根據(jù)上述三個(gè)方程,可以獲得氐、£、A,在此不給
出具體公式。
筆記:
人人人人A
對(duì)于估計(jì)結(jié)果$=/?()+吃、+J32X2,是不是B?的數(shù)值大于僅就一
定意味著在解釋變量)時(shí)工2比X]更加重要呢?答案是“不一定!”o
這是因?yàn)?,通過對(duì)乙與不取不同的測量單位,那么X,與X1前面的估計(jì)
系數(shù)值將發(fā)生改變。有一種辦法可以使估計(jì)系數(shù)不隨解釋變量的測度
單位變1七而變化,其基本原理吱口下:
在這里s表示變量的樣本標(biāo)準(zhǔn)差。定義:
八八*
則有:z=b,z+b,z+£o
yv(1xvi\2xYii1
在新模型中,解釋變量是原變量的標(biāo)準(zhǔn)化,它是無量綱的。保持其
他因素不變,當(dāng)Az,=1時(shí),Az、,=610注怠到Az,.=A(―——),
出yx\i?
不
當(dāng)樣本容量很大時(shí)用1與sA|分別和總體均值以Aj.及其總體標(biāo)準(zhǔn)差瓦Aj近
似,因此Az、,xMJsA類似,AzAv../5oAz=1意味著
x\i11l>1/,”>v1x\iVv
A
以],土與,因此對(duì)々的一個(gè)翻譯是,保持其他因素不變,當(dāng)X1變化一
/X/X
十標(biāo)準(zhǔn)密時(shí),y約將變化々個(gè)標(biāo)準(zhǔn)妾。類似可以對(duì)打進(jìn)行翻譯。
八
/7被稱為標(biāo)準(zhǔn)化系數(shù)或者,系數(shù)。在實(shí)踐中,我們可以先利用標(biāo)準(zhǔn)
化變量進(jìn)行無截距回歸得到標(biāo)準(zhǔn)化系數(shù),然后反推出非標(biāo)準(zhǔn)化變量回
歸模型中的各個(gè)斜率系數(shù)的估計(jì)值。
七、OLS的矩陣代數(shù)
(一)矩陣表示
總體多元回歸模型是:
如果用矩陣來描述,首先定義下列向量與矩陣:
模型的矩陣表示:
(二)如何得到OLS估計(jì)量?
求解一個(gè)最小化問題:MinQ—XB)S—XB),有:
B
而根據(jù)矩陣微分的知識(shí)(見下面的筆記),有:
d(YfY)
d/3=°…y
KXfYS(”x£)=xx£+(/,xxy=2XX6
d/3d/3
故,x,y=xx£,則/=(XX)T(XY)
建記:
fr
1、d{ab)/db=dQyd)ldb=ad(bAb)/db=2Abo在這里,
瑪M是向量,4岡〃是對(duì)稱矩陣,a矽與"A匕都是標(biāo)量。重要規(guī)則是:
一個(gè)標(biāo)量關(guān)于一個(gè)列向量的導(dǎo)數(shù)仍是列向量,弁且維數(shù)保持不變。
2、矩陣微分規(guī)則與標(biāo)準(zhǔn)的微積分學(xué)中的微分規(guī)則具有一定的對(duì)應(yīng)
性。假定/(X,y)-鄧*)/心),則
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 磁盤調(diào)度算法課程設(shè)計(jì)
- 2025版車間生產(chǎn)智能化物流系統(tǒng)承包運(yùn)營合同3篇
- 住宅房屋出租合同樣本簡單版
- 電商頭像插畫課程設(shè)計(jì)
- 2025年智能充電車位租賃及電力接入服務(wù)合同
- 北京石油化工學(xué)院《效果圖2》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025版酒店客房裝修與設(shè)施更新合同3篇
- 2025版教育機(jī)構(gòu)電腦租賃服務(wù)協(xié)議樣本
- 學(xué)習(xí)目標(biāo)計(jì)劃書
- 建筑模板采購合同
- 2023年小學(xué)五年級(jí)下冊英語期末試卷分析,菁選3篇
- DL-T 2231-2021 油紙絕緣電力設(shè)備頻域介電譜測試導(dǎo)則
- 員工月度績效考核管理辦法
- 2023年云南保山電力股份有限公司招聘筆試題庫及答案解析
- GB/T 41904-2022信息技術(shù)自動(dòng)化基礎(chǔ)設(shè)施管理(AIM)系統(tǒng)要求、數(shù)據(jù)交換及應(yīng)用
- GB/T 41908-2022人類糞便樣本采集與處理
- GB/T 3745.1-1983卡套式三通管接頭
- 信息系統(tǒng)運(yùn)維服務(wù)方案
- 簡支梁、懸臂梁撓度計(jì)算程序(自動(dòng)版)
- 統(tǒng)編版小學(xué)四年級(jí)語文上冊五六單元測試卷(附答案)
- 商票保貼協(xié)議
評(píng)論
0/150
提交評(píng)論