版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第一講普通最小二乘法的代數
一、問題
假定y與x具有近似的線性關系:丁=4+四%+£,
其中£是隨機誤差項。我們對用、用這兩個參數的值一
無所知。我們的任務是利用樣本數據去猜測河、舟的
取值?,F在,我們手中就有一個樣本容量為N的樣本,
其觀測值是:(X,%),(%,%2),…,(VN,%N)。問題是,如
何利用該樣本來猜測小、力的取值?
為了回答上述問題,我們可以首先畫出這些觀察
值的散點圖(橫軸x,縱軸y)。既然y與x具有近似
的線性關系,那么我們就在圖中擬合一條直線:
£=尺+頂工。該直線是對y與x的真實關系的近似,
而反,區(qū)分別是對用,4的猜測(估計)。問題是,如何
確定瓦與笈,以使我們的猜測看起來是合理的呢?
筆記:
1,為什么要假定y與x的關系是丁=&+/%+£呢?一種合
理的解釋是,某一經濟學理論認為x與y具有線性的因果關系。
該理論在討論x與y的關系時認為影響y的其他因素是不重要
的,這些因素對y的影響即為模型中的誤差項。
2、y=4+四%+£被稱為總體回歸模型。由該模型有:
E(y\%)=4+(3\X+E(目x)。既然£代表其他不重要因素對y
的影響,因此標準假定是:E(^|x)=Oo故進而有:
E(y|x)=/?()+4%,這被稱為總體回歸方程(函數),而
八.
9=4)+/?|X相應地被稱為樣本回歸方程。由樣本回歸方程確定
的9與y是有差異的,丁一$被稱為殘差£。進而有:
人人
y=4)+4x+£,這被稱為樣本回歸模型。
二、兩種思考方法
法一:
(如為,…,4)'與(%,%,…,N)'是N維空間的兩
點,A與樂的選擇應該是這兩點的距離最短。這可以
歸結為求解一個數學問題:
NN
2
一X-)="譏Z(K一方。一BN
A)>P\??=]i=i
由于y-白.是殘差我的定義,因此上述獲得瓦與6的方
法即是A與6的值應該使殘差平方和最小。
法二:
給定王,看起來X與力越近越好(最近距離是0)。
然而,當你選擇擬合直線使得y與無是相當近的時候,
匕與少的距離也許變遠了,因此存在一個權衡。一種
簡單的權衡方式是,給定擬合直線的選擇
應該使,與%、%與%、…、W與片的距離的平均值
是最小的。距離是一個絕對值,數學處理較為麻煩,
因此,我們把第二種思考方法轉化求解數學問題:
NN
Ly/N=一A-/N
PQ>P\/=|A)/j=]
由于N為常數,因此法一與法二對于求解A與分的值
是無差異的。
三、求解
N
定義。=£(/-6)-/心)2,利用一階條件,有:
/=1
SQ=£2(K—A—£%)(—1)=0
=>Z(y-A-/內)=。(1)
IX=。
由(1)也有:
歹=氐+而
[N'N
在這里歹丁N、元=后卒
筆記:
人A
這表明:1、樣本回歸函數5=/?()+/?]不過點(亂歹),即穿過
數據集的中心位置;2、$=歹(你能證明嗎?),這意味著,盡
人人A人
管Bo、0、的取值不能保證切=yi9但0o、P\的取值能夠保證y
的平均值與y的平均值相等;3、雖然不能保證每一個殘差都為0,
AA
但我們可以保證殘差的平均值為0。從友覺上看,0()、/作為對
00、4的一個良好的猜測,它們應該滿足這樣的性質。
簿=£2(-J(f)=O
=6)—6%)七二。⑵
z3=。
筆記:
對于簡單線性回歸模型:y=0()+0\X+2,在0LS法下,
由正規(guī)方程(1)可知,殘差之和為零【注意:只有擬合直線帶
有截距時才存在正規(guī)方程(1)Jo由正規(guī)方程(2),并結合正規(guī)
方程(1)有:
「__見練習⑴提示一-
£g七=0nZ(&—£)%=Z(&—2)(七—無)=0
=>Cov(e,x)=0
無論用何種估計方法,我們都希望殘差所包含的信息價值很小,
如果殘差還含有大量的信息價值,那么該估計方法是需要改進
的!對模型y=&+%x+6?利用OLS,我們能保證(1):殘差
均值為零;(2)殘差與解釋變量x不相關【一個變量與另一個變
量相關是一個重要的信息Jo
方程(1)與(2)被稱為正規(guī)方程,把A=y-成了帶
入(2),有:
-一一6(七一君士=。
1
2(%-元)%
上述獲得瓦、4的方法就是普通最小二乘法(OLS)。
練習:
(1)驗證:
A=Z(y一歹加=Z(Y一>)(七一君=£(乙一無)避
1
Z(N—君玉2(七一元)2Z(為一元)2
二£七必一改?歹
一?際
_N
提示:定義Z.的商差為z.=Z.—Z,則離差之和yz.=0必為
IIITI
1=1
繆。利用這個簡單的代數性質,不難得到:
Z(x一歹)(了,?一箱=Z(必一力七
X(,一歹)(七一三)=Xy,(七一工)
筆記:
定義y與x的樣本協方差、x的樣本方差分別為:
Cov(x,y)=—MX%—9)/N
Var(x)=^xi-xf/N'
ACov(x.y)
則片二--------------o
V7zr(x)
上述定義的樣本協方差及其樣本方差分別是對總體協方差S及
xy
其總體方差3;的有偏估計。相應的無偏估計是:
5孫二Z(七一幻(》—y)/(N—1)
d=Z(—>/(NT)
基于前述對VZzr(x)與。。y(x,y)的定義,可以驗證:
Var(a+bx)=b2Var(x)
Cov{a+bx,y)=bCov{x,y)
其中a,b是常數。值得指出的是,在本講義中,在沒有引起混
淆的情況下,我們有時也用Var(x)、G?u(x,y)來表示總體方
差與協方差,不過上述公式同樣成立。
(2)假定)+用OLS法擬合一個過原點的克
線:g=8X,求證在OLS法下有:
并驗證:2?;+泊
筆記:
1、現在只有一個正規(guī)方程,該正規(guī)方程同樣表明
£?內=0。然而,由于模型無截距,因此在OLS法下我們不
能保證=0恒成立。所以,盡管.玉二。成立,但現在
該式并不急味著Gou(£,x)=0成立。
2、無截距回歸公式的一個應用:
?=4+4%+弓
U=(y—力=4(七一君+(《一習
定義耳二y一y、Dj=X,一元、3=£[百,則與=BPi多o
按照0LS無截距回歸公式,有:
.二二Z(y一歹)(七一制
£D廠2(工廠“
(3)假定y=〃+£,用OLS法擬合一水平直線,即:
§=B,求證/二9。
筆記:
證明上式有兩種思路,一種思路是求解一個最優(yōu)化問題,我
們所獲得的一個正規(guī)方程同樣是工其二。;另外一種思路是,
模型y=尸+£是模型y=/x+C的特例,利用2g七二0的
結論,注意到此時看二1,因此同樣有=。。
(4)對模型y=A+/]X+e進OLS估計,證明殘差與
勺樣本不相關,即Cou(£J)=0。
四、擬合程度的判斷
(一)方差分解及其R2的定義
可以證明,Var(y)=Var(y)+Var(^)。
證明:
y=夕+£=>Var(y)=Var(y)+Var⑹+2Cov(y,£)
Cov(y9c)=Cov(Bo+B\X£)=6coycx,£)=0
Wzr(y)=Var{y}+Var(s)
方差表示一個變量波動的信息。方差分解亦是信息分
解。建立樣本回歸函數?=A+£x時,從直覺上看,
我們當然希望關于9的波動信息能夠最大程度地體現
關于y的波動信息。因此,我們定義判定系數
R2=?3顯然,owNw]。如果R2大,貝勃的波
Var(y)
動信息就越能夠被9的波動信息所體現。R2也被稱為
擬合優(yōu)度。當R2=l時,V"(£)=0,而殘差均值又為
零,因此著各殘差必都為零,故樣本回歸直線與樣本
數據完全擬合。
(二)總平方和、解釋平方和與殘差平方和
定義:
7ss=X(%—歹了
ESS=2@-})2=£@-?
RSS=£仁[名)2=工號
其中TSS、ESS、RSS分別被稱為總平方和、解釋平
方和與殘差平方和。根據方差分解,必有:
TSS=ESS+RSS。因止匕,R2=ESS/TSS=1-RSS/TSS
(三)關于R2的基本結論
1、R2也是y與9的樣本相關系數r的平方。
證明:
y=9+£=>Cov(y,y)=Var(y)+Cov(e,y)=Var(y)
=/=C/F(y5)=9)二R2
Var(y)Var(y)Var(y)
2、對于簡單線性回歸模型:y=4)+4x+e,R2是y
與X的樣本相關系數的平方。
證明:
R2=C—2(y,y)=Cov2(y,Bo+8iX)=片Co",%)
Var(y)Var(y)Var(y)Var(灰+Bg^2VfZ7<y)l4zr(x)
二[C嗎yj『二r2
]Var(y)y/Var(x)
練習:
(1)對于模型:y=B+e,證明在OLS法下R2=0。
(2)對于模型:y=/?()+/?d+£,證明在OLS法
Var(x)
R2=A2
Var(y)
警告!
軟件包通常是利用公式R2=1—RSS/TSS,其中
RSS=Z得來計算R2。應該注意到,我們在得到結論
Z(y一少了=—少了+時利用了■=o的性
質,而該性質只有在擬合直線帶有截距時才成立,因
此,如果擬合直線無截距,則上述結論并不一定成立,
因此,此時我們不能保證R2為一非負值??偠灾?/p>
在利用R2時,我們的模型一定要帶有截距。當然,還
有一個大前提,即我們所采用的估計方法是OLS。
五、自由度與調整的R2
如果在模型中增加解釋變量,那么總的平方和不
變,但殘差平方和至少不會增加,一般是減少的。為
什么呢?舉一個例子。假如我們用OLS法得到的模型
估計結果是:R=A++此時,OLS法估
計等價于求解最小化問題:
N人人人
四河Z(丫一A一瓦。一Aw,只
%用,"2i=l
令最后所獲得的目標函數值(也就是殘差平方和)
為RSS1?,F在考慮對該優(yōu)化問題施加約束:A=0并
求解,則得到目標函數值RSS2。
比較上述兩種情況,相對于RSS1,RSS2是局部
最小。因此,RSS1小于或等于RSS2。應該注意到,
原優(yōu)化問題施加約束后對應于模型估計結果:
%=園+編
因此,如果單純依據R2標準,我們應該增加解釋
變量以使模型擬合得更好。增加解釋變量將增加待估
計的參數,在樣本容量有限的情況下,這并不一定是
明智之舉。這涉及到自由度問題。
什么叫自由度?假設變量x可以自由地取N個值
(為,%,…,/),那么x的自由度就是N。然而,如果施
加一個約束,。為常數,那么x的自由度就
減少了,新的自由度就是N-1。
考慮在樣本回歸直線少=A+向4+A%z下殘差
£的自由度問題。對殘差有多少約束?根據正規(guī)方程
(1)(2),有:Z我=°;?"=°,因此存在兩個約
束。故殘差的自由度是N-2。如果當樣本回歸函數是:
£=凡+用光+Az,則殘差的自由度為N-3。顯然,待
估計的參數越多,則殘差的自由度越小。
自由度過少會帶來什么問題?簡單來說,自由度
過少會使估計精度很低。例如,我們從總體中隨機抽
取%1,%2,…,赤來計算亍以作總體均值的估計,現在X的
自由度是N,顯然N越大則以亍作為總體均值的估計
越精確。
根據正規(guī)方程,我們是通過殘差來獲得對參數的
估計,因此,殘差自由度過少意味著我們對參數的估
計也是不精確的。
筆記:
舉一個極端的例子,對葡單線性回歸模型,假定我們只有兩
次觀測(X,%)、(),2,%2)。顯然,我們可以保證R'n,即完全擬
合。但我們得到的這個擬合直線很可能與y與x的真實關系相去
甚遠,畢竟我們只有兩次觀測。事實上,此時殘差的自由度為0!
我們經常需要對估計方法進行自由度調整。例如,
當利用公式V"(x)=Z(%L君2/N來估計總體方差
時,我們實際上是對變量(%-亍)2求樣本均值。然而應
該注意到,約束條件君=。恒成立,這意味著
變量(X-君2的自由度是NJ而不是N?,F在對估計方
法進行自由度調整,利用年=£[(%-君2作為對
總體方差的估計。上述兩種估計具有什么不同的后果
呢?可以證明,V”(x)是有偏估計而是無偏估計。
筆記:
什么叫有偏估計?如果我們無限次重復抽串樣本容量為N的
樣本,針對每一個樣本都可以依據公式
V?r“6一幺).計算總體方差的一個估計值。然后,
對這些方差的估計值計算平均值,如果該平均值不等于總體方
差,那么我們就稱VZz?x)是對總體方差的一個有偏估計。抽象
一點,即E\Var(xy\w5;。
R2忽視了自由度調整,這由下面的推導可以看出:
可_]Z"_1rZJ_1Varg)
2(i)2lS(y_-)2”
在這里,Vw(£)與V"(y)都是對相應總體方差的有偏
估計?,F在我們對自由度作調整,重新定義一個指標,
即所謂的調整的R2(4):
TRSSMN-2)
方=1「
"-TSS/(N—\)
N—1
應該注意到,如果是針對多元線性回歸模型,待估
計的斜率參數有k個,另外還有1個截距(即總的待
估計系數參數的個數為k+1個),那么上述公式就是:
產VW,且可能為負數。
思考題:
如果用增加解釋變量的方法來提高R2,這一定會
提高R2嗎?
筆記:
/\/\/X
假設甲同學的回歸結果是y=&+才X]+/72々+£,而乙同
八/X
學的回歸結果是y=片+萬優(yōu)+£'。甲同學足夠幸運,他獲得
的R-確實比乙同學所獲得的高,但這是否就意味著,依據已有
的樣本,甲同學所選取的模型就一定優(yōu)于乙同學所選取的呢?答
案是“不一定!乙對模型的選取不能僅僅依靠A2這個指標,其
他的因素應該被考慮,例如,模型是否符合經濟學理論,估計參
數是否有符合預期的符號,這些因素在模型選擇時都十分重要。
另外一點也特別要引起重視,即被解釋變量不同的模型(例如一
個模型的被解釋變量是logy,而另一個模型其被解釋變量是y)
其R2(或者A2)是不可比的。總而言之,初學者要堅決抵制僅
僅依靠R2來進行模型選擇的誘惑!
六、簡單線性回歸模型的拓展:多元線性回
歸模型
考慮f=A+G玉+A%2,各系數的估計按照OLS
是求解數學問題:
NN
M詛—Ry="譏2(丫一A—6%—Az)?
A),川.夕12j=]夕0血.夕2,=]
因此,存在三個正規(guī)方程:
Z();-及、-B\X「蕊)=Z/=o
<工(y]樂-A%-隈2])與=£沐i=o
£(y—氐一說:—Az",=二°
第一個方程意味著殘差之和為零,也意味著手二歹及其
八/\A
9二片+/西+雙可
筆記:
第一個正規(guī)方程Zg=0可以被改寫為
X&%=O,%=1.
第二個方程結合第一個正規(guī)方程意味著殘差與XI樣本
不相關;
第三個方程結合第一個正規(guī)方程意味著殘差與X2樣本
不相關。
根據上述三個方程,可以獲得瓦、A,在此
不給出具體公式。
筆記:
對于估計結果$=/?()+四X]+月2%,是不是打的數值大于
八
々就一定意味著在解釋變量y時/比西更加重要呢?答案是
“不一定!”。這是因為,通過對馬與否取不同的測量單位,那
么々與不前面的估計系數值將發(fā)生改變。有一種辦法可以使估
計系數不隨解釋變量的測度單位變化而變化,其基本原理如下:
人人人、
X=/)+/%,+尸2弓+我]
歹二尺+函+月虧j
/XA
=>%一—=4ai—%)+?2(/i—豆)+&
n上£土二五+區(qū)里)上務+工g
外S),與'''%
在這里S表示變量的樣本標準差。定義:
_¥-y_甌?-%7_"元2L7"
一,,―2一
人S人S
…戶4=昆上
LSy
/X/\*
則有:z=b,z+bz+£o
yv>1xri\92xrn;1
在新模型中,解釋變量是原變量的標準化,它是無量綱的。
A
保持其他因素不變,當Az=1時,Az=6。注意到
勺ry,1
Az=A(―——),當樣本容量很大時用與s分別和總體均值
x1A
licl
*
以.及其總體標準差夕近似,因此、,類似,
A|A|AzA|jxM1iJ§A|…
A
Az?Av.1.1/5oAz=1急味著Ax】;之s、.,因此對"的一個
yv\i'>ViArhlzAI1
翻譯是,保持其他因素不變,當X1變化一個標準差時,y約將變
/XA
化。1個標準差。類似可以對。2進行翻譯。
A
/?被稱為標準化系數或者,系數。在實踐中,我們可以先利
用標準化變量進行無截距回歸得到標準化系數,然后反推出非標
準化變量回歸模型中的各個斜率系數的估計值。
七、OLS的矩陣代數
(一)矩陣表示
總體多元回歸模型是:
%=+0TAi+。2*2盧…+0/匕+£戶'=>,?,,N
如果用矩陣來描述,首先定義下列向量與矩陣:
Y=Xp+U
(二)如何得到OLS估計量?
求解一個最小化問題:Min(}^Xj3y(Y-X^,有:
B
a(yx/y(yx£)]_譏(y-Ax,)(yx£)]
/X人
明印
_e(yy-yx/-"XY+"XX/)_0
而根據矩陣微分的知識(見下面的筆記),有:
乳啰=0
鄧
d(伊XY)r氏
八=xYB'x,6)=xxBzB'xx),=zxxB
邳d(3
故,XY=XXB,則£=(XX)T(XV)
筆記:
1、d(arb)/db=d(tfa)/db=ad(t/Ab)/db=2Ab。在這里,
a?是向量,是對稱矩陣,。名與b'A〃都是標量。重
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年房屋買賣定金合同(含家具贈送條款)樣本3篇
- 2024版辦公家具采購與數字化管理服務合同3篇
- 2024年智能速記軟件合作合同包含1分鐘單詞protocol合作方案2篇
- 2024年度品牌授權使用合同服務范圍2篇
- 2024年度連鎖酒店客房餐飲服務合同3篇
- 2024年度新能源汽車融資擔保合同范本3篇
- 2024年標準化建筑施工合同模板
- 2024年構建我國行政合同救濟制度標準體系的合作合同3篇
- 2024年度嬰幼兒食品質量安全銷售合同規(guī)范3篇
- 航空器材維護修理合同
- 物資出門申請單
- 隱蔽型無追索權國內保理合同模板范本
- 精選四川省2023年普通高中學業(yè)水平考試物理學科實驗操作考查試題
- 數字孿生技術在智慧工廠中的應用解決方案
- 《卵巢腫瘤》ppt課件(PPT 101頁)
- 洪水預報講座20150628
- 部編版六年級上冊語文非連續(xù)性文本閱讀
- 企業(yè)現場6S改進方案
- 咬合樁施工工藝
- 汽輪機課程設計
- CRTSⅠ型雙塊式無砟軌道施工技術
評論
0/150
提交評論