計(jì)量經(jīng)濟(jì)學(xué)6-多元線性回歸_第1頁
計(jì)量經(jīng)濟(jì)學(xué)6-多元線性回歸_第2頁
計(jì)量經(jīng)濟(jì)學(xué)6-多元線性回歸_第3頁
計(jì)量經(jīng)濟(jì)學(xué)6-多元線性回歸_第4頁
計(jì)量經(jīng)濟(jì)學(xué)6-多元線性回歸_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、InlrndlitrEioti tnEconomelrics問題的提出1Chapter 6Introduction toMultiple Regression多元線性回歸主要內(nèi)容1. 遺漏變量偏差2. 因果效應(yīng)和回歸分析3. 多元回歸的OLS估計(jì)量4. 多元回歸的擬合優(yōu)度5. 多元回歸中OLS估計(jì)量的分布6. 多重共線性?在加利佛尼亞數(shù)據(jù)集中,盡管較低學(xué)生 /教師比 的學(xué)區(qū)往往具有較高的測試成績,但小班學(xué)區(qū) 的學(xué)生在標(biāo)準(zhǔn)測試中取得好成績可能源于其他 因素。是因?yàn)闆]有考慮到其他因素才得出令人 誤解的結(jié)論嗎?如果是這樣的話,該怎么辦?siriir 11 Sri irkMili k V,? cor

2、str el_pct? (obs=420)?| strel_pct? +str | 1.0000el_pct | 0.1876 1.0000如果學(xué)生/教師比與英語學(xué)習(xí)者百分率之間的相關(guān)系數(shù)為0,則忽略測試成績對學(xué)生/教師比回歸中忽略英語的熟練程度是安全”的。然而,學(xué)生/教師比與英語學(xué)習(xí)者百分率之間的相關(guān)系數(shù)為0.19,表明英語學(xué)習(xí)者越多,則學(xué)生 /教師比越高,即班級(jí)規(guī) 模越大。意味著,測試成績對學(xué)生 /教師比回歸的系數(shù)中可能 包含了這一影響。#遺漏變量對OLS估計(jì)量的影響如果對Y有影響的因素沒有被加入到回歸模型中去,這時(shí)誤 差u會(huì)增加。沒有放入在模型中的變量就是所謂的遺漏變 量。遺漏變量的影響

3、是不可忽視的,它會(huì)致使 OLS估計(jì)量有 偏。例如,在加利佛尼亞數(shù)據(jù)的分析中,影響學(xué)生測試成績 的因素可能包括學(xué)校特征、學(xué)生特征等。遺漏變量要滿足的條件回歸中存在遺漏變量會(huì)導(dǎo)致遺漏變量偏差問題。假設(shè)Z為遺漏變量,要 同時(shí)滿足以下條件:1. 遺漏變量是因變量的一個(gè)決定因素(i.e. Z is part of u)。遺漏變量與回歸中的回歸變量相關(guān)(i.e. corr( Z,X) =0)。2?測試時(shí)間?測試時(shí)間會(huì)影響測試成績;?測試時(shí)間與班級(jí)規(guī)模無關(guān)。?教師停車場面積?教師停車場面積與測試成績無關(guān);?教師停車場面積與班級(jí)規(guī)模有關(guān)。遺漏英語學(xué)習(xí)者百分率(Z)是否存在遺漏變量偏 差?在關(guān)于測試成績的例子中

4、:1.英語語言能力是否影響測試成績?對移民家庭而言,英 語是學(xué)生的第二語言,這從經(jīng)驗(yàn)上看對學(xué)生測試成績是 有影響的,即Z是Y的一個(gè)影響因素。2移民家庭較多的社區(qū)往往并不是十分富裕,這導(dǎo)致這些 學(xué)區(qū)的教育預(yù)算較少,也就是說這些學(xué)校的STR較高,即Z與STR相關(guān)。所以遺漏英語學(xué)習(xí)者百分率存在遺漏 變量偏差。73#?n-1? 2?SX? n ?如果滿足OLS第一個(gè)假設(shè),遺漏變量偏差與第一個(gè)最小二乘假設(shè)遺漏變量偏差意味著第一個(gè)最小二乘假設(shè)E(u Xi)= 0不成立。一元線性回歸中的誤差項(xiàng) u表示除Xj外所有決定Y的因素。 若其中某個(gè)因素與Xi相關(guān),則誤差項(xiàng)與Xi相關(guān)。因此,給定Xi時(shí),Ui的均值不為零

5、。這一相關(guān)性違反了最小二乘的第一個(gè)假設(shè),造成了嚴(yán)重的后果, 即OLS估計(jì)量是有偏的,這個(gè)偏差即使在大樣本下也不會(huì)消失, 因此OLS估計(jì)量是非一致的。遺漏變量偏差公式由( 4.30),nE(Xi- X)Ui? 1 二 -n= 2月 Xi - X) i=1其中 v = (Xi -X)Ui =(Xi -収)Ui.則E(Xi -p)ui = cov(Xi,Ui) = 0.但是如果假設(shè)一不滿足,則#E(Xi - M)Ui = COV(Xi,Ui) = oXu 豐 0#10遺漏變量偏差公式遺漏變量偏差公式p142#分子分母同時(shí)乘以6 +? ? PXU? F= 0.0000R-squared= 0.4264

6、Root MSE= 14.464?1Robust?testscr |Coef. Std. Err. t P|t|95% Conf. Interval?+?str |-1.101296.4328472 -2.540.011-1.95213 -.2504616?el_pct |-.6497768.0310318 -20.940.000-.710775 -.5887786?_cons |686.0322&728224 78.600.000668.8754703.189?testscr =686.0-10STR -0.65PctEL#SER =ni=1回歸標(biāo)準(zhǔn)誤和均方根誤差對于 Yi = % + %X

7、1i + %X2i %Xki + Ui, i = 1, -n,回歸標(biāo)準(zhǔn)誤和均方根誤差度量了Y的分布在回歸線周圍的分散程度。RMSE =除數(shù)n-k-1調(diào)整了估計(jì)k+1個(gè)系數(shù)引起的向下的偏差。當(dāng)n較大時(shí),自由度調(diào)整的效用可忽略。多元回歸的R2回歸R2為可由回歸變量解釋(或預(yù)測)的 丫樣本方差的比例。等價(jià)地,R2等于1減去不能由回歸變量解釋的 丫的比例。2 ESSSSRR2 =1-,TSSTSSnn其中:解釋平方和ESS= W_Y)2,殘差平方和SSR=寸,總平 i=1i=1n方和 TSS = 2JY_ Y)2.i=1?在多元回歸中,除非增加的回歸變量系數(shù)估計(jì)值恰好為零,否則只要增加新的回歸變量個(gè)數(shù)

8、,R2就會(huì)增大。?實(shí)際中,系數(shù)估計(jì)值恰好為零是極為不常見的。調(diào)整R2 (即R2)由于增加新變量后 R2會(huì)增大,因此 R2增加并不意味著增加 一個(gè)變量實(shí)際上提高了模型的擬合程度。在此意義下,R2夸大地估計(jì)了回歸擬合數(shù)據(jù)的效果。調(diào)整R2是R2的一種修正形式,即增加新的回歸變量后R2不一定增大,其表達(dá)式為:調(diào)整 R2: R2 = 1-? n-1 ?SSR?n - k - 1?TSS注意R21-?上丄冒=1-三?n- k- 1?TSS 可(1) R2總是小于R2(2) 增加一個(gè)回歸變量對 R2有兩種相反的作用。一方面,SSR降低使R2增大;另一方面,因子 (n- 1)/(n- k- 1) 會(huì)增大。所以

9、R2是增大還是減小取決于這兩種作用的強(qiáng)弱。R2可能為負(fù)。當(dāng)所有的回歸變量減少的殘差平方和 太小以至于無法抵消因子 (n-1)/(n- k-1)時(shí)r2為負(fù)。9#25用STATA做多元回歸舉例加州數(shù)據(jù)集回歸擬合優(yōu)度比較#?reg testscrstr el_pct?Source |SSdfMSNumber of obs=420?F( 2, 417)=155.01?Model |64864.3011232432.1506Prob F=0.0000?Residual | |t|95% Conf. Interval? +?str|-1.101296 .3802783-2.900.004 -1.84879

10、7 -.3537945?el_pct|-.6497768 .0393425-16.520.000 -.7271112 -.5724423?_cons | 686.0322 7.41131292.57 0.000671.4641700.6004? testscr = 686.0-10STR -0.65PctEL(1) TestScore= 698.9- 2.2STR2R = .05, SER= 18.6(2) TestScore= 686.0- 1 F = 0.0000R-squared = 0.0512Root MSE = 18.58110#31|Robusttestscr | Coef. S

11、td. Err. t P|t|95% Conf. Interval+str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671str | (dropped)_cons | 698.933 10.36436 67.44 0.000678.5602 719.3057 32如何解釋多元回歸中出現(xiàn)完全多重共線性時(shí)的不合理情況??在上述回歸中,B是控制其他回歸變量不變時(shí)STR變化一個(gè)單位致使測試成績產(chǎn)生的變化,然而,這里的其他回歸 變量同時(shí)又是 STR本身,這將導(dǎo)致矛盾的結(jié)果。多元回歸中OLS估計(jì)量的分布滿足四個(gè)最小二乘假設(shè)條件下:? ?是B無偏一致

12、估計(jì)量。?大樣本下 E(j)近似服從N(0,1) (CLT)Jvar( ?)?上述結(jié)論對于 ?,也成立。3334#11完全多重共線性舉例?兩個(gè)回歸變量相同:如測試成績對兩個(gè)STR進(jìn)行回歸。?對常數(shù)項(xiàng)回歸:如不是非常小的班級(jí)(p156)o?虛擬變量陷阱:根據(jù)虛擬變量的設(shè)置原則,一般情況下,如果定性變量有 m個(gè)類別,則需在模型中引入m-1個(gè)變量。如果引入了 m個(gè)變量,就會(huì)導(dǎo)致模型解釋變量 出現(xiàn)完全的共線性問題,從而導(dǎo)致模型無法估計(jì)。這種 由于引入虛擬變量個(gè)數(shù)與類別個(gè)數(shù)相等導(dǎo)致的模型無法 估計(jì)的問題,稱為“虛擬變量陷阱”。虛擬變量陷阱解決辦法解決虛擬變量陷阱的常用辦法是吧其中一個(gè)二元變量剔 除出多元

13、回歸,因此G個(gè)二元變量中只有G-1個(gè)是回歸變 量。注意:在這種情況下,相對于剔除的基礎(chǔ)類而言,包含 在內(nèi)的二元變量系數(shù)表示固定其他回歸變量情形下落在該類 中的增加效應(yīng)。#6.1XX2的總體相關(guān)系數(shù),不完全多重共線性不完全多重共線性與完全多重共線性截然不同。不完全多重共線性意味著兩個(gè)或多個(gè)回歸變量之間是高度相 關(guān)的,是回歸變量的某種線性組合與其他回歸變量高度相關(guān) 的意思。不完全多重共線性對OLS估計(jì)量的理論不構(gòu)成任何問題。 若回歸變量間存在著不完全多重共線性,則至少無法精確估 計(jì)其中一個(gè)回歸變量的系數(shù)。例如:Testscore對STR和PctEL的回歸中,加入第三個(gè)回歸 變量,該變量為第一代移民

14、的學(xué)區(qū)居民百分率。PctEL與移民百分率高度相關(guān)。37不完全多重共線性對OLS估計(jì)量方差的影響:附錄6.2假設(shè)回歸中只包含兩個(gè)回歸變量,且誤差同方差,Ui的條件方差可以表示為var( u?X1i, X2i )=器大樣本下的抽樣分布為N(,/?),其中髭為:? ? 2 / = 1 ?1? bun ?1- pX1,Xi ? bX1其中pX,X2表示兩個(gè)回歸變量 嬴表示X的總體方差。3812#第6章習(xí)題1習(xí)題 2 ( p160 )#? 1計(jì)算每個(gè)回歸的R根據(jù) 6.15 )式,R2 =1- n 1 (1- R2)n - k - 1對于第一次回歸,n= 4000,k=24000- 14000 - 2-

15、1(1- 0.176)=0.1756對于第二次回歸,n=4000, k=324000 - 1R = 1(1- 0.190) = 0.18944000 - 3- V對于第三次回歸,n=4000, k=6-24000 - 1R = 1(1 - 0.194) = 0.19284000- 6-1、? 2利用表6.2列(2)中的回歸結(jié)果回答:(1) 大學(xué)畢業(yè)的工人平均比高中畢業(yè)的工人掙 得多么?多多少?(2) 男性平均比女性掙得多么?多多少?? (1)大學(xué)畢業(yè)的工人平均比高中畢業(yè)的工人多 掙5.46美元/小時(shí)。? (2)男性平均比女性多掙2.64美元/小時(shí)。3940#習(xí)題 3 ( p160 )? 3利用

16、表6.2列(2)中的回歸結(jié)果回答:(1) 年齡是收入的重要決定因素么?(2) Sally是29歲的女性大學(xué)畢業(yè)生。 Betsy是34歲 的女性大學(xué)畢業(yè)生。分別預(yù)測 Sally和Bets y的收入。?(1 )平均而言,年齡每增加1年,工人收入增加0.29美元/小時(shí)。?(2)預(yù)計(jì)Sally的收入為4.40 + 5.48 X1- 2.62 X1 + 0.29 X29 = 15.67美元?預(yù)計(jì)Betsy的收入為4.40+5.48 X1 - 2.62 X + 0.29 X34= 17.12美元4利用表6.2列(3)中的回歸結(jié)果回答:(1) 地區(qū)間的平均收入看起來存在重大差距么?(2) 為什么在回歸中省略

17、了回歸變量West ?如果加 上它會(huì)如何?(3) Juantia是來自南部的28歲女性大學(xué)畢業(yè)生。 Jennifer是來自中西部的28歲女性大學(xué)畢業(yè)生。計(jì)算 Juantia和Jennifer收入之間的期望差距。? (1)?控制回歸中其他變量不變,平均而言,北部地區(qū)工人比西 部地區(qū)工人每小時(shí)多掙0.69美元。?控制回歸中其他變量不變,平均而言,中部地區(qū)工人比西 部地區(qū)工人每小時(shí)多掙0.60美元。?控制回歸中其他變量不變,平均而言,南部地區(qū)工人比西 部地區(qū)工人每小時(shí)少掙0.27美元。4利用表6.2列(3)中的回歸結(jié)果回答:(1)地區(qū)間的平均收入看起來存在重大差距么?(2) 為什么在回歸中省略了回歸

18、變量West ?如果加 上它會(huì)如何?(3)Juantia是來自南部的28歲女性大學(xué)畢業(yè)生。 Jennifer是來自中西部的28歲女性大學(xué)畢業(yè)生。計(jì)算Juantia和Jennifer收入之間的期望差距。?( 2)?在回歸中省略了回歸變量 West,目的是為了避 免產(chǎn)生完全多重共線性。?在完全多重共線性條件下,普通最小二乘法估 計(jì)的參數(shù)值不能確定,并且估計(jì)值的方差為無 窮大。434利用表6.2列(3)中的回歸結(jié)果回答:(1 )地區(qū)間的平均收入看起來存在重大差距么?(2)為什么在回歸中省略了回歸變量 West ?如果 加上它會(huì)如何?(3)Juantia是來自南部的28歲女性大學(xué)畢業(yè)生。 Jennifer是來自中西部的28歲女性大學(xué)畢業(yè)生。計(jì) 算Juantia和Jennifer收入之間的期望差距。?(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論