多元回歸分析估計問題_第1頁
多元回歸分析估計問題_第2頁
多元回歸分析估計問題_第3頁
多元回歸分析估計問題_第4頁
多元回歸分析估計問題_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多元回歸分析估計問題第一頁,共三十八頁,編輯于2023年,星期五◆對多元回歸方程的解釋◆偏回歸系數的含義與估計◆多元判定系數R2與復相關系數R◆從多元回歸的角度看簡單回歸◆R2及校正R2◆多項式回歸模型第七章多元回歸分析:估計問題第二頁,共三十八頁,編輯于2023年,星期五第一節(jié)對多元回歸方程的解釋

一、三變量模型:符號與假定將雙變量的總體回歸模型推廣,便可寫出三變量PRF為:

(7.1.1)其中Y是因變量,X2

和X3

是解釋變量,u是隨機干擾項,而i指第i次觀測。當數據為時間序列時,下標t將用來指第i次觀測。在上述方程中β1

是截距項,它代表X2

和X3

均為零時Y的均值,如通常所說,它給出了所有未包含到模型中來的變量對Y的平均影響。系數β2和β3

稱為偏回歸系數(partialregressioncoefficients)。第三頁,共三十八頁,編輯于2023年,星期五二、多元線性回歸模型的基本假設(1)ui有零均值,或:(7.1.2)(2)無序列相關,或:(7.1.3)(3)同方差性,或:(7.1.4)(4)ui與每一X變量之間都有零協(xié)方差,或:

(7.1.5)(5)無設定偏誤,或:模型被正確地設定(7.1.6)(6)X諸變量間無精確的共線性,或:

X2和X3之間無精確的線性關系(7.1.7)第四頁,共三十八頁,編輯于2023年,星期五

假設(7.1.6)中X2

和X3之間無精確的線性關系,稱為無共線性(nocollinearity)或無多重共線性(nomulticollinearity)。無共線性不存在一組不全為零的數和使得:如果這一關系式存在,則說X2

和X3

是共線的或線性相關。如果僅當時成立,則說X2

和X3

線性獨立。無多重共線性(7.1.8)假設(7.1.1)中的Y、X2

和X3

分別代表消費支出、收入和財富,經濟理論設想收入和財富對消費各有獨立影響。若收入和財富之間有線性關系,則無從區(qū)分各自的影響了。令,則(7.1.1)變成:

給出的是X2

和X3

對Y的聯合影響。沒有辦法分別估計X2

的單獨影響和X3

的單獨影響。第五頁,共三十八頁,編輯于2023年,星期五三、對多元回歸方程的解釋給定經典回歸模型的諸假定,那么,在(7.1.1)的兩邊對Y求條件期望得:

(7.2.1)該式給出以變量X2

和X3

的固定值的條件的Y的條件均值或期望值。因此,如同雙變量情形那樣,多元回歸分析是以多個解釋變量的固定值為條件的回歸分析,并且我們所獲取的,是給定回歸元值時Y的平均值或Y的平均響應。第六頁,共三十八頁,編輯于2023年,星期五第二節(jié)偏回歸系數的含義與估計前面指出,系數β2和β3

稱為偏回歸(partialregression)系數。其含義如下:β2

度量著在X3

保持不變的情況下,X2

每變化一單位,Y的均值E(Y|X2

,X3

)的變化。換句話說,β2

給出保持X3

不變時E(Y|X2

,X3

)對X2

的斜率。一、偏回歸系數的含義什么是偏回歸系數?第七頁,共三十八頁,編輯于2023年,星期五1二、偏回歸系數的OLS估計1.OLS估計量與(7.1.1)的PRF相對應的樣本回歸函數如下:OLS方法

是要選擇未知參數的值,使殘差平方和RSS盡可能小,即:將該式對三個未知數求偏導數,并令其為零,解得:第八頁,共三十八頁,編輯于2023年,星期五由上述正規(guī)方程組可以得到β1、β2和β3

的OLS估計量:小寫字母表示對樣本均值離差的慣例。第九頁,共三十八頁,編輯于2023年,星期五2.OLS估計量的方差和標準誤我們計算標準誤有兩個目的:建立置信區(qū)間和檢驗統(tǒng)計假設。在上述公式中σ2

是總體干擾項ui的方差。第十頁,共三十八頁,編輯于2023年,星期五可以證實,σ2

的一個無偏估計量是:現在的自由度是(n-3),這是因為在估計之前,我們必須先估計β1

,β2和β3

,從而消耗了3個自由度。一旦算出殘差ui

,就能從該式算出估計量σ2。第十一頁,共三十八頁,編輯于2023年,星期五2023/5/27第十二頁,共三十八頁,編輯于2023年,星期五2023/5/27第十三頁,共三十八頁,編輯于2023年,星期五3.OLS估計量的性質多元回歸模型的OLS估計量和雙變量模型的OLS有著平行的性質。(1)三變量回歸線(面)通過均值這個性質可以推廣到一般情形,在k變量線性回歸模型(一個回歸子和(k-1)個回歸元)中:我們有:(2)估計的Yi的均值等于真實Yi的均值。兩邊對所有樣本值求和并除以樣本大小n,由于即得:第十四頁,共三十八頁,編輯于2023年,星期五(3)由于,兩邊對樣本值求和可得。(4)殘差與和都不相關,即(5)殘差與不相關,即。

兩邊同時乘以,然后對樣本值求和。(6)在7.1節(jié)的經典線性模型的假定下,可以證明偏回歸系數的OLS估計量不僅是線性和無偏的,而且在所有線性無偏估計量類中有最小方差。簡言之,它們是BLUE?;蛩鼈儩M足高斯-馬爾可夫定理。第十五頁,共三十八頁,編輯于2023年,星期五第三節(jié)多元判定系數R2與復相關系數R在雙變量的情形中我們曾看到,r2

是回歸方程擬合優(yōu)度的一個度量。它給出在因變量Y的總變異種由(單一個)解釋變量X解釋了的比例或百分比。在三變量模型中,由X2

和X3

聯合解釋Y的變異的比例的數量稱為復判定系數(multiplecoefficientofdetermination),記為R2

。(總平方和TSS等于解釋平方和ESS+殘差平方和RSS),則R2

越靠近1,模型的“擬合”越好。R2所代表的意義第十六頁,共三十八頁,編輯于2023年,星期五例7.1兒童死亡率與人均GNP和婦女識字率的關系Table6.464個國家的生育率及其他數據CM=childmortality(兒童死亡率)CM為每1000名產嬰中不足5歲便死亡的人數FLR=femaleliteracyrate(婦女識字率)PGNP=percapitaGNPin1980(1980年的人均GNP)TFR=totalfertilityrate(總生育率)建立模型為:(7.6.1)第十七頁,共三十八頁,編輯于2023年,星期五DependentVariable:CMMethod:LeastSquaresDate:02/18/12Time:14:22Sample:164Includedobservations:64VariableCoefficientStd.Errort-StatisticProb.C263.641611.5931822.741090PGNP-0.005650.002003-2.81870.0065FLR-2.231590.209947-10.62930R-squared0.707665Meandependentvar141.5AdjustedR-squared0.698081S.D.dependentvar75.97807S.E.ofregression41.7478Akaikeinfocriterion10.34691Sumsquaredresid106315.6Schwarzcriterion10.44811Loglikelihood-328.101Hannan-Quinncriter.10.38678F-statistic73.83254Durbin-Watsonstat2.186159Prob(F-statistic)0

第十八頁,共三十八頁,編輯于2023年,星期五-0.0056是PGNP的偏回歸系數,它告訴我們,保持FLR的影響不變,PGNP提高1美元,兒童死亡率平均下降0.0056個單位。在經濟上的解釋為,若人均GNP提高1000美元,則每1000名產嬰中不足5歲便死亡的兒童書平均下降5.6%。-2.2316表明,保持PGNP的影響不變,婦女識字率每提高1個百分點,每4名產嬰中不足5歲便死亡的兒童數平均減少約2.23人。263的截距值表明若PGNP和FLR固定為零,則每4名產嬰中兒童死亡人數的均值為263.約為0.71的R2

值意味著兒童死亡率變異中約有70%可由PGNP和FLR來解釋。第十九頁,共三十八頁,編輯于2023年,星期五第四節(jié)從多元回歸的角度看簡單回歸經典線性回歸模型的假定聲稱,分析中所用的回歸模型是正確設定的,無設定上的偏誤會誤差。若假定例7.1中式7.6.1是解釋兒童死亡率行為與人均GNP和婦女識字率FLR之關系的“真實”模型。假設我們去掉FLR而估計如下簡單回歸:其中Y=CM,X2=PGNP。做回歸:與“真實”多元回歸相比:

1.從絕對值看,PGNP系數從0.0056增加到0.0114,幾乎大一倍。2.標準誤不同。3.截距值不同。4.r2

值明顯不同。錯誤擬合一個模型會導致嚴重后果。第二十頁,共三十八頁,編輯于2023年,星期五第五節(jié)R2及校正R2R2

的一個重要性質是,隨著回歸元個數的增大,R2

幾乎必然增大。這里,就是,與模型中X變量的個數無關。但RSS即卻與模型中出現的回歸元個數相關。隨著X變量個數的增加很可能減小,隨之R2

也將增大。因此,比較有同一因變量但有不同個數的X變量的兩個回歸時,選擇有最高R2

值的模型必須當心。k=包括截距項在內的模型中參數個數。如此定義的R2

,稱為校正R2(adjustedR2),記為。第二十一頁,共三十八頁,編輯于2023年,星期五很容易得出上式,可看出:(1)對于k>1,。(2)雖然R2

是非負的,但可以是負的。實際中,如遇為負值,則取值為零。實踐中應選哪一個R2

?大多數統(tǒng)計軟件包都是把校正的R2

連通慣用的R2

一起報告的,完全可以把校正的R2當做另一個統(tǒng)計量來看待。第二十二頁,共三十八頁,編輯于2023年,星期五2.比較兩個R2值根據判定系數比較兩個模型,樣本大小n和因變量都必須相同,解釋變量可取任何形式。在回歸子形式不同的兩個模型中,如何比較其R2

呢?例7.2美國1970-1980年咖啡消費(Y)與平均真實零售價格(X)的關系(表7.1)YEARYX19702.570.7719712.50.7419722.350.7219732.30.7319742.250.7619752.20.7519762.111.0819771.941.8119781.971.3919792.061.219802.021.17第二十三頁,共三十八頁,編輯于2023年,星期五DependentVariable:YMethod:LeastSquaresDate:02/18/12Time:15:41Sample:19701980Includedobservations:11

VariableCoefficientStd.Errort-StatisticProb.C2.6911240.12162222.126860X-0.479530.114022-4.205590.0023R-squared0.662757Meandependentvar2.206364AdjustedR-squared0.625286S.D.dependentvar0.210251S.E.ofregression0.128703Akaikeinfocriterion-1.09966Sumsquaredresid0.14908Schwarzcriterion-1.02731Loglikelihood8.048108Hannan-Quinncriter.-1.14526F-statistic17.687Durbin-Watsonstat0.72659Prob(F-statistic)0.002288

第二十四頁,共三十八頁,編輯于2023年,星期五2023/5/27DependentVariable:LNYMethod:LeastSquaresDate:04/17/12Time:11:28Sample:19701980Includedobservations:11

VariableCoefficientStd.Errort-StatisticProb.C0.7774180.01524251.004550LNX-0.253050.049374-5.125090.0006R-squared0.7448Meandependentvar0.787284AdjustedR-squared0.716445S.D.dependentvar0.094174S.E.ofregression0.050148Akaikeinfocriterion-2.98473Sumsquaredresid0.022633Schwarzcriterion-2.91238Loglikelihood18.416Hannan-Quinncriter.-3.03033F-statistic26.26651Durbin-Watsonstat0.680136Prob(F-statistic)0.000624

第二十五頁,共三十八頁,編輯于2023年,星期五該結果的經濟含義是:隨著咖啡價格的上漲,日均咖啡消費量平均下降約半杯。約等于0.66的r2

意味著,咖啡價格大約能解釋咖啡消費量變化的66%。容易驗證,這個方程的斜率系數是統(tǒng)計上顯著的。利用同樣的數據可以估計出雙對數(彈性)模型:由于這是一個雙對數模型,斜率系數直接給出了價格彈性系數的一個估計值。若每磅咖啡的價格上漲1%,則日咖啡消費量平均下降約0.25個百分點。如何對兩個r2

值進行比較,進而選取模型?對Y取對數得lnY,從第一個模型中得到Yt的估計值,取對數。利用方程計算r2

。得0.7318,可與對數線性模型的r2

值0.7448比較,差別很小,對數線性模型擬合的更好。第二十六頁,共三十八頁,編輯于2023年,星期五3.在回歸元之間分配R2回到例7.1,PGNP和FLR兩個回歸元解釋了兒童死亡率變異種的0.7077或70.77%。但去掉FLR變量的回歸,r2

值下降到0.1662。差值0.5415(0.7077-0.1662)是否都是因為去掉的變量FLR呢?我們是否能夠如此將多元回歸的R2

值0.7077在PGNP和FLR兩個回歸元之間分配?不幸的是,不能這么做。這兩個回歸元之間的相關關系決定,其相關系數為0.2685。在大多數含有多個回歸元的應用研究中,回歸元之間的相關都是一個常見問題。第二十七頁,共三十八頁,編輯于2023年,星期五例7.3柯布-道格拉斯生產函數隨機形式的Cobb-Douglas生產函數可表達為:其中Y=產出,X2=勞動投入,X3=資本投入,u=隨機干擾項,e=自然對數的底,通過對模型的變換可得:該函數的性質:β2

是產出對勞動投入的彈性,度量在資本投入保持不變下勞動投入變化1%時的產出百分比變化。β3

是在勞動投入保持不變下產出對資本投入的彈性。總和(β2+β3)給出規(guī)模報酬,即產出對投入的比例變化的反應。如果此總和為1,則規(guī)模報酬不變,即2倍投入帶來2倍產出;若總和小于1,則規(guī)模報酬遞減;若總和大于1,規(guī)模報酬遞增。第二十八頁,共三十八頁,編輯于2023年,星期五表7.3臺灣地區(qū)農業(yè)部門的實際總產值、勞動日和實際資本投入YEARYX2X3195816607.7275.517803.7195917511.3274.418096.8196020171.2269.718271.8196120932.926719167.3196220406267.819647.6196320831.627520803.5196424806.328322076.6196526465.8300.723445.2196627403307.524939196728628.7303.726713.7196829904.5304.729957.8196927508.2298.631585.9197029035.5295.533474.5197129281.529934821.8197231535.8288.141794.3第二十九頁,共三十八頁,編輯于2023年,星期五假定Cobb-Douglas模型滿足經典線性回歸模型。用OLS法得到如下回歸:解釋:(1)可以看出,勞動和資本彈性分別為1.4988和0.4899。即在研究時期,保持資本不變,勞動投入增加1%,導致產出平均增加約1.5%。保持勞動投入不變,資本投入增加1%導致產出平均增加約0.5%。(2)兩個產出彈性之和為1.9887,規(guī)模報酬遞增。(3)R2取值0.8890,表示產出的對數的變動的89%可由勞動和資本的對數來解釋。第三十頁,共三十八頁,編輯于2023年,星期五第六節(jié)多項式回歸模型該圖描述生產一種商品的生產(Y)的短期邊際成本(MC)和它的產出水平(X)的關系。什么類型的計量經濟模型能抓住邊際成本先降后升的性質?第三十一頁,共三十八頁,編輯于2023年,星期五在數學上,拋物線的表達式為寫成隨機形式為:此即二階多項式回歸。K階多項式回歸可寫成:方程右邊只有一個解釋變量,但以不同乘方出現,從而使方程稱為多元回歸模型。如果X為固定的或隨機的,則帶有乘方的各Xi項也是固定的或隨機的。由于二次多項式或k次多項式對參數β而言都是線性的,故可用普通最小二乘法估計。X2

、X3

、X4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論