回歸的基本原理_第1頁
回歸的基本原理_第2頁
回歸的基本原理_第3頁
回歸的基本原理_第4頁
回歸的基本原理_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

回歸的基本原理●

多元回歸分析

定量化經(jīng)濟關(guān)系和檢驗相關(guān)假設(shè)的統(tǒng)計過程?!?/p>

線性回歸

構(gòu)造模型,識別一個因變量與一些自變量(或解釋變量)和一個誤差項間的線性關(guān)系。在線性回歸中,一般的關(guān)系表示成如下的形式:(A.1)

方程(A.1)將因變量Y與其他幾個自變量(或者解釋變量)X1、X2...聯(lián)系起來,比如一個有兩個自變量的方程,Y可能是對某種商品的需求,X1是價格,X2是收入。該方程還包含一個誤差項,代表的是忽略的變量對Y的總影響(比如,其他商品的價格、天氣、消費者偏好中無法解釋的變動等等)。關(guān)于Y和X的數(shù)據(jù)是可得的,但是誤差項被假定不可觀察。注意方程(A.1)對于參數(shù)必須是線性的,但是對自變量則不必。比如,如果方程(A.1)代表的是一個需求方程,Y可能代表這一需求數(shù)量的對數(shù)(logQ),X1代表價格的對數(shù)(logP),X2代表收入的對數(shù)(logI):我們的目標(biāo)是要估計出對數(shù)據(jù)擬合最好的參數(shù)b1,b2,…,bk,接下來我們解釋如何估計。

(A.2)一個例子假設(shè)我們想解釋和預(yù)測美國汽車的季度銷售情況。我們先從一個簡單的例子開始,銷售額S(百萬美元)是被解釋變量,唯一的解釋變量是新車的價格P(以新車的價格指數(shù)來衡量,1967=100),我們可以將這個簡單模型寫為:

(A.3)在方程(A.3)中,b0和b1是需要根據(jù)數(shù)據(jù)進(jìn)行估計的參數(shù),e是隨機誤差項。參數(shù)b0為截距,b1是斜率,用來度量新車價格指數(shù)的變化對汽車銷售的影響。如果沒有誤差項,S和P間的關(guān)系就是線性的,兩變量間就是這樣的系統(tǒng)關(guān)系。不過,因為并非所有的觀察值都在直線上,所以需要誤差項e來解釋忽略的因素。估計為了對參數(shù)進(jìn)行回歸估計,我們需要選定“最優(yōu)擬合”的標(biāo)準(zhǔn)。最常用的標(biāo)準(zhǔn)是使實際的Y值和從方程(A.1)得到的Y的擬合值之間的殘差平方和最小化。假如我們用

,

,…,

來表示從模型(A.1)估計的參數(shù)值,則Y的擬合值為:(A.4)參數(shù)

b0

是截距項,b1

是斜率:它度量了新車價格指數(shù)變化對汽車銷售的影響。

最小二乘法

“最優(yōu)擬合”的標(biāo)準(zhǔn)是選擇回歸的參數(shù)值,以令因變量的真實值與估計值間的殘差平方和最小最小二乘圖A.1回歸直線的選擇使得殘差平方和最小。與價格Pi

相關(guān)的殘差由

AB給出。作為估計的一個例子,我們回到汽車銷售的兩變量模型

(A.3)。最小二乘法擬合的方程結(jié)果如下

斜率表明,新車價格指數(shù)每增加1單位將導(dǎo)致銷售額增加5.7億美元,這是一個令人意外的結(jié)果,需求曲線是向上傾斜的,這與經(jīng)濟理論不符,導(dǎo)致我們懷疑該模型的正確性。我們可以將模型擴展到另外兩個變量所帶來的影響:個人收入I(10億美元)和利率R(三月期國債的利率)。當(dāng)有三個解釋變量時,估計的回歸方程為:(A.5)

(A.6)

注意變量P的系數(shù)發(fā)生了很大的改變,從0.57變?yōu)?0.42,參數(shù)-0.42表示當(dāng)利率和收入的影響都保持不變時,價格變化對銷售額的影響,負(fù)的價格系數(shù)與需求曲線向下傾斜是一致的。負(fù)的價格系數(shù)與向下傾斜的需求曲線一致。明顯地,沒有控制利率和收入導(dǎo)致了銷售量和價格正相關(guān)的錯誤結(jié)論。收入的系數(shù)0.046表示美國個人收入每增加10億美元,汽車銷售額就可能增加4600萬美元。,利率的系數(shù)表示利率每上升1個百分點,汽車銷售額可能下降8.4億美元,很明顯,汽車銷售額對借貸成本非常敏感。統(tǒng)計檢驗對參數(shù)的真實值(但是未知的)的估計依賴于所擁有的觀察值,即我們的樣本(sample)。如果樣本不同,得到的估計值也可能不同。如果我們繼續(xù)收集更多的樣本,得到更多的估計值,估計的參數(shù)將遵循一定的概率分布,這種分布可以用平均值,以及對均值的離散程度,即我們所稱的系數(shù)標(biāo)準(zhǔn)差來表示。最小二乘法有幾個合意的特性。首先,是無偏性,直覺上,如果我們能夠利用不同樣本進(jìn)行回歸,多次估計的平均值將等于真實值;其次,最小二乘法具有一致性,換句話說,當(dāng)我們的樣本足夠大時,我們可以得到足夠接近于真實值的估計值?!?/p>

抽樣

在大的全體中,抽出供研究的觀察集。

(A.7)所以,在研究回歸估計的方程時,我們不僅需要看點估計,還需要檢查系數(shù)的標(biāo)準(zhǔn)差,以決定真實參數(shù)的取值范圍。計量經(jīng)濟學(xué)中,我們一般假定誤差項是正態(tài)分布的,進(jìn)而假定估計的系數(shù)也是正態(tài)分布。正態(tài)分布的性質(zhì)是在1.96個標(biāo)準(zhǔn)差的范圍內(nèi),變量以95%概率落在平均值周圍。接下來我們可以問:我們是否可以在的周圍構(gòu)造一個區(qū)間,使得真實參數(shù)值有95%的概率落在這一區(qū)間?答案是肯定的,95%的置信區(qū)間為:(A.8)如果95%的置信區(qū)間包含0,則真實的參數(shù)b有可能為0(即使估計值不為0),這說明相應(yīng)的自變量并不對因變量產(chǎn)生影響,即使我們主觀上認(rèn)為有影響。我們可以通過t檢驗來驗證真實參數(shù)是否為0,即:

如果t檢驗的值小于1.96,則b的95%的置信區(qū)間包含0,這意味著我們不能拒絕真實參數(shù)b=0的原假設(shè),因而我們說該估計是統(tǒng)計不顯著的。相反,如果t的絕對值大于1.96,我們拒絕b=0的原假設(shè),稱該估計是統(tǒng)計顯著的。(A.9)方程(A.9)列出了對汽車銷售模型(模型A.6)多元回歸的估計t值和標(biāo)準(zhǔn)差:我們從考查價格變量開始,標(biāo)準(zhǔn)差0.13相對于系數(shù)-0.42較小,實際上,我們有95%的把握認(rèn)為價格的系數(shù)在-0.42加減1.96個標(biāo)準(zhǔn)差的區(qū)間內(nèi)(即-0.42±1.96×0.13=-0.42±0.25),這樣,系數(shù)的真實值取值范圍為-0.17~-0.67,因為這一區(qū)間并沒有包含0,價格的效應(yīng)就是顯著異于0,并且是負(fù)的。我們也可以從t檢驗值得到同樣的結(jié)論,方程(A.9)中價格變量的t檢驗值為-3.23,等于-0.42除以0.13,因為該t值的絕對值大于1.96,我們得出結(jié)論:價格對汽車銷售有顯著影響。注意到收入和利率變量也同樣顯著異于0,回歸結(jié)果告訴我們,收入增加對汽車銷售有顯著的正效應(yīng),而利率的增加則對汽車銷售具有顯著的負(fù)效應(yīng)。–0.42P+0.0461I–0.84(9.4)(0.13)(0.006)(0.32)t=5.44–3.237.67–2.63擬合優(yōu)度GoodnessofFit回歸結(jié)果包含的信息通常告訴我們回歸對數(shù)據(jù)擬合的程度。其中一個統(tǒng)計指標(biāo),回歸標(biāo)準(zhǔn)誤(standarderroroftheregression,SER)就是對誤差項e的標(biāo)準(zhǔn)差的估計。當(dāng)所有的數(shù)據(jù)都在回歸線上時,SER就為0。當(dāng)其他都不變時,SER越大,回歸線對于數(shù)據(jù)的擬合程度越差。為了決定SER是大還是小,我們將其與因變量的均值進(jìn)行對比,這種比值給出了SER的相對值,它是比絕對值更加有意義的統(tǒng)計量。●

回歸的標(biāo)準(zhǔn)差

對回歸錯誤標(biāo)準(zhǔn)差的估計●

R-squared(R2) 因變量的變動可由解釋變量所解釋的部分R-squared用來度量多元回歸方程的總體擬合優(yōu)度,該值取值范圍為0~1。R2為0表示自變量不能解釋因變量的任何變動,R2為1表示自變量很好地解釋了因變量的變動。對模型(A.9)中的R2為0.94,這表明三個自變量解釋了94%的銷售額的變動。注意R2很大并不能說明包含在模型中的變量就是理想的。首先,R2隨使用的數(shù)據(jù)類型的變化而變化,時間序列數(shù)據(jù)一般有向上的增長趨勢,因而能夠產(chǎn)生比截面數(shù)據(jù)更高的R2值;其次,背后的經(jīng)濟學(xué)原理提供了重要的檢驗,如果一個關(guān)于小麥價格對汽車銷售額的回歸出現(xiàn)一個很高的R2值,我們就要懷疑模型的可靠性,為什么呢?因為我們的理論告訴我們,小麥價格的變化對汽車銷售額只有很小的影響或者根本沒有影響。回歸結(jié)果的可靠性也依賴于模型的表達(dá)形式。當(dāng)研究一個回歸方程時,我們需要考慮哪些因素可能使報告的結(jié)果不可信。首先,有沒有變量應(yīng)該出現(xiàn)在模型中,但是卻被遺漏了?其次,函數(shù)形式是否正確?再次,自變量(比如X)和因變量Y是否還存在其他關(guān)系?果真有,X和Y就是雙重決定,我們就需要用兩個方程而不是一個方程來處理;最后,增減一個或兩個數(shù)據(jù)點,估計的結(jié)果是否有明顯的變化,即模型是否是穩(wěn)健的?如果不是,我們需要對它的可信度小心處理,不要過分依賴統(tǒng)計結(jié)果。經(jīng)濟預(yù)測預(yù)測是給定解釋變量的信息時,對因變量的值進(jìn)行估計。通常,我們使用事前預(yù)測,即采用模型已經(jīng)使用過的時段以后的數(shù)據(jù)來預(yù)測因變量。如果我們知道解釋變量的值,那么預(yù)測是無條件的,如果解釋變量的值也需要預(yù)測,對因變量的預(yù)測就是有條件的。有時候也采用事后預(yù)測,即假設(shè)解釋變量的值改變,觀察因變量的值會發(fā)生什么變化。在事后預(yù)測中,所有的自變量和因變量的值都是已知的。事后預(yù)測可以用已有數(shù)據(jù)來檢驗,并且提供了一種評價模型的直接方法。經(jīng)濟預(yù)測例如,考慮上面討論的汽車銷售模型。一般來說,汽車銷售的估計值表示為:

(A.10)

(A.11)當(dāng)P=100,I=10000億,R=8%時,我們可以利用(A.11)來預(yù)測銷售額,即

注意484億美元是在P=100,I=10000億,R=8%時的一個事后預(yù)測。其中是誤差項的估計值,在沒有其他信息情況下,我們通常認(rèn)為等于0。為了確定事先預(yù)測和事后預(yù)測的可靠性,我們采用預(yù)測標(biāo)準(zhǔn)誤(SEF)。它度量的是樣本中所有解釋變量都已知時預(yù)測誤差的標(biāo)準(zhǔn)差。SEF有兩個潛在的來源,一是誤差項自身,因為在預(yù)測時間段內(nèi)

可能不等于0;二是回歸模型中估計的參數(shù)值有可能不完全等于真實的參數(shù)值。一個應(yīng)用是,考慮模型(A.11)中70億美元的預(yù)測標(biāo)準(zhǔn)誤,如果樣本量足夠大,將有95%的概率使得估計的銷售額在預(yù)測值的1.96個標(biāo)準(zhǔn)誤的區(qū)間內(nèi),95%的置信區(qū)間為484億美元±140億美元,即344億美元~624億美元。現(xiàn)在假定我們想預(yù)測未來某年的汽車銷售額。這種預(yù)測就必須是有條件的,因為我們需要先計算自變量的值,比如,假定我們估計的這些值如下:=200、=50000億美元、=10%,那么預(yù)測值為=51.1-0.42×200+0.046×50000-0.84×10%=1887億美元。這里的1887億美元就是一種事先的條件預(yù)測。因為我們在預(yù)測未來,并且在我們研究的階段解釋變量與其均值并不接近,SEF的值為82億美元,這比前面計算的要稍稍大一點。我們預(yù)測的95%的置信區(qū)間為1723億美元~2051億美元。案例A.1煤炭的需求假定我們要估計煙煤的需求(以每年的銷售噸數(shù)表示,記作COAL),并運用相關(guān)關(guān)系來預(yù)測未來的煤的銷售量。我們預(yù)期需求數(shù)量依賴于煤的價格(以煤的生產(chǎn)者價格指數(shù)PCOAL衡量)和煤的相近替代品的價格(以天然氣的生產(chǎn)者價格指數(shù)PGAS衡量)。因為煤用來煉鋼和發(fā)電,因而我們預(yù)期鋼產(chǎn)量(以聯(lián)邦儲備系統(tǒng)的鋼鐵指數(shù)FIS衡量)和電力生產(chǎn)(以聯(lián)邦儲備系統(tǒng)的電力指數(shù)FEU衡量)都是決定需求的重要變量。煙煤的需求模型如下:

COAL=b0+b1PCOAL+b2PGAS+b3FIS+b4FEU+e從理論上講,我們預(yù)期b1為負(fù),因為煤的需求曲線是向下傾斜的,b2為正,因為天然氣的高價格能夠誘使消費者使用煤來替代天然氣,最后,我們預(yù)期b3和b4均為正,因為鋼和電力生產(chǎn)得越多,對煤的需求越大。案例A.1煤炭的需求利用8年的月度時間序列數(shù)據(jù)對模型進(jìn)行估計,結(jié)果為(括號中為t值):COAL=12,262+92.34FIS+118.57FEU–48.90PCOAL+118.91PGAS

(3.51)(6.46)(7.14)(–3.82)(3.18)SER=120,000所有估計的系數(shù)的符號都與經(jīng)濟理論預(yù)測相一致。每個系數(shù)的t值的絕對值都大于1.96,系數(shù)在統(tǒng)計上都顯著異于0。R2

為0.692說明模型解釋了煤銷售量變化的三分之二。SER等于120000噸煤,因為煤產(chǎn)量的均值為3900萬噸,SE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論