版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第三章雙變量線性回歸模型
(簡單線性回歸模型)(SimpleLinearRegressionModel)第三章雙變量線性回歸模型(簡單線性回歸模型)第一節(jié)雙變量線性回歸模型的估計第二節(jié)最小二乘估計量的性質(zhì)第三節(jié)擬合優(yōu)度的測度第四節(jié)雙變量回歸中的區(qū)間估計和假設(shè)檢驗第五節(jié)預(yù)測第六節(jié)有關(guān)最小二乘法的進一步討論第一節(jié)雙變量線性回歸模型的估計第一節(jié)雙變量線性回歸模型的估計
一.雙變量線性回歸模型的概念設(shè)Y=消費,X=收入,我們根據(jù)數(shù)據(jù)畫出散點圖Y* 這意味著 * Y=+X (1) * 寫出計量經(jīng)濟模型* Y=+X+u(2) *其中u=擾動項或誤差項Y為因變量或被解釋變量圖1XX為自變量或解釋變量
和為未知參數(shù) 第一節(jié)雙變量線性回歸模型的估計
設(shè)我們有Y和X的n對觀測值數(shù)據(jù),則根據(jù)(2)式,變量Y的每個觀測值應(yīng)由下式?jīng)Q定:Yi=+Xi+ui,i=1,2,...,n (3)(3)式稱為雙變量線性回歸模型或簡單線性回歸模型。其中和為未知的總體參數(shù),也稱為回歸模型的系數(shù)(coefficients)。下標i是觀測值的序號。當數(shù)據(jù)為時間序列時,往往用下標t來表示觀測值的序號,從而(3)式變成Yt=+Xt+ut,t=1,2,...,n (3’)設(shè)我們有Y和X的n對觀測值數(shù)據(jù),則根據(jù)(2)式,變
為何要在模型中包括擾動項u
我們在上一章中已初步介紹了為什么要在模型中包括擾動項u,下面進一步說明之:(1)真正的關(guān)系是Y=f(X1,X2,…),但X2,X3,…,相對不重要,用u代表之。(2)兩變量之間的關(guān)系可能不是嚴格線性的,u反映了與直線的偏差。(3)經(jīng)濟行為是隨機的,我們能夠用Y=α+βX解釋“典型”的行為,而用u來表示個體偏差。(4)總會出現(xiàn)測量誤差,使得任何精確的關(guān)系不可能存在。
為何要在模型中包括擾動項u二.普通最小二乘法(OLS法,OrdinaryLeastsquares)1.雙變量線性回歸模型的統(tǒng)計假設(shè)
我們的模型是:Yt=+Xt+ut,t=1,2,...,n這里和為未知總體參數(shù),下一步的任務(wù)是應(yīng)用統(tǒng)計學(xué)的方法,由Y和X的觀測值(即樣本數(shù)據(jù))來估計和的總體值,常用的估計方法就是最小二乘法。為了應(yīng)用最小二乘法,得到好的估計量,雙變量線性回歸模型需要滿足一些統(tǒng)計假設(shè)條件,這些統(tǒng)計假設(shè)是:二.普通最小二乘法(OLS法,OrdinaryLeas雙變量線性回歸模型的統(tǒng)計假設(shè)
(1).E(ut)=0,t=1,2,...,n即各期擾動項的均值(期望值)為0.(2).E(uiuj)=0ij即各期擾動項互不相關(guān).(3).E(ut2)=2,t=1,2,...,n即各期擾動項方差是一常數(shù).(4).解釋變量Xt為非隨機量即Xt的取值是確定的,而不是隨機的.(5).ut~N(0,2),t=1,2,...,n即各期擾動項服從正態(tài)分布。
雙變量線性回歸模型的統(tǒng)計假設(shè)下面簡單討論一下上述假設(shè)條件。(1)E(ut)=0,t=1,2,…,n即各期擾動項的均值(期望值)均為0。均值為0的假設(shè)反映了這樣一個事實:擾動項被假定為對因變量的那些不能列為模型主要部分的微小影響。沒有理由相信這樣一些影響會以一種系統(tǒng)的方式使因變量增加或減小。因此擾動項均值為0的假設(shè)是合理的。下面簡單討論一下上述假設(shè)條件。(2)E(uiuj)=0,i≠j即各期擾動項互不相關(guān)。也就是假定它們之間無自相關(guān)或無序列相關(guān)。實際上該假設(shè)等同于:cov(ui,uj)=0,i≠j這是因為:cov(ui,uj)=E{[ui-E(ui)][uj-E(uj)]}=E(uiuj)——根據(jù)假設(shè)(1)(2)E(uiuj)=0,i≠j(3)E(ut2)=2,t=1,2,…,n即各期擾動項的方差是一常數(shù),也就是假定各擾動項具有同方差性。實際上該假設(shè)等同于:Var(ut)=2,t=1,2,…,n這是因為:Var(ut)=E{[ut-E(ut)]2}=E(ut2)——根據(jù)假設(shè)(1)(3)E(ut2)=2,t=1,2,…,n(4)Xt為非隨機量即Xt的取值是確定的,而不是隨機的。事實上,我們后面證明無偏性時僅需要解釋變量X與擾動項u不相關(guān),但不容易驗證之,因而通常采用非隨機量的假設(shè)。
(5)ut~N(0,2),t=1,2,...,n即擾動項服從正態(tài)分布。滿足條件(1)—(4)的線性回歸模型稱為古典線性回歸模型(CLR模型)。
(4)Xt為非隨機量
2.最小二乘原理
我們的任務(wù)是,在給定X和Y的一組觀測值(X1,Y1),(X2,Y2),...,(Xn,Yn)的情況下,求出Yt=+Xt+ut中和的估計值和,使得擬合的直線為最佳。直觀上看,也就是要求在X和Y的散點圖上穿過各觀測點畫出一條“最佳”直線,如下圖所示。2.最小二乘原理*****
et************
YXXt圖2
Yt
殘差
擬合的直線稱為擬合的回歸線.對于任何數(shù)據(jù)點(Xt,Yt),此直線將Yt的總值分成兩部分。第一部分是Yt的擬合值或預(yù)測值:,t=1,2,……,n第二部分,et,代表觀測點對于回歸線的誤差,稱為擬合或預(yù)測的殘差(residuals):
t=1,2,……,n
即t=1,2,……,n殘差殘差平方和我們的目標是使擬合出來的直線在某種意義上是最佳的,直觀地看,也就是要求估計直線盡可能地靠近各觀測點,這意味著應(yīng)使殘差總體上盡可能地小。要做到這一點,就必須用某種方法將每個點相應(yīng)的殘差加在一起,使其達到最小。理想的測度是殘差平方和,即殘差平方和最小二乘法最小二乘法就是選擇一條直線,使其殘差平方和達到最小值的方法。即選擇和,使得達到最小值。最小二乘法達到最小值。
運用微積分知識,使上式達到最小值的必要條件為:即運用微積分知識,使上式達到最小值的必要條件為:即整理,得:此二式稱為正規(guī)方程。解此二方程,得:其中:樣本均值離差整理,得:此二式稱為正規(guī)方程。解此二方程,得:其中:樣(5)式和(6)式給出了OLS法計算和的公式,和稱為線性回歸模型Yt=+Xt+ut的參數(shù)和的普通最小二乘估計量
(OLSestimators)。
這兩個公式可用于任意一組觀測值數(shù)據(jù),以求出截距和斜率的OLS估計值(estimates),估計值是從一組具體觀測值用公式計算出的數(shù)值。一般說來,好的估計量所產(chǎn)生的估計值將相當接近參數(shù)的真值,即好的估計值。可以證明,對于CLR模型,普通最小二乘估計量正是這樣一個好估計量。(5)式和(6)式給出了OLS法計算和3例子
例1對于第一段中的消費函數(shù),若根據(jù)數(shù)據(jù)得到:n=10,=23,=20則有因而3例子例1對于第一段中的例2設(shè)Y和X的5期觀測值如下表所示,試估計方程
Yt=+Xt+ut
序號12345Yt1418232530Xt
1020304050
解:我們采用列表法計算。計算過程如下:例2設(shè)Y和X的5期觀測值如下表所示,試估計方程
Σ5432150304025302320181014831-4-81603004016011015020100-10-200039010004001000100400估計方程為
Σ54321503040253023201810148第二節(jié)最小二乘估計量的性質(zhì)一.和的均值由于從而第二節(jié)最小二乘估計量的性質(zhì)由于從而雙變量線性回歸管理學(xué)與財務(wù)知識分析模型課件即兩邊取期望值,有:——假設(shè)(4)=β——假設(shè)(1)這表明,是β的無偏估計量。在證明無偏性的過程中,我們僅用到(1)和(4)兩條假設(shè)條件。即由,我們有:即是的無偏估計量。由,二.和的方差——根據(jù)定義
——由無偏性我們有:二.和的方差我們有:兩邊取期望值,得:兩邊取期望值,得:由于——根據(jù)假設(shè)(3)——根據(jù)假設(shè)(2)所以即與此類似,可得出由于三.高斯--馬爾柯夫定理(Gauss--MarkovTheorem)
對于滿足統(tǒng)計假設(shè)條件(1)--(4)的線性回歸模型
Yt=+Xt+ut,,普通最小二乘估計量(OLS估計量)是最佳線性無偏估計量(BLUE,TheBestLinearUnbiasedEstimator)。或?qū)τ诠诺渚€性回歸模型(CLR模型)Yt=+Xt+ut,普通最小二乘估計量(OLS估計量)是最佳線性無偏估計量(BLUE)。三.高斯--馬爾柯夫定理(Gauss--MarkovTh我們已在前面證明了無偏性,此外,由于:
——由上段結(jié)果,
=其中
這表明,是諸樣本觀測值Yt(t=1,2,…,n)的線性函數(shù),故是線性估計量。剩下的就是最佳性了,即的方差小于等于β的其他任何線性無偏估計量的方差,我們可以證明這一點,但由于時間關(guān)系,從略。有興趣的同學(xué)請參見教科書P46-47。我們已在前面證明了無偏性,此外,由于:四、和的分布我們在前面列出的假設(shè)條件(5)表明,
ut~N(0,2),t=1,2,...,n
即各期擾動項服從均值為0、方差為2的正態(tài)分布??紤]到假設(shè)條件(4),即Xt為非隨機量,則由前面結(jié)果:=其中,四、和的分布這表明,是N個正態(tài)分布變量u1,u2,…,un的線性函數(shù),因而亦為正態(tài)分布變量,即
~類似的有:
~
這表明,是N個正態(tài)分布變量u1,u2,…,un的線性函數(shù)第三節(jié)擬合優(yōu)度的測度
一、擬合優(yōu)度(Goodnessoffit)的概念
用最小二乘法得到的回歸直線至少從殘差平方和為最小這一意義上來說是所有可能直線中最佳的擬合線。它是對Y和X之間關(guān)系的一種描述,但該直線是不是Y和X之間關(guān)系的一種恰當?shù)拿枋瞿??如果各觀測點緊密地聚集在這條直線的周圍,則表明該直線對Y和X之間關(guān)系的描述是好的;否則,用直線來描述這兩個變量之間的關(guān)系就未必恰當,如下圖所示:第三節(jié)擬合優(yōu)度的測度(a)恰當描述(b)不恰當描述圖2-3雙變量線性回歸管理學(xué)與財務(wù)知識分析模型課件應(yīng)該指出,對于任意兩個變量的一組觀測值,我們總是可以運用最小二乘法得到一條直線,問題是該直線能否較好地擬合所給定的觀測值,這就是擬合優(yōu)度問題。擬合優(yōu)度是兩變量之間關(guān)系強度的測度。在這里,指的是兩變量間線性關(guān)系強度的測度。如果所有觀測值都落在回歸直線上,則稱為“完全擬合”,這種情況是罕見的。在一般情況下,總會出現(xiàn)正負殘差(et),通過對這些殘差的分析,有助于衡量回歸直線擬合樣本數(shù)據(jù)點的程度。應(yīng)該指出,對于任意兩個變量的一組觀測值,我們總是可二、Y的變差的組成讓我們來考察一下Y的變差的組成情況。我們有Y的N個觀測值,Y的總變差的一個測度是,Y的變差()中有一部分是可以由X的取值變動所解釋的。還有一部分是不能由X所解釋的變差,如下圖所示:二、Y的變差的組成雙變量線性回歸管理學(xué)與財務(wù)知識分析模型課件對于第t個觀測值,有:
對于全部N項觀測值平方求和,有:
(7)對于第t個觀測值,有:(7)由于(7)式中最后一項變?yōu)椋河捎冢?)式中最后一項變?yōu)椋河?1)式、(2)式(書P413.8和3.9式)和殘差的定義,顯然有:和
因此,(7)式中最后一項為0,我們得到如下結(jié)果:(8)
即總變差=由X解釋的變差+未解釋變差由(1)式、(2)式(書P413.8和3.9式)和殘差的三.擬合優(yōu)度的測度1.決定系數(shù)
不難看出,總變差中由X解釋的變差比例越大,則就越小,各觀測值聚集在回歸直線周圍的緊密程度就越大,說明直線與觀測值的擬合越好。我們將(8)式兩端都除以總變差,得:并定義決定系數(shù)(coefficientofdetermination)為:
===三.擬合優(yōu)度的測度用符號表示為:其中,ESS——ExplainedSumofSquaresRSS——ResidualSumofSquaresTSS——TotalSumofSquares
決定系數(shù)R2計量了Y的總變差中可以歸因于X和Y之間關(guān)系的比例,或者說Y的變動中可以由X的變動來解釋的比例。它是回歸線對各觀測點擬合緊密程度的測度。用符號表示為:我們有:R2=1:完全擬合,R2=0:X與Y完全不存在線性關(guān)系,R2的值越高,擬合得越好。但什么是高?并沒有絕對的標準,要根據(jù)具體問題而定。此外,回歸中使用時間序列數(shù)據(jù)還是橫截面數(shù)據(jù)也有不同的標準。對時間序列數(shù)據(jù)來說,R2的值在0.8、0.9以上是很常見的事,而在橫截面數(shù)據(jù)的情況下,0.4、0.5的R2值也不能算低。我們有:2.相關(guān)系數(shù)r由R2很容易聯(lián)想到我們在統(tǒng)計中學(xué)過的相關(guān)系數(shù)。相關(guān)系數(shù)r與決定系數(shù)的關(guān)系為:R2=(r)2,相關(guān)系數(shù)的計算公式為:相關(guān)系數(shù)r也是擬合優(yōu)度的測度,其符號取決于的符號(即的符號)
我們有:-1≤r≤1r=1:完全正相關(guān)r=-1:完全負相關(guān)
r=0:無線性關(guān)系2.相關(guān)系數(shù)r
相關(guān)系數(shù)和決定系數(shù)的計算很簡單,事實上,我們只要在原列表計算的表格中加上一個計算的欄目就行了。對于我們前面的例子,列表計算得:因此:r=R2=(0.9938)2=0.9876它表明,在我們的例子中,X與Y存在著很強的線性關(guān)系,擬合甚佳。相關(guān)系數(shù)和決定系數(shù)的計算很簡單,事實上,我們只要在原第四節(jié)雙變量回歸中的區(qū)間估計和假設(shè)檢驗一、β的置信區(qū)間我們在第二節(jié)中已得出,在5條假設(shè)條件成立的情況下,有
~與估計量相聯(lián)系的概率分布的標準差(standarddeviation),通常稱為標準誤差(standarderror),用Se或SE表示。的標準誤差為:Se()=第四節(jié)雙變量回歸中的區(qū)間估計和假設(shè)檢驗如果σ為已知,則我們可以立即給出總體參數(shù)β的95%的置信區(qū)間為:
±1.96或±1.96Se()但實際上,我們一般無法知道擾動項分布的方差2,而必須根據(jù)樣本數(shù)據(jù)估計出2,然后再來考慮β的置信區(qū)間的計算問題。如果σ為已知,則我們可以立即給出總體參數(shù)β的95%的1、2的估計我們可以用殘差來估計擾動項ut的方差2:可以證明,
是2的無偏估計量.上式中的,我們可以直接從殘差的定義式
計算得到,也可以通過下面的公式求出:
(推導(dǎo)從略,參見教材P52-53)1、2的估計(推導(dǎo)從略,參見教材P52-53)2、β的置信區(qū)間我們重新定義的標準誤差為:Se()=則檢驗統(tǒng)計量t==
~
t(n-2)故β的置信區(qū)間為:即2、β的置信區(qū)間即為0.10至1.06。也就是說,我們有95%的把握說β在0.10至1.06之間。即為0.10至1.06。也就是說,我們有95%的把握二、假設(shè)檢驗1.假設(shè)檢驗的邏輯和步驟假設(shè)檢驗始于一個給定的假設(shè),即所謂“原假設(shè)”,亦稱“零假設(shè)”,然后計算檢驗統(tǒng)計量,這個檢驗統(tǒng)計量在原假設(shè)成立的假定下的概率分布是已知的。下一步是判斷計算出的檢驗統(tǒng)計量的值是否不大可能來自此分布,如果判斷是不大可能,則表明原假設(shè)不大可能成立。我們用一個例子來說明上述有關(guān)假設(shè)檢驗的思路。設(shè)有一個原假設(shè)規(guī)定的值為,這里是研究人員選擇的一個值,如果這個原假設(shè)(H0:=)成立,我們知道統(tǒng)計量二、假設(shè)檢驗如果原假設(shè)不成立,則備擇假設(shè)H1:成立。用于計算t的所有的量都是已知的,可以用估計值及其標準誤差Se()算出t的值,因此t可作為檢驗統(tǒng)計量用于假設(shè)檢驗,如果算出的t值絕對值過大,落入t分布的尾部,意味著原假設(shè)不大可能成立,因為在原假設(shè)成立的情況下,得到這樣一個t值的概率很小。應(yīng)服從自由度為(n-2)的t分布,即如果原假設(shè)不成立,則備擇假設(shè)H1:成由上面的說明不難看出,假設(shè)檢驗可以說就是檢驗是否出現(xiàn)了小概率事件,如果出現(xiàn)小概率事件,則拒絕原來關(guān)于總體參數(shù)的假設(shè);如果檢驗表明得到的樣本值并不屬于小概率事件,即若我們的假設(shè)成立,得到該樣本值的概率不算小,則我們不能拒絕原來的假設(shè),或者說,我們“接受”原假設(shè)。問題是,我們上面提到的概率究竟應(yīng)該小到什么程度才算小。一般說來,這取決于我們愿意承擔的拒絕一個正確的假設(shè)和接受一個錯誤的假設(shè)這兩方面的風(fēng)險。在實踐中,一般習(xí)慣于取5%作為拒絕假設(shè)的臨界水平,稱為5%的顯著性水平。由上面的說明不難看出,假設(shè)檢驗可以說就是檢驗是否出假設(shè)檢驗的具體步驟是:(1)建立關(guān)于總體參數(shù)的原假設(shè)和備擇假設(shè);(2)計算檢驗統(tǒng)計量,檢驗原假設(shè)(是否出現(xiàn)小概率事件);(3)得出關(guān)于原假設(shè)是否合理的結(jié)論。假設(shè)檢驗的具體步驟是:例1:仍用上一段例中的數(shù)據(jù),我們要檢驗的是:原假設(shè):H0:β=0.8備擇假設(shè):H1:β<0.8這是一個單側(cè)檢驗的問題。我們有:t===-
1.05用=n-2=10-2=8查t表,截斷左側(cè)5%面積的t臨界值tc=1.86∵︱t︱=1.05<1.86故接受原假設(shè)H0,即β=0.8例1:仍用上一段例中的數(shù)據(jù),我們要檢驗的是:圖2.5圖2.52.系數(shù)的顯著性檢驗在假設(shè)檢驗中,有關(guān)β是否為0的假設(shè)檢驗特別重要。如果通過檢驗,接受β=0的原假設(shè),則表明X和Y沒有關(guān)系,即X對Y的變動沒有影響。在這種情況下,就應(yīng)從模型中剔除X,尋找其他解釋變量。這類檢驗稱為系數(shù)的顯著性檢驗。2.系數(shù)的顯著性檢驗例2.仍用上例數(shù)據(jù)進行β的顯著性檢驗。原假設(shè):H0:β=0備擇假設(shè):H1:β≠0例2.仍用上例數(shù)據(jù)進行β的顯著性檢驗。圖2-6圖2-6三、回歸結(jié)果的提供和分析我們已得到原假設(shè)H0:β=0的t值:t===2.76同樣可得出原假設(shè)H0::
α=0的t值:t===1.381、 回歸結(jié)果的提供提供回歸分析結(jié)果一般有兩種方式:(1)=6.70+0.58XR2=0.49(1.38)(2.76)這里6.70和0.58分別為α和β的估計值和。括號中數(shù)字是H0:
α=0和H0:β=0為真時的t值。三、回歸結(jié)果的提供和分析(2)=6.70+0.58XR2=0.49(4.86)(0.21)括號中提供的是和的標準誤差。由于存在這兩種格式,使得回歸結(jié)果的讀者難以判斷出括號中數(shù)字究竟是t值還是標準誤差。因此,要求在提供回歸結(jié)果時,應(yīng)予以說明。通常的作法有兩種。一種是文字說明,另一種是用符號標示。提供回歸分析結(jié)果的標準格式中一般還包括檢驗一階自相關(guān)的DW檢驗值,我們將在后面介紹。
(2)=6.70+0.58X2、回歸結(jié)果的分析
結(jié)果的分析主要包括以下內(nèi)容:(1)系數(shù)的說明。首先是說明系數(shù)的符號和大小是否正確,是否符合經(jīng)濟理論和常識。其次是說明系數(shù)的含義,本例中斜率系數(shù)為0.58,表明X增加一個單位,Y增加0.58個單位(如收入X增加1元,消費Y增加0.58元)。截距項有時有經(jīng)濟意義,大多數(shù)情況下無,因此通常無需說明。(2)擬合情況。如本例中R2不高,作為時間序列數(shù)據(jù),擬合不理想。(3)系數(shù)的顯著性。本例中斜率系數(shù)的t值為2.76,表明該系數(shù)顯著異于0,X對Y有影響。(4)是否存在擾動項的自相關(guān)。2、回歸結(jié)果的分析第五節(jié)預(yù)測
一、預(yù)測的概念
預(yù)測通常指利用現(xiàn)有信息預(yù)測未來。在這里,預(yù)測指的是對自變量的某一具體值X0,來預(yù)測與它相對應(yīng)的因變量值Y0。它既可以指對未來某個時期因變量值的預(yù)測,也可以是對未包括在橫截面樣本之中的某個實體數(shù)值的預(yù)測。
通常情況下,我們要預(yù)測的是與樣本觀測值范圍之外的X值對應(yīng)的Y值,如觀測值為1985-2007年,預(yù)測2008年的居民消費。但X0也可以在樣本X值的范圍內(nèi)。第五節(jié)預(yù)測二、預(yù)測的隱含假設(shè)
要進行預(yù)測,有一個假設(shè)前提應(yīng)當滿足。即對于樣本觀測值數(shù)據(jù)成立的X和Y之間的關(guān)系對于新的觀測值也成立。即若雙變量模型的原設(shè)定是:
Yt=α+βXt+ut,t=1,2,…,n則要使此模型可以用來作為預(yù)測的依據(jù),還應(yīng)有:Y0=α+βX0+u0也成立。二、預(yù)測的隱含假設(shè)
三.預(yù)測的誤差
我們可以得到兩種類型的預(yù)測值:點預(yù)測值和區(qū)間預(yù)測值。在實踐中,如果沒有某種精度指標的話,點預(yù)測值是沒有多大用處的。所以,我們必須提供點預(yù)測值的預(yù)測誤差。
點預(yù)測值由與X0對應(yīng)的回歸值給出,即而預(yù)測期的實際Y值由下式給出:其中u0是從預(yù)測期的擾動項分布中所取的值。三.預(yù)測的誤差預(yù)測誤差的來源
由此不難看出,預(yù)測誤差產(chǎn)生于兩個來源:(1)模型中包含擾動項,點預(yù)測值是假定預(yù)測期擾動項u0為0,而實際上一般不為0。(2)點預(yù)測值公式中用的是和的估計值和,樣本估計值和一般不等于總體參數(shù)
和。預(yù)測誤差的來源預(yù)測誤差可定義為:
兩邊取期望值,得
因此,OLS預(yù)測量是一個無偏預(yù)測量。預(yù)測誤差可定義為:
預(yù)測誤差的方差為:
其它兩項協(xié)方差等于0。這是因為u0獨立于u1,u2,…un,而和均為u1,u2,…un的線性函數(shù),因此它們與u0的協(xié)方差均為0。將我們在前面得到的和的方差及協(xié)方差代入上式,得:預(yù)測誤差的方差為:注:第二個等號用到注:第二個等號用到四、Y0的置信區(qū)間從e0的定義
可看出,e0為正態(tài)變量的線性函數(shù),因此,它本身也服從正態(tài)分布。故~N(0,1)由于是未知的,我們用其估計值代替它,有四、Y0的置信區(qū)間雙變量線性回歸管理學(xué)與財務(wù)知識分析模型課件
0X0X
YY雙變量線性回歸管理學(xué)與財務(wù)知識分析模型課件即15.24至21.76,也就是說,我們有95%的把握預(yù)測Y0
將位于15.24至21.76之間。即15.24至21.76,也就是說,我們有95例2.且現(xiàn)有一對新觀測值,試問它們是否可能來自產(chǎn)生樣本數(shù)據(jù)的同一總體?
解:問題可化為“預(yù)測誤差是否顯著地大?”
當時,預(yù)測誤差
例2.原假設(shè)H0:備擇假設(shè)H1:檢驗:若H0為真,則
對于n-2=8個自由度,查表得5%顯著性水平檢驗的t臨界值為:即原假設(shè)H0:結(jié)論:由于故接受原假設(shè),即新觀測值與樣本觀測值來自同一總體。上例的意義在于,我們可以通過從估計模型用的一組觀測值中剔除最近期的一兩對觀測值,用它們來檢驗?zāi)P偷念A(yù)測功效。如果我們在上述檢驗中拒絕了原假設(shè),則不管是什么原因,我們都要認真對待,回過頭來檢查模型的設(shè)定是否正確。例3書P61例3.7結(jié)論:第三章雙變量線性回歸模型
(簡單線性回歸模型)(SimpleLinearRegressionModel)第三章雙變量線性回歸模型(簡單線性回歸模型)第一節(jié)雙變量線性回歸模型的估計第二節(jié)最小二乘估計量的性質(zhì)第三節(jié)擬合優(yōu)度的測度第四節(jié)雙變量回歸中的區(qū)間估計和假設(shè)檢驗第五節(jié)預(yù)測第六節(jié)有關(guān)最小二乘法的進一步討論第一節(jié)雙變量線性回歸模型的估計第一節(jié)雙變量線性回歸模型的估計
一.雙變量線性回歸模型的概念設(shè)Y=消費,X=收入,我們根據(jù)數(shù)據(jù)畫出散點圖Y* 這意味著 * Y=+X (1) * 寫出計量經(jīng)濟模型* Y=+X+u(2) *其中u=擾動項或誤差項Y為因變量或被解釋變量圖1XX為自變量或解釋變量
和為未知參數(shù) 第一節(jié)雙變量線性回歸模型的估計
設(shè)我們有Y和X的n對觀測值數(shù)據(jù),則根據(jù)(2)式,變量Y的每個觀測值應(yīng)由下式?jīng)Q定:Yi=+Xi+ui,i=1,2,...,n (3)(3)式稱為雙變量線性回歸模型或簡單線性回歸模型。其中和為未知的總體參數(shù),也稱為回歸模型的系數(shù)(coefficients)。下標i是觀測值的序號。當數(shù)據(jù)為時間序列時,往往用下標t來表示觀測值的序號,從而(3)式變成Yt=+Xt+ut,t=1,2,...,n (3’)設(shè)我們有Y和X的n對觀測值數(shù)據(jù),則根據(jù)(2)式,變
為何要在模型中包括擾動項u
我們在上一章中已初步介紹了為什么要在模型中包括擾動項u,下面進一步說明之:(1)真正的關(guān)系是Y=f(X1,X2,…),但X2,X3,…,相對不重要,用u代表之。(2)兩變量之間的關(guān)系可能不是嚴格線性的,u反映了與直線的偏差。(3)經(jīng)濟行為是隨機的,我們能夠用Y=α+βX解釋“典型”的行為,而用u來表示個體偏差。(4)總會出現(xiàn)測量誤差,使得任何精確的關(guān)系不可能存在。
為何要在模型中包括擾動項u二.普通最小二乘法(OLS法,OrdinaryLeastsquares)1.雙變量線性回歸模型的統(tǒng)計假設(shè)
我們的模型是:Yt=+Xt+ut,t=1,2,...,n這里和為未知總體參數(shù),下一步的任務(wù)是應(yīng)用統(tǒng)計學(xué)的方法,由Y和X的觀測值(即樣本數(shù)據(jù))來估計和的總體值,常用的估計方法就是最小二乘法。為了應(yīng)用最小二乘法,得到好的估計量,雙變量線性回歸模型需要滿足一些統(tǒng)計假設(shè)條件,這些統(tǒng)計假設(shè)是:二.普通最小二乘法(OLS法,OrdinaryLeas雙變量線性回歸模型的統(tǒng)計假設(shè)
(1).E(ut)=0,t=1,2,...,n即各期擾動項的均值(期望值)為0.(2).E(uiuj)=0ij即各期擾動項互不相關(guān).(3).E(ut2)=2,t=1,2,...,n即各期擾動項方差是一常數(shù).(4).解釋變量Xt為非隨機量即Xt的取值是確定的,而不是隨機的.(5).ut~N(0,2),t=1,2,...,n即各期擾動項服從正態(tài)分布。
雙變量線性回歸模型的統(tǒng)計假設(shè)下面簡單討論一下上述假設(shè)條件。(1)E(ut)=0,t=1,2,…,n即各期擾動項的均值(期望值)均為0。均值為0的假設(shè)反映了這樣一個事實:擾動項被假定為對因變量的那些不能列為模型主要部分的微小影響。沒有理由相信這樣一些影響會以一種系統(tǒng)的方式使因變量增加或減小。因此擾動項均值為0的假設(shè)是合理的。下面簡單討論一下上述假設(shè)條件。(2)E(uiuj)=0,i≠j即各期擾動項互不相關(guān)。也就是假定它們之間無自相關(guān)或無序列相關(guān)。實際上該假設(shè)等同于:cov(ui,uj)=0,i≠j這是因為:cov(ui,uj)=E{[ui-E(ui)][uj-E(uj)]}=E(uiuj)——根據(jù)假設(shè)(1)(2)E(uiuj)=0,i≠j(3)E(ut2)=2,t=1,2,…,n即各期擾動項的方差是一常數(shù),也就是假定各擾動項具有同方差性。實際上該假設(shè)等同于:Var(ut)=2,t=1,2,…,n這是因為:Var(ut)=E{[ut-E(ut)]2}=E(ut2)——根據(jù)假設(shè)(1)(3)E(ut2)=2,t=1,2,…,n(4)Xt為非隨機量即Xt的取值是確定的,而不是隨機的。事實上,我們后面證明無偏性時僅需要解釋變量X與擾動項u不相關(guān),但不容易驗證之,因而通常采用非隨機量的假設(shè)。
(5)ut~N(0,2),t=1,2,...,n即擾動項服從正態(tài)分布。滿足條件(1)—(4)的線性回歸模型稱為古典線性回歸模型(CLR模型)。
(4)Xt為非隨機量
2.最小二乘原理
我們的任務(wù)是,在給定X和Y的一組觀測值(X1,Y1),(X2,Y2),...,(Xn,Yn)的情況下,求出Yt=+Xt+ut中和的估計值和,使得擬合的直線為最佳。直觀上看,也就是要求在X和Y的散點圖上穿過各觀測點畫出一條“最佳”直線,如下圖所示。2.最小二乘原理*****
et************
YXXt圖2
Yt
殘差
擬合的直線稱為擬合的回歸線.對于任何數(shù)據(jù)點(Xt,Yt),此直線將Yt的總值分成兩部分。第一部分是Yt的擬合值或預(yù)測值:,t=1,2,……,n第二部分,et,代表觀測點對于回歸線的誤差,稱為擬合或預(yù)測的殘差(residuals):
t=1,2,……,n
即t=1,2,……,n殘差殘差平方和我們的目標是使擬合出來的直線在某種意義上是最佳的,直觀地看,也就是要求估計直線盡可能地靠近各觀測點,這意味著應(yīng)使殘差總體上盡可能地小。要做到這一點,就必須用某種方法將每個點相應(yīng)的殘差加在一起,使其達到最小。理想的測度是殘差平方和,即殘差平方和最小二乘法最小二乘法就是選擇一條直線,使其殘差平方和達到最小值的方法。即選擇和,使得達到最小值。最小二乘法達到最小值。
運用微積分知識,使上式達到最小值的必要條件為:即運用微積分知識,使上式達到最小值的必要條件為:即整理,得:此二式稱為正規(guī)方程。解此二方程,得:其中:樣本均值離差整理,得:此二式稱為正規(guī)方程。解此二方程,得:其中:樣(5)式和(6)式給出了OLS法計算和的公式,和稱為線性回歸模型Yt=+Xt+ut的參數(shù)和的普通最小二乘估計量
(OLSestimators)。
這兩個公式可用于任意一組觀測值數(shù)據(jù),以求出截距和斜率的OLS估計值(estimates),估計值是從一組具體觀測值用公式計算出的數(shù)值。一般說來,好的估計量所產(chǎn)生的估計值將相當接近參數(shù)的真值,即好的估計值??梢宰C明,對于CLR模型,普通最小二乘估計量正是這樣一個好估計量。(5)式和(6)式給出了OLS法計算和3例子
例1對于第一段中的消費函數(shù),若根據(jù)數(shù)據(jù)得到:n=10,=23,=20則有因而3例子例1對于第一段中的例2設(shè)Y和X的5期觀測值如下表所示,試估計方程
Yt=+Xt+ut
序號12345Yt1418232530Xt
1020304050
解:我們采用列表法計算。計算過程如下:例2設(shè)Y和X的5期觀測值如下表所示,試估計方程
Σ5432150304025302320181014831-4-81603004016011015020100-10-200039010004001000100400估計方程為
Σ54321503040253023201810148第二節(jié)最小二乘估計量的性質(zhì)一.和的均值由于從而第二節(jié)最小二乘估計量的性質(zhì)由于從而雙變量線性回歸管理學(xué)與財務(wù)知識分析模型課件即兩邊取期望值,有:——假設(shè)(4)=β——假設(shè)(1)這表明,是β的無偏估計量。在證明無偏性的過程中,我們僅用到(1)和(4)兩條假設(shè)條件。即由,我們有:即是的無偏估計量。由,二.和的方差——根據(jù)定義
——由無偏性我們有:二.和的方差我們有:兩邊取期望值,得:兩邊取期望值,得:由于——根據(jù)假設(shè)(3)——根據(jù)假設(shè)(2)所以即與此類似,可得出由于三.高斯--馬爾柯夫定理(Gauss--MarkovTheorem)
對于滿足統(tǒng)計假設(shè)條件(1)--(4)的線性回歸模型
Yt=+Xt+ut,,普通最小二乘估計量(OLS估計量)是最佳線性無偏估計量(BLUE,TheBestLinearUnbiasedEstimator)?;?qū)τ诠诺渚€性回歸模型(CLR模型)Yt=+Xt+ut,普通最小二乘估計量(OLS估計量)是最佳線性無偏估計量(BLUE)。三.高斯--馬爾柯夫定理(Gauss--MarkovTh我們已在前面證明了無偏性,此外,由于:
——由上段結(jié)果,
=其中
這表明,是諸樣本觀測值Yt(t=1,2,…,n)的線性函數(shù),故是線性估計量。剩下的就是最佳性了,即的方差小于等于β的其他任何線性無偏估計量的方差,我們可以證明這一點,但由于時間關(guān)系,從略。有興趣的同學(xué)請參見教科書P46-47。我們已在前面證明了無偏性,此外,由于:四、和的分布我們在前面列出的假設(shè)條件(5)表明,
ut~N(0,2),t=1,2,...,n
即各期擾動項服從均值為0、方差為2的正態(tài)分布??紤]到假設(shè)條件(4),即Xt為非隨機量,則由前面結(jié)果:=其中,四、和的分布這表明,是N個正態(tài)分布變量u1,u2,…,un的線性函數(shù),因而亦為正態(tài)分布變量,即
~類似的有:
~
這表明,是N個正態(tài)分布變量u1,u2,…,un的線性函數(shù)第三節(jié)擬合優(yōu)度的測度
一、擬合優(yōu)度(Goodnessoffit)的概念
用最小二乘法得到的回歸直線至少從殘差平方和為最小這一意義上來說是所有可能直線中最佳的擬合線。它是對Y和X之間關(guān)系的一種描述,但該直線是不是Y和X之間關(guān)系的一種恰當?shù)拿枋瞿??如果各觀測點緊密地聚集在這條直線的周圍,則表明該直線對Y和X之間關(guān)系的描述是好的;否則,用直線來描述這兩個變量之間的關(guān)系就未必恰當,如下圖所示:第三節(jié)擬合優(yōu)度的測度(a)恰當描述(b)不恰當描述圖2-3雙變量線性回歸管理學(xué)與財務(wù)知識分析模型課件應(yīng)該指出,對于任意兩個變量的一組觀測值,我們總是可以運用最小二乘法得到一條直線,問題是該直線能否較好地擬合所給定的觀測值,這就是擬合優(yōu)度問題。擬合優(yōu)度是兩變量之間關(guān)系強度的測度。在這里,指的是兩變量間線性關(guān)系強度的測度。如果所有觀測值都落在回歸直線上,則稱為“完全擬合”,這種情況是罕見的。在一般情況下,總會出現(xiàn)正負殘差(et),通過對這些殘差的分析,有助于衡量回歸直線擬合樣本數(shù)據(jù)點的程度。應(yīng)該指出,對于任意兩個變量的一組觀測值,我們總是可二、Y的變差的組成讓我們來考察一下Y的變差的組成情況。我們有Y的N個觀測值,Y的總變差的一個測度是,Y的變差()中有一部分是可以由X的取值變動所解釋的。還有一部分是不能由X所解釋的變差,如下圖所示:二、Y的變差的組成雙變量線性回歸管理學(xué)與財務(wù)知識分析模型課件對于第t個觀測值,有:
對于全部N項觀測值平方求和,有:
(7)對于第t個觀測值,有:(7)由于(7)式中最后一項變?yōu)椋河捎冢?)式中最后一項變?yōu)椋河?1)式、(2)式(書P413.8和3.9式)和殘差的定義,顯然有:和
因此,(7)式中最后一項為0,我們得到如下結(jié)果:(8)
即總變差=由X解釋的變差+未解釋變差由(1)式、(2)式(書P413.8和3.9式)和殘差的三.擬合優(yōu)度的測度1.決定系數(shù)
不難看出,總變差中由X解釋的變差比例越大,則就越小,各觀測值聚集在回歸直線周圍的緊密程度就越大,說明直線與觀測值的擬合越好。我們將(8)式兩端都除以總變差,得:并定義決定系數(shù)(coefficientofdetermination)為:
===三.擬合優(yōu)度的測度用符號表示為:其中,ESS——ExplainedSumofSquaresRSS——ResidualSumofSquaresTSS——TotalSumofSquares
決定系數(shù)R2計量了Y的總變差中可以歸因于X和Y之間關(guān)系的比例,或者說Y的變動中可以由X的變動來解釋的比例。它是回歸線對各觀測點擬合緊密程度的測度。用符號表示為:我們有:R2=1:完全擬合,R2=0:X與Y完全不存在線性關(guān)系,R2的值越高,擬合得越好。但什么是高?并沒有絕對的標準,要根據(jù)具體問題而定。此外,回歸中使用時間序列數(shù)據(jù)還是橫截面數(shù)據(jù)也有不同的標準。對時間序列數(shù)據(jù)來說,R2的值在0.8、0.9以上是很常見的事,而在橫截面數(shù)據(jù)的情況下,0.4、0.5的R2值也不能算低。我們有:2.相關(guān)系數(shù)r由R2很容易聯(lián)想到我們在統(tǒng)計中學(xué)過的相關(guān)系數(shù)。相關(guān)系數(shù)r與決定系數(shù)的關(guān)系為:R2=(r)2,相關(guān)系數(shù)的計算公式為:相關(guān)系數(shù)r也是擬合優(yōu)度的測度,其符號取決于的符號(即的符號)
我們有:-1≤r≤1r=1:完全正相關(guān)r=-1:完全負相關(guān)
r=0:無線性關(guān)系2.相關(guān)系數(shù)r
相關(guān)系數(shù)和決定系數(shù)的計算很簡單,事實上,我們只要在原列表計算的表格中加上一個計算的欄目就行了。對于我們前面的例子,列表計算得:因此:r=R2=(0.9938)2=0.9876它表明,在我們的例子中,X與Y存在著很強的線性關(guān)系,擬合甚佳。相關(guān)系數(shù)和決定系數(shù)的計算很簡單,事實上,我們只要在原第四節(jié)雙變量回歸中的區(qū)間估計和假設(shè)檢驗一、β的置信區(qū)間我們在第二節(jié)中已得出,在5條假設(shè)條件成立的情況下,有
~與估計量相聯(lián)系的概率分布的標準差(standarddeviation),通常稱為標準誤差(standarderror),用Se或SE表示。的標準誤差為:Se()=第四節(jié)雙變量回歸中的區(qū)間估計和假設(shè)檢驗如果σ為已知,則我們可以立即給出總體參數(shù)β的95%的置信區(qū)間為:
±1.96或±1.96Se()但實際上,我們一般無法知道擾動項分布的方差2,而必須根據(jù)樣本數(shù)據(jù)估計出2,然后再來考慮β的置信區(qū)間的計算問題。如果σ為已知,則我們可以立即給出總體參數(shù)β的95%的1、2的估計我們可以用殘差來估計擾動項ut的方差2:可以證明,
是2的無偏估計量.上式中的,我們可以直接從殘差的定義式
計算得到,也可以通過下面的公式求出:
(推導(dǎo)從略,參見教材P52-53)1、2的估計(推導(dǎo)從略,參見教材P52-53)2、β的置信區(qū)間我們重新定義的標準誤差為:Se()=則檢驗統(tǒng)計量t==
~
t(n-2)故β的置信區(qū)間為:即2、β的置信區(qū)間即為0.10至1.06。也就是說,我們有95%的把握說β在0.10至1.06之間。即為0.10至1.06。也就是說,我們有95%的把握二、假設(shè)檢驗1.假設(shè)檢驗的邏輯和步驟假設(shè)檢驗始于一個給定的假設(shè),即所謂“原假設(shè)”,亦稱“零假設(shè)”,然后計算檢驗統(tǒng)計量,這個檢驗統(tǒng)計量在原假設(shè)成立的假定下的概率分布是已知的。下一步是判斷計算出的檢驗統(tǒng)計量的值是否不大可能來自此分布,如果判斷是不大可能,則表明原假設(shè)不大可能成立。我們用一個例子來說明上述有關(guān)假設(shè)檢驗的思路。設(shè)有一個原假設(shè)規(guī)定的值為,這里是研究人員選擇的一個值,如果這個原假設(shè)(H0:=)成立,我們知道統(tǒng)計量二、假設(shè)檢驗如果原假設(shè)不成立,則備擇假設(shè)H1:成立。用于計算t的所有的量都是已知的,可以用估計值及其標準誤差Se()算出t的值,因此t可作為檢驗統(tǒng)計量用于假設(shè)檢驗,如果算出的t值絕對值過大,落入t分布的尾部,意味著原假設(shè)不大可能成立,因為在原假設(shè)成立的情況下,得到這樣一個t值的概率很小。應(yīng)服從自由度為(n-2)的t分布,即如果原假設(shè)不成立,則備擇假設(shè)H1:成由上面的說明不難看出,假設(shè)檢驗可以說就是檢驗是否出現(xiàn)了小概率事件,如果出現(xiàn)小概率事件,則拒絕原來關(guān)于總體參數(shù)的假設(shè);如果檢驗表明得到的樣本值并不屬于小概率事件,即若我們的假設(shè)成立,得到該樣本值的概率不算小,則我們不能拒絕原來的假設(shè),或者說,我們“接受”原假設(shè)。問題是,我們上面提到的概率究竟應(yīng)該小到什么程度才算小。一般說來,這取決于我們愿意承擔的拒絕一個正確的假設(shè)和接受一個錯誤的假設(shè)這兩方面的風(fēng)險。在實踐中,一般習(xí)慣于取5%作為拒絕假設(shè)的臨界水平,稱為5%的顯著性水平。由上面的說明不難看出,假設(shè)檢驗可以說就是檢驗是否出假設(shè)檢驗的具體步驟是:(1)建立關(guān)于總體參數(shù)的原假設(shè)和備擇假設(shè);(2)計算檢驗統(tǒng)計量,檢驗原假設(shè)(是否出現(xiàn)小概率事件);(3)得出關(guān)于原假設(shè)是否合理的結(jié)論。假設(shè)檢驗的具體步驟是:例1:仍用上一段例中的數(shù)據(jù),我們要檢驗的是:原假設(shè):H0:β=0.8備擇假設(shè):H1:β<0.8這是一個單側(cè)檢驗的問題。我們有:t===-
1.05用=n-2=10-2=8查t表,截斷左側(cè)5%面積的t臨界值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 買賣紅磚合同模板
- 咖啡食材配送合同模板
- 單據(jù)合同模板
- 光伏購置原材料合同模板
- 主播臨時合同模板
- 商鋪租賃分期合同模板
- 歷史建筑修繕合同模板
- 原材料開口合同模板
- 包車運貨合同模板
- 信息設(shè)備采購合同模板
- GB 1002-2024家用和類似用途單相插頭插座型式、基本參數(shù)和尺寸
- 人教新課標一年級數(shù)學(xué)上冊3.6 《減法》說課稿1
- JT-T-1088-2016公路工程噴射混凝土用無堿速凝劑
- YY-T1676-2020超聲內(nèi)窺鏡行業(yè)標準
- 康復(fù)醫(yī)學(xué)導(dǎo)論案例分析
- 中國的地理環(huán)境與國家安全
- 安全生產(chǎn)責(zé)任制(各工種)
- 第十二章 全等三角形 作業(yè)設(shè)計-2023-2024學(xué)年人教版八年級數(shù)學(xué)上冊
- 工業(yè)級海綿鋯市場現(xiàn)狀研究分析與發(fā)展前景預(yù)測報告
- (正式版)JBT 7122-2024 交流真空接觸器 基本要求
- 發(fā)酵工程為人類提供多樣的生物產(chǎn)品(教學(xué)課件)高二生物(浙科版2019選擇性必修3)
評論
0/150
提交評論