oym2013年第3章(一元線性回歸模型)_第1頁
oym2013年第3章(一元線性回歸模型)_第2頁
oym2013年第3章(一元線性回歸模型)_第3頁
oym2013年第3章(一元線性回歸模型)_第4頁
oym2013年第3章(一元線性回歸模型)_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

在第二章,我們以人為設(shè)計的收入與消費數(shù)據(jù),討論了總體回歸模型與樣本回歸模型。本章分析一元線性回歸模型的經(jīng)典假定,以及經(jīng)典假設(shè)下的最小二乘估計方法和估計量的統(tǒng)計性質(zhì)、區(qū)間估計、假設(shè)檢驗,并運用蒙特卡洛模擬直觀認(rèn)識和驗證最小二乘估計量的統(tǒng)計性質(zhì)。第三章一元線性回歸模型§3.4

例子:中國消費函數(shù)§3.5

對最小二乘估計量統(tǒng)計性質(zhì)的直觀認(rèn)識---蒙特卡洛模擬§3.3

回歸參數(shù)的區(qū)間估計和假設(shè)檢驗§3.2擬合優(yōu)度§3.1

一元線性回歸模型參數(shù)的估計本章小結(jié)§3.1一元線性回歸模型參數(shù)的估計一元線性回歸模型是指模型中只有一個解釋變量的模線性型,也稱為簡單線性回歸模型,其一般形式是:

(3.1.1)

Y為被解釋變量,X為解釋變量。因為模型中共有兩個變量,所以,模型(3.1.1)也被稱為雙變量線性回歸模型,β0與β1為待估參數(shù),ui為隨機(jī)誤差項或隨機(jī)擾動項。

一、基本假定1、對模型與變量的假定假定1:回歸模型對參數(shù)(系數(shù))

而言是線性模型。假定2:解釋變量是外生變量。假定3:模型是正確設(shè)定的。2、對隨機(jī)擾動項的假定假定4:零均值假定假定5:同方差假定假定6:無自相關(guān)假定5二、普通最小二乘法(OLS)Yi的變化可以分為兩部分,一部分是可以由Xi的變化解釋的,另一部分來自隨機(jī)擾動。Yi向Xi所解釋的“平均水平”回歸,這就是“回歸”的含義。而斜率系數(shù)β1是指,Xi每變化一個單位,Yi平均變化β1個單位。β0是樣本回歸直線的截距?;诩俣?,我們對模型(3.1.1)取條件期望,則有:(3.1.6)

即:(3.1.7)第一步構(gòu)造含有待估計系數(shù)的殘差平方和并對其求最小第二步對殘差平方和求兩個系數(shù)的偏導(dǎo)數(shù)(一階條件)(3.1.8)正則方程(3.1.9)(3.1.9)式即為OLS估計量對第二步的進(jìn)一步演算

在(3.1.9)式中,令,和分別稱為Xi和Yi的離差形式,也可稱為對Xi和Yi的中心化處理。為方便,我們以下分析過程中,將和號簡寫為。容易證明:

(3.1.10)

(3.1.11)于是,估計量(3.1.9)可以表示為離差形式:(3.1.12)

在計量經(jīng)濟(jì)學(xué)中,往往以小寫字母表示對均值的離差。由于

是從最小二乘原理推導(dǎo)出來的,故稱為普通最小二乘估計量。將樣本數(shù)據(jù)代入估計量的計算公式(3.1.12)即可求得參數(shù)的估計值。

例3.1.1思考題目解答表3.1.12008年中國各地區(qū)城市居民人均年消費支出和可支配收入數(shù)據(jù)來源:《中國統(tǒng)計年鑒2009》請回答:我國宏觀經(jīng)濟(jì)中的邊際消費傾向是多少?地

區(qū)城市居民家庭平均每人每年消費支出(元)城市居民人均年可支配收入(元)地

區(qū)城市居民家庭平均每人每年消費支出(元)城市居民人均年可支配收入(元)北

京16460.2624724.89湖

北9477.5113152.86天

津13422.4719422.53湖

南9945.5213821.16河

北9086.7313441.09廣

東15527.9719732.86山

西8806.5513119.05廣

西9627.414146.04內(nèi)蒙古10828.6214432.55海

南9408.4812607.84遼

寧11231.4814392.69重

慶11146.814367.55吉

林9729.0512829.45四

川9679.1412633.38黑龍江8622.9711581.28貴

州8349.2111758.76上

海19397.8926674.9云

南9076.6113250.22江

蘇11977.5518679.52西

藏8323.5412481.51浙

江15158.322726.66陜

西9772.0712857.89安

徽9524.0412990.35甘

肅8308.6210969.41福

建12501.1217961.45青

海8192.5611640.43江

西8717.3712866.44寧

夏9558.2912931.53山

東11006.6116305.41新

疆8669.3611432.1河

南8837.4613231.11

我們設(shè)定樣本回歸模型

其中Yi為城市居民家庭平均每人每年消費支出;Xi為城市居民人均年可支配收入。使用這組樣本數(shù)據(jù),對(3.1.13)做最小二乘估計,結(jié)果為

從樣本回歸函數(shù)可知,邊際消費傾向,也就是說收入每增加1元,消費平均增加0.6647元。(3.1.13)(3.1.14)圖3.1.1樣本數(shù)據(jù)的散點圖和樣本回歸直線樣本點緊密散布在樣本回歸直線周圍,有的樣本點落在樣本回歸直線上,但是大多數(shù)樣本點不在樣本回歸直線上,而是在直線上方或者下方,那么這條樣本回歸直線“逼近”了總體回歸直線嗎?為什么要用普通最小二乘法?如何度量樣本回歸模型對樣本觀測值的擬合程度?要回答這些問題,我們必須學(xué)習(xí)估計量的統(tǒng)計性質(zhì)和模型的擬合優(yōu)度等概念。9三、最小二乘估計量的統(tǒng)計性質(zhì)估計量的主要性質(zhì)OLS估計量的統(tǒng)計性質(zhì)

無偏性漸近無偏性漸近有效性有效性線性性一致性無偏性大樣本性質(zhì)有效性(最小方差性)線性性即樣本容量趨于無窮大時,估計量

在所有的一致估計量

中具有最小的漸近方差,即:即估計量是隨機(jī)樣本數(shù)據(jù)的線性函數(shù);即估計量的期望等于總體的真實值,即:即估計量

在所有線性無偏估計量

中具有最小方差,也稱為最小方差性,即:即樣本容量趨于無窮大時,估計量的期望趨于總體真實值,即:即樣本容量趨于無窮大時,估計量依概率收劍于總體的真實值,即:其中:符號“Plim”表示概率極限,因為隨機(jī)變量沒有極限值,只能求概率極限。線性性是指估計量

是隨機(jī)變量Yi的線性組合。即即在所有線性無偏估計量中,最小二乘估計量和具有最小方差。也就是說,如果我們能得到不同于最小二乘估計量的其他線性無偏估計量,其方差大于或者等于最小二乘估計量的方差。由于最小二乘估計量擁有一個“好”的估計量所應(yīng)具備的有限樣本性質(zhì),它也擁有大樣本特性,即漸近無偏性、一致性、漸近有效性。高斯-馬爾可夫定理

由以上分析可以看出,普通最小二乘估計量(ordinaryleastsquaresestimators)在經(jīng)典假定下具有線性性、無偏性和最小方差性等性質(zhì),稱具有這些性質(zhì)的估計量為最優(yōu)線性無偏估計量(

bestlinearunbiasedestimator,BLUE)。高斯-馬爾可夫定理(Gauss-Markovtheorem)

在經(jīng)典假定下,普通最小二乘估計量具有線性性、無偏性和最小方差性(

BLUE)?!?.2擬合優(yōu)度

如圖3.2.1(a)和(b)中的直線,它們分別表示由散點表示的樣本數(shù)據(jù)所對應(yīng)的樣本回歸直線(OLS估計的樣本回歸直線),它們都是通過殘差平方和最小而產(chǎn)生的直線,但是二者對樣本觀測值的擬合程度顯然是不同的。這兩條直線,誰擬合得更好?這就需要使用擬合優(yōu)度的概念。3.2.1一、總離差平方和的分解

已知由一組樣本觀測值得到如下樣本回歸直線:

Y的第個觀測值與樣本均值的離差

可分解為兩部分之和(3.2.1)(3.2.2)圖3.2.2總離差的分解示意圖RSS稱為殘差平方和(residualsumofsquares,RSS),反映樣本觀測值與估計值偏離的大小,也是模型中解釋變量未解釋的離差。(3.2.7)(3.2.6)ESS稱為回歸平方和(explainedsumofsquares,ESS),反映由模型中解釋變量所解釋的那部分離差的大小。TSS稱為總平方和(totalsumofsquares,TSS),它反映樣本觀測值總體離差的大小。對于所有樣本點,由于

可以證明,所以有

記(3.2.3)(3.2.5)(3.2.4)二、擬合優(yōu)度

ESS占Y的總離差平方和的比例,度量了回歸直線對樣本觀測值的擬合優(yōu)度。這一比例記為R2,被稱為判定系數(shù)(3.2.8)

如果樣本回歸直線與樣本觀測值完全擬合,或者說,所有的樣本點全部落在樣本回歸直線上,則有R2=1。但是,由于樣本的隨機(jī)性,樣本回歸直線(或者估計的模型)與樣本觀測值完全擬合,亦即R2=1的情況很少發(fā)生。R2越大,說明在總變差中由回歸解釋的部分所占比重越大,擬合優(yōu)度越高。反之,R2越小,說明估計的模型對樣本觀測值的擬合程度越差?!?.3回歸參數(shù)的區(qū)間估計和假設(shè)檢驗一、回歸參數(shù)估計量的概率分布的概率分布的標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)化變換的標(biāo)準(zhǔn)誤

在ui服從正態(tài)分布的假設(shè)下,即:

ui~N(0,σ2)則Yi服從正態(tài)分布,所以也服從正態(tài)分布,其分布特征由其均值和方差唯一決定,即(3.3.2)(3.3.1)于是,的標(biāo)準(zhǔn)差分別為(3.3.3)(3.3.4)(3.3.6)(3.3.5)若將正態(tài)隨機(jī)變量做標(biāo)準(zhǔn)化變換

即經(jīng)過標(biāo)準(zhǔn)化變換的均服從標(biāo)準(zhǔn)正態(tài)分布。我們定義:

用代替的標(biāo)準(zhǔn)差中的σ2,得到估計量的標(biāo)準(zhǔn)差的估計,為區(qū)別起見,稱為標(biāo)準(zhǔn)誤:可以證明,用標(biāo)準(zhǔn)誤對作標(biāo)準(zhǔn)化變換,所得到的和已經(jīng)不再服從,而是服從,即(3.3.8)(3.3.10)(3.3.11)(3.3.7)(3.3.9)二、回歸參數(shù)的區(qū)間估計參數(shù)估計中的區(qū)間估計具體構(gòu)造參數(shù)的區(qū)間估計

選擇一個顯著性水平α(0<α<1),并求一個正數(shù)δ,使得隨機(jī)區(qū)間()包含參數(shù)(真實值)的概率為1-α,即其中,1-α稱為置信系數(shù)(置信度、置信水平),α稱為顯著性水平,而(),稱為具有置信水平1-α的置信區(qū)間,也就是說,我們有1-α的“把握”認(rèn)為,置信區(qū)間覆蓋了真值。這個區(qū)間也稱為的區(qū)間估計。置信區(qū)間的兩個端點稱為置信上限和置信下限。

給定置信度1-α,從t分布表中查得自由度為的臨界值,那么t值處在(-,)內(nèi)的概率是1-α(圖3.3.1的中間空白區(qū)域面積),即

整理(3.3.14)式得

于是得到的置信度為1-α的置信區(qū)間(3.3.13)(3.3.15)(3.3.16)(3.3.14)圖3.3.1t分布的1-α

置信區(qū)間三、變量的顯著性檢驗:t檢驗為檢驗收入(X)是否顯著地解釋了消費(Y)的平均變化,設(shè)定假設(shè)檢驗的原假設(shè)(虛擬假設(shè))和備選假設(shè)(對立假設(shè))分別是:

,:

如果收入(X)顯著地解釋了消費(Y)的平均變化,那么參數(shù)的估計值應(yīng)該顯著不為0,也就是說,我們應(yīng)該以某種顯著性水平拒絕原假設(shè)。

由(3.3.11)式我們已經(jīng)知道,在隨機(jī)誤差項的正態(tài)性假定下,有將原假設(shè)代入以上的t

統(tǒng)計量中,有

給定一個顯著性水平α=0.05,在

t

分布表中可以查到一個對應(yīng)的臨界值,于是,所界定的區(qū)間為接受域(嚴(yán)格意義上應(yīng)該稱為不拒絕域),而

稱為拒絕域。

同理,如果原假設(shè)和備選假設(shè)分別是:,:

將原假設(shè)代入(3.3.10)中,有圖3.3.2

t檢驗法和p值檢驗法等價示意圖---雙側(cè)檢驗(3.3.17)(3.3.18)四、檢驗統(tǒng)計量的p值

對回歸參數(shù)的假設(shè)檢驗是在給定的顯著性水平下做出的,因此當(dāng)給定的顯著性水平不同時,檢驗所得的結(jié)論很可能不同,甚至?xí)a(chǎn)生相反的結(jié)論。在原假設(shè)既定、t統(tǒng)計量已確定的情況下,對參數(shù)假設(shè)檢驗的結(jié)論與顯著性水平息息相關(guān)。如何避免選擇α

的主觀性?一個簡單的方法是,在既定原假設(shè)下,計算t統(tǒng)計量的值,記為,在t分布表中可以查到所對應(yīng)的雙尾(在概率趨于0的方向)的概率值,這個概率值即為t統(tǒng)計量的值等于時的p值。p值參看圖3.3.2,用公式表示,即為使用這個p值就勿需人為地選擇顯著性水平,即可方便的做出拒絕或者不拒絕原假設(shè)的結(jié)論。

當(dāng)原假設(shè)不是等于某個值,而是大于等于或者小于等于某個值時,就要使用單側(cè)檢驗,包括:(1)左側(cè)檢驗::,:,。此時臨界值是,拒絕域是?;蛘呤褂胮值產(chǎn)生檢驗結(jié)論,見圖3.3.3;(2)右側(cè)檢驗::,:,。此時臨界值是,拒絕域是?;蛘哂胮值做出拒絕或者不拒絕原假設(shè)的結(jié)論,見圖3.3.4。圖3.3.4t檢驗法和p值檢驗法等價示意圖---右側(cè)檢驗圖3.3.3t檢驗法和p值檢驗法等價示意圖---左側(cè)檢驗§3.4例子:中國消費函數(shù)表3.1.12008年中國各地區(qū)城市居民人均年消費支出和可支配收入數(shù)據(jù)來源:《中國統(tǒng)計年鑒2009》地

區(qū)城市居民家庭平均每人每年消費支出(元)城市居民人均年可支配收入(元)地

區(qū)城市居民家庭平均每人每年消費支出(元)城市居民人均年可支配收入(元)北

京16460.2624724.89湖

北9477.5113152.86天

津13422.4719422.53湖

南9945.5213821.16河

北9086.7313441.09廣

東15527.9719732.86山

西8806.5513119.05廣

西9627.414146.04內(nèi)蒙古10828.6214432.55海

南9408.4812607.84遼

寧11231.4814392.69重

慶11146.814367.55吉

林9729.0512829.45四

川9679.1412633.38黑龍江8622.9711581.28貴

州8349.2111758.76上

海19397.8926674.9云

南9076.6113250.22江

蘇11977.5518679.52西

藏8323.5412481.51浙

江15158.322726.66陜

西9772.0712857.89安

徽9524.0412990.35甘

肅8308.6210969.41福

建12501.1217961.45青

海8192.5611640.43江

西8717.3712866.44寧

夏9558.2912931.53山

東11006.6116305.41新

疆8669.3611432.1河

南8837.4613231.11數(shù)據(jù)估計檢驗與經(jīng)濟(jì)解釋

根據(jù)凱恩斯消費理論,對于表3.1.1中的消費和收入的數(shù)據(jù),回歸模型設(shè)定為:

Y—城市居民家庭平均每人每年消費支出(元)X—城市居民人均年可支配收入(元)基于表3.1.1的數(shù)據(jù),運用OLS估計結(jié)果如下:

其中,第一行是估計的回歸方程,第二行是對應(yīng)估計量的標(biāo)準(zhǔn)誤,第三行是對應(yīng)參數(shù)在原假設(shè)下的t值,最后一行是擬合優(yōu)度。(3.4.1)(3.4.2)

從估計的結(jié)果看,估計的斜率系數(shù)為0.6647,說明城鎮(zhèn)居民人均可支配收入每增加1元,人均消費支出平均增加0.6647元,即邊際消費傾向的估計值,這一結(jié)果不僅符合經(jīng)濟(jì)理論中關(guān)于對邊際消費傾向的假定,同時也說明,如果提高收入水平,能比較明顯的擴(kuò)大消費。估計的截距為725.3459,可以認(rèn)為是自主性消費支出,即當(dāng)收入為零的時候還存在的消費。但是,在計量經(jīng)濟(jì)學(xué)中,一般對截距不做解釋,因為解釋變量為0幾乎沒有經(jīng)濟(jì)學(xué)意義。以上對估計結(jié)果的分析表明,估計結(jié)果不僅與相關(guān)經(jīng)濟(jì)理論一致,也體現(xiàn)了比較明顯的現(xiàn)實經(jīng)濟(jì)意義。由(3.3.19)式和(3.3.20)式可知的t值為22.496,的t值為1.589,給定顯著性水平,查表得臨界值為

。由,拒絕原假設(shè),說明斜率在5%的顯著性水平下顯著不為0,這表明,可支配收入對消費有顯著影響。而,不能拒絕截距為零的原假設(shè)。等價地,p值分別為0.0000和0.1229分別小于和大于0.05,結(jié)論和t值檢驗一樣。擬合優(yōu)度為=0.946,說明模型整體上對樣本數(shù)據(jù)擬合較好,即解釋變量“城市居民人均年可支配收入”解釋了被解釋變量“城市居民人均年消費支出”的平均變化的94.6%。

我國居民消費主要取決于居民可支配收入。但我國個人收入在國民收入的初次分配(在初次分配中,國民收入被分解為三個基本的部分:國家收入、企業(yè)收入、個人收入)中的占比長期偏低。因此提高消費的關(guān)鍵在于收入分配的改革?;谶呺H消費傾向的估計值,就可以得到相關(guān)乘數(shù),由,投資乘數(shù)

,表示當(dāng)投資增加1個單位時,將導(dǎo)致總產(chǎn)出平均增加2.982個單位。以上的分析為制定收入分配改革的政策和制定投資規(guī)模提供了重要的信息。政策分析與評價預(yù)測模型應(yīng)用計量經(jīng)濟(jì)學(xué)模型的一個重要應(yīng)用是經(jīng)濟(jì)預(yù)測。如果給定樣本以外的解釋變量的觀測值

,可以得到被解釋變量的預(yù)測值

,可以此作為其條件均值

或個別值Y的一個點預(yù)測(點估計)。正如回歸系數(shù)有區(qū)間估計一樣,被解釋變量的預(yù)測也有區(qū)間預(yù)測(區(qū)間估計)。(1)

是條件均值

和個別值

的點預(yù)測。(2)Y的條件均值與個別值的區(qū)間預(yù)測①Y的條件均值預(yù)測的置信區(qū)間②Y的個別值預(yù)測的置信區(qū)間

圖3.4.1

Y的均值與個值的置信區(qū)間(預(yù)測區(qū)間)預(yù)測在上述可支配收入-消費支出例子中,我們對人均可支配收入處的人均年消費支出做出預(yù)測它可作為Y的條件均值或個別值在

處的點預(yù)測值。Y的條件均值95%的區(qū)間預(yù)測是即Y的個值95%的區(qū)間預(yù)測是即

§3.5對最小二乘估計量統(tǒng)計性質(zhì)的直觀認(rèn)識——蒙特卡洛模擬由前述,在一元線性回歸模型中,滿足經(jīng)典假設(shè)的最小二乘估計量,具有無偏性,最小方差性,隨機(jī)誤差項服從正態(tài)分布的假定下,估計量也服從正態(tài)分布。本節(jié)我們設(shè)計一個簡單的蒙特卡洛仿真實驗,以驗證OLS估計量的統(tǒng)計性質(zhì)。具體步驟圖3.5.2100次觀測的頻率分布直方圖圖3.5.1100次觀測的頻率分布直方圖第一步第二步第三步第四步第五步直方圖折線圖設(shè)定一個“真實”的總體回歸模型:

其中

服從標(biāo)準(zhǔn)正態(tài)分布,樣本容量N=20,其中Xi分別取值如下:16、13、90、88、10、11、97、86、19、11、15、95、12、87、11、88、94、99、15、96。(3.5.1)

從標(biāo)準(zhǔn)正態(tài)分布中隨機(jī)抽取值,將X的值代入模型(3.5.1)并生成數(shù)據(jù)集。設(shè)定樣本回歸模型

以生成的數(shù)據(jù)集為被解釋變量的樣本值,對Xi做OLS回歸,獲得和的估計值和。和為滿足線性無偏的非OLS估計量,其中為滿足下述(3.5.2)條件的任意隨機(jī)數(shù),在本例中,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論