第六章-第七章:一元線性回歸模型ppt課件_第1頁
第六章-第七章:一元線性回歸模型ppt課件_第2頁
第六章-第七章:一元線性回歸模型ppt課件_第3頁
第六章-第七章:一元線性回歸模型ppt課件_第4頁
第六章-第七章:一元線性回歸模型ppt課件_第5頁
已閱讀5頁,還剩106頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第六章第六章- -第七章第七章 一元線性回歸模型雙變量模型)一元線性回歸模型雙變量模型) 回歸分析概述回歸分析概述 一元線性回歸模型的參數(shù)估計(jì)一元線性回歸模型的參數(shù)估計(jì) 一元線性回歸模型檢驗(yàn)一元線性回歸模型檢驗(yàn) 一元線性回歸模型預(yù)測一元線性回歸模型預(yù)測 實(shí)例實(shí)例2.1 2.1 回歸分析概述回歸分析概述一、變量間的關(guān)系及回歸分析的基本概念一、變量間的關(guān)系及回歸分析的基本概念二、總體回歸函數(shù)二、總體回歸函數(shù)PRFPRF)三、隨機(jī)擾動項(xiàng)三、隨機(jī)擾動項(xiàng)四、樣本回歸函數(shù)四、樣本回歸函數(shù)SRF)SRF)一、變量間的關(guān)系及回歸分析的基本概念一、變量間的關(guān)系及回歸分析的基本概念1. 變量間的關(guān)系變量間的關(guān)系(

2、1確定性關(guān)系或函數(shù)關(guān)系:研究的是確定現(xiàn)象非確定性關(guān)系或函數(shù)關(guān)系:研究的是確定現(xiàn)象非隨機(jī)變量間的關(guān)系。隨機(jī)變量間的關(guān)系。施肥量陽光降雨量氣溫農(nóng)作物產(chǎn)量,f(2統(tǒng)計(jì)依賴或相關(guān)關(guān)系:研究的是非確定現(xiàn)統(tǒng)計(jì)依賴或相關(guān)關(guān)系:研究的是非確定現(xiàn)象隨機(jī)變量間的關(guān)系。象隨機(jī)變量間的關(guān)系。2,半徑半徑圓面積f注:給定一個半徑,有唯一的一個圓面積與之對應(yīng);但給定一個施肥量,與之對應(yīng)的農(nóng)作物產(chǎn)量并不能確定,即不會取唯一值。 函數(shù)關(guān)系:變量之間依一定的函數(shù)形式形成的一一對應(yīng)關(guān)系稱為函數(shù)關(guān)系。若兩個變量分別記作y和x,則當(dāng)y 與x之間存在函數(shù)關(guān)系時,x值一旦被指定,y值就是唯一確定的。函數(shù)關(guān)系可以用公式確切的反映出來,一般

3、記為y=f(x)。 例如,某種商品的銷售額y與銷售量x之間的關(guān)系,在銷售價格p一定的條件下,只要給定一個商品銷售量,就有一個唯一確定的商品銷售額與之對應(yīng),用公式表示為y=px。 統(tǒng)計(jì)關(guān)系:兩個變量之間存在某種依存關(guān)系,但變量Y并不是由變量X唯一確定的,它們之間沒有嚴(yán)格的一一對應(yīng)關(guān)系。兩個變量之間的這種關(guān)系就是統(tǒng)計(jì)關(guān)系,也稱為相關(guān)關(guān)系。 例如:同樣收入的家庭,用于食品的消費(fèi)支出往往并不相同。因?yàn)閷彝ナ称焚M(fèi)用的影響,不僅有家庭收入的多少,還有家庭人口,生活習(xí)慣等因素,所以,家庭食品費(fèi)用支出與家庭收入之間不是函數(shù)關(guān)系,而是相關(guān)關(guān)系。 對變量間統(tǒng)計(jì)關(guān)系的考察主要是通過相關(guān)分對變量間統(tǒng)計(jì)關(guān)系的考察主要

4、是通過相關(guān)分析析(correlation analysis)和回歸分析和回歸分析(regression analysis)來完成的。來完成的。 相關(guān)分析主要研究隨機(jī)變量間的相關(guān)形式及相關(guān)分析主要研究隨機(jī)變量間的相關(guān)形式及相關(guān)程度。相關(guān)程度。 變量間相關(guān)的形式有線性相關(guān)與非線性相關(guān)變量間相關(guān)的形式有線性相關(guān)與非線性相關(guān)之分;變量之分;變量 間相關(guān)程度的大小可以通過相關(guān)系數(shù)來測量。間相關(guān)程度的大小可以通過相關(guān)系數(shù)來測量。 具有相關(guān)關(guān)系的變量間有時存在著因果關(guān)系,具有相關(guān)關(guān)系的變量間有時存在著因果關(guān)系,這時可以這時可以 通過回歸分析來研究它們間的具體依存關(guān)系。通過回歸分析來研究它們間的具體依存關(guān)系。

5、 注:變量間有因果關(guān)系,可以用回歸分析來注:變量間有因果關(guān)系,可以用回歸分析來研究;但回歸分析研究一個變量對另一個研究;但回歸分析研究一個變量對另一個些變量的具體依賴關(guān)系時,它們并不意些變量的具體依賴關(guān)系時,它們并不意味著一定有因果關(guān)系,有無因果關(guān)系,一定味著一定有因果關(guān)系,有無因果關(guān)系,一定要根據(jù)具體的經(jīng)濟(jì)理論來判斷比如凱恩斯要根據(jù)具體的經(jīng)濟(jì)理論來判斷比如凱恩斯的消費(fèi)理論)。的消費(fèi)理論)。變量間的關(guān)系非確定性關(guān)系(統(tǒng)計(jì)依賴關(guān)系或相關(guān)關(guān)系)確定性關(guān)系(函數(shù)關(guān)系)回歸分析(變量間存在具體依存關(guān)系時采用該法)相關(guān)分析(變量間地位對稱時采用該法)相關(guān)程度(用相關(guān)系數(shù)來測量)相關(guān)形式非線性相關(guān)線性相關(guān)

6、 注意注意 不線性相關(guān)并不意味著不相關(guān)。不線性相關(guān)并不意味著不相關(guān)。 有相關(guān)關(guān)系并不意味著一定有因果關(guān)系。有相關(guān)關(guān)系并不意味著一定有因果關(guān)系。 回歸分析研究一個變量對另一個些變量回歸分析研究一個變量對另一個些變量的具體依賴關(guān)系,但它們并不意味著一定有因的具體依賴關(guān)系,但它們并不意味著一定有因果關(guān)系。果關(guān)系。 相關(guān)分析對稱地對待任何兩個變量,兩相關(guān)分析對稱地對待任何兩個變量,兩個變量都被看作是隨機(jī)的。個變量都被看作是隨機(jī)的。 回歸分析對變量的處理方法存在不對稱性,回歸分析對變量的處理方法存在不對稱性,即區(qū)分應(yīng)變量被解釋變量和自變量解釋即區(qū)分應(yīng)變量被解釋變量和自變量解釋變量):前者是隨機(jī)變量,后者

7、不是。變量):前者是隨機(jī)變量,后者不是。(gm01,3.11)2. 回歸分析的基本概念回歸分析的基本概念回歸分析回歸分析(regression analysis)是研究一個變量關(guān)是研究一個變量關(guān)于另一個些變量的具體依賴關(guān)系的計(jì)算于另一個些變量的具體依賴關(guān)系的計(jì)算方法和理論。方法和理論。其目的在于通過后者的已知或設(shè)定值,去估計(jì)其目的在于通過后者的已知或設(shè)定值,去估計(jì)和或預(yù)測前者的總體均值。和或預(yù)測前者的總體均值。被解釋變量被解釋變量Explained Variable或應(yīng)變量或應(yīng)變量Dependent Variable)。)。解釋變量解釋變量Explanatory Variable或自變量或自變

8、量Independent Variable)。)。 回歸分析構(gòu)成計(jì)量經(jīng)濟(jì)學(xué)的方法論基礎(chǔ),其回歸分析構(gòu)成計(jì)量經(jīng)濟(jì)學(xué)的方法論基礎(chǔ),其主要內(nèi)容包括:主要內(nèi)容包括: (1根據(jù)樣本觀察值對經(jīng)濟(jì)計(jì)量模型參數(shù)進(jìn)根據(jù)樣本觀察值對經(jīng)濟(jì)計(jì)量模型參數(shù)進(jìn)行估計(jì),求得回歸方程;行估計(jì),求得回歸方程; (2對回歸方程、參數(shù)估計(jì)值進(jìn)行顯著性檢對回歸方程、參數(shù)估計(jì)值進(jìn)行顯著性檢驗(yàn);驗(yàn); (3利用回歸方程進(jìn)行分析、評價及預(yù)測。利用回歸方程進(jìn)行分析、評價及預(yù)測。二、總體回歸函數(shù)二、總體回歸函數(shù) 回歸分析關(guān)心的是根據(jù)解釋變量的已回歸分析關(guān)心的是根據(jù)解釋變量的已知或給定值,考察被解釋變量的總體知或給定值,考察被解釋變量的總體均值,即

9、當(dāng)解釋變量取某個確定值時,均值,即當(dāng)解釋變量取某個確定值時,與之統(tǒng)計(jì)相關(guān)的被解釋變量所有可能與之統(tǒng)計(jì)相關(guān)的被解釋變量所有可能出現(xiàn)的對應(yīng)值的平均值。出現(xiàn)的對應(yīng)值的平均值。 例例2.1:一個假想的社區(qū)有:一個假想的社區(qū)有100戶家庭組成,要戶家庭組成,要研究該社區(qū)每月家庭消費(fèi)支出研究該社區(qū)每月家庭消費(fèi)支出Y與每月家庭可與每月家庭可支配收入支配收入X的關(guān)系,即根據(jù)家庭的每月可支配的關(guān)系,即根據(jù)家庭的每月可支配收入,考察該社區(qū)家庭每月消費(fèi)支出的平均水收入,考察該社區(qū)家庭每月消費(fèi)支出的平均水平。平。 為達(dá)到此目的,將該為達(dá)到此目的,將該100戶家庭劃分為組內(nèi)收戶家庭劃分為組內(nèi)收入差不多的入差不多的10組

10、,以分析每一收入組的家庭消組,以分析每一收入組的家庭消費(fèi)支出。費(fèi)支出。表表 2.1.1 某某社社區(qū)區(qū)家家庭庭每每月月收收入入與與消消費(fèi)費(fèi)支支出出統(tǒng)統(tǒng)計(jì)計(jì)表表 每月家庭可支配收入X(元) 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 561 638 869 1023 1254 1408 1650 1969 2090 2299 594 748 913 1100 1309 1452 1738 1991 2134 2321 627 814 924 1144 1364 1551 1749 2046 2178 2530 638 847 979 1155

11、1397 1595 1804 2068 2266 2629 935 1012 1210 1408 1650 1848 2101 2354 2860 968 1045 1243 1474 1672 1881 2189 2486 2871 1078 1254 1496 1683 1925 2233 2552 1122 1298 1496 1716 1969 2244 2585 1155 1331 1562 1749 2013 2299 2640 1188 1364 1573 1771 2035 2310 1210 1408 1606 1804 2101 1430 1650 1870 2112 14

12、85 1716 1947 2200 每 月 家 庭 消 費(fèi) 支 出 Y (元) 2002 共計(jì) 2420 4950 11495 16445 19305 23870 25025 21450 21285 15510 由于不確定因素的影響,對同一收入水平X,不同家庭的消費(fèi)支出不完全相同; 但由于調(diào)查的完備性,給定收入水平X的消費(fèi)支出Y的分布是確定的,即以X的給定值為條件的Y的條件分布Conditional distribution是已知的,例如:P(Y=561|X=800)=1/4。 因而,給定收入X的值Xi,可得消費(fèi)支出Y的條件均值conditional mean或條件期望conditional

13、expectation):E(Y|X=Xi)。 該例中:E(Y | X=800)=605 描出散點(diǎn)圖發(fā)現(xiàn):隨著收入的增加,消費(fèi)“平均地說也在增加,且Y的條件均值均落在一根正斜率的直線上。這條直線稱為總體回歸線。05001000150020002500300035005001000150020002500300035004000每月可支配收入X元)每月消費(fèi)支出Y(元)*iiXXYE21)(XYiXq雖然Y的所有條件期望都落在一條直線上,但是相同的X卻對應(yīng)著不同的Y。q總體回歸函數(shù)的確定形式不能完全體現(xiàn)因變量的個別值與解釋變量的固定值之間的統(tǒng)計(jì)依賴關(guān)系。* 在給定解釋變量Xi條件下被解釋變量Yi的

14、期望軌跡稱為總體回歸線population regression line),或更一般地稱為總體回歸曲線population regression curve)。)()|(iiXfXYE稱為雙變量總體回歸函數(shù)population regression function, PRF)。 相應(yīng)的函數(shù): 含義:回歸函數(shù)含義:回歸函數(shù)PRF說明被解釋變量說明被解釋變量Y的的平均狀態(tài)總體條件期望隨解釋變量平均狀態(tài)總體條件期望隨解釋變量X變化變化的規(guī)律。的規(guī)律。 函數(shù)形式:可以是線性或非線性的。函數(shù)形式:可以是線性或非線性的。 例2.1中,將居民消費(fèi)支出看成是其可支配收入的線性函數(shù)時: iiXXYE10)|

15、(為一線性函數(shù)。其中,0,1是未知參數(shù),稱為回歸系數(shù)regression coefficients)。三、隨機(jī)擾動項(xiàng)三、隨機(jī)擾動項(xiàng) 總體回歸函數(shù)說明在給定的收入水平Xi下,該社區(qū)家庭平均的消費(fèi)支出水平。 但對某一個別的家庭,其消費(fèi)支出可能與該平均水平有偏差。 稱為觀察值每個家庭的消費(fèi)支出圍繞它的期望值的離差deviation),是一個不可觀測的隨機(jī)變量,又稱為隨機(jī)干擾項(xiàng)stochastic disturbance或隨機(jī)誤差項(xiàng)stochastic error)。)|(iiiXYEY 例2.1中,給定收入水平Xi (如800元),個別家庭如消費(fèi)支出為638元的家庭的支出可表示為兩部分之和:(1該收

16、入水平下所有家庭此處為4個家庭的平均消費(fèi)支出E(Y|Xi)(如2420/4=605),稱為系統(tǒng)性systematic或確定性deterministic)部分;(2其他隨機(jī)或非確定性nonsystematic)部分i 。(此處為33元)。即638元個別家庭消費(fèi)支出)=605元平均消費(fèi)支出)+33元偏離平均數(shù)的誤差值) 稱為總體回歸函數(shù)PRF的隨機(jī)設(shè)定形式。表明被解釋變量除了受解釋變量的系統(tǒng)性影響外,還受其他因素的隨機(jī)性影響。由于方程中引入了隨機(jī)項(xiàng),成為計(jì)量經(jīng)濟(jì)學(xué)模型,因此也稱為總體回歸模型。在總體回歸函數(shù)中引入隨機(jī)干擾項(xiàng),主要有以下幾個方面的原因:(1代表未知的影響因素。(2代表殘缺數(shù)據(jù)。即使所

17、有的影響變量都被包含在模型中,也會有某些變量的數(shù)據(jù)無法取得。比如,經(jīng)濟(jì)理論中,居民消費(fèi)支出除受可支配收入影響外,還受財(cái)富擁有量的影響,但后者在實(shí)踐中往往是無法收集到的。這時模型中不得不省略掉這一變量,而將其納入隨機(jī)干擾項(xiàng)中。(3代表眾多細(xì)小影響因素。(4代表數(shù)據(jù)觀測誤差。由于某些主客觀的原因,在取得觀察數(shù)據(jù)時,往往存在測量誤差,這些觀測誤差也被納入隨機(jī)干擾項(xiàng)。(5代表模型設(shè)定誤差。模型的真實(shí)函數(shù)形式往往是未知的。實(shí)際設(shè)定的模型可能與真實(shí)的模型有誤差。(6變量的內(nèi)在隨機(jī)性。由于某些變量所固有的內(nèi)在隨機(jī)性,也會對被解釋變量產(chǎn)生隨機(jī)性影響。四、樣本回歸函數(shù)四、樣本回歸函數(shù)SRFSRF) 問題:能從一

18、次抽樣中獲得總體的近似的信息問題:能從一次抽樣中獲得總體的近似的信息嗎?如果可以,如何從抽樣中獲得總體的近似嗎?如果可以,如何從抽樣中獲得總體的近似信息?信息? 例例2.2:在例:在例2.1的總體中有如下一個樣本,能的總體中有如下一個樣本,能否從該樣本估計(jì)總體回歸函數(shù)否從該樣本估計(jì)總體回歸函數(shù)PRF? 回答:能回答:能表表2.1.3 家庭消費(fèi)支出與可支配收入的一個隨機(jī)樣本家庭消費(fèi)支出與可支配收入的一個隨機(jī)樣本 X 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 Y 594 638 1122 1155 1408 1595 1969 2078 25

19、85 2530 該樣本的散點(diǎn)圖scatter diagram): 畫一條直線以盡好地?cái)M合該散點(diǎn)圖,由于樣本取自總體,可以該直線近似地代表總體回歸線。該直線稱為樣本回歸線sample regression lines)。 記樣本回歸線的函數(shù)形式為:iiiXXfY10)(稱為樣本回歸函數(shù)sample regression function,SRF)。 注意:這里將樣本回歸線看成總體回歸線的近似注意:這里將樣本回歸線看成總體回歸線的近似替代替代那么iiXXYE10)|( 樣本回歸函數(shù)的隨機(jī)形式,即樣本回歸模型:樣本回歸函數(shù)的隨機(jī)形式,即樣本回歸模型:同樣地,樣本回歸函數(shù)也有如下的隨機(jī)形式: 式中,i

20、e稱為(樣樣本本)殘殘差差(或剩剩余余)項(xiàng)項(xiàng)(residual) ,代表了其他影響iY的隨機(jī)因素的集合,可看成是i的估計(jì)量i。 由于方程中引入了隨機(jī)項(xiàng),成為計(jì)量經(jīng)濟(jì)模型,因此也稱為樣本回歸模型sample regression model)。 iiiiieXYY10 回歸分析的主要目的:根據(jù)樣本回歸函數(shù)SRF,估計(jì)總體回歸函數(shù)PRF。即,根據(jù) iiiiieXeYY10估計(jì)iiiiiXXYEY10)|(注意:這里注意:這里PRF可可能永遠(yuǎn)無法知道。能永遠(yuǎn)無法知道。小結(jié):1.總體回歸函數(shù)2.樣本回歸函數(shù)3.總體回歸模型 4.樣本回歸模型iiXXYE10)|(iiieXY10iiiXY102.2 2

21、.2 一元線性回歸模型的參數(shù)估計(jì)一元線性回歸模型的參數(shù)估計(jì) 一、一元線性回歸模型的基本假設(shè)一、一元線性回歸模型的基本假設(shè)二、參數(shù)的普通最小二乘估計(jì)二、參數(shù)的普通最小二乘估計(jì)OLS)OLS)三三* *、參數(shù)估計(jì)的最大或然法、參數(shù)估計(jì)的最大或然法(ML) (ML) 四、最小二乘估計(jì)量的性質(zhì)四、最小二乘估計(jì)量的性質(zhì)五、參數(shù)估計(jì)量的概率分布及隨機(jī)干五、參數(shù)估計(jì)量的概率分布及隨機(jī)干 擾項(xiàng)方差的估計(jì)擾項(xiàng)方差的估計(jì) 說說 明明 單方程計(jì)量經(jīng)濟(jì)學(xué)模型分為兩大類:線性模型和非線性模型 線性模型中,變量之間的關(guān)系呈線性關(guān)系 非線性模型中,變量之間的關(guān)系呈非線性關(guān)系 一元線性回歸模型:只有一個解釋變量iiiXY10

22、i=1,2,nY為被解釋變量,X為解釋變量,0與1為待估參數(shù), 為隨機(jī)干擾項(xiàng) 回歸分析的主要目的是要通過樣本回歸函數(shù)回歸分析的主要目的是要通過樣本回歸函數(shù)模型模型SRF盡可能準(zhǔn)確地估計(jì)總體回歸函數(shù)盡可能準(zhǔn)確地估計(jì)總體回歸函數(shù)模型模型PRF。 估計(jì)方法有多種,其中最廣泛使用的是普通最估計(jì)方法有多種,其中最廣泛使用的是普通最小二乘法小二乘法ordinary least squares, OLS)。)。 為保證參數(shù)估計(jì)量具有良好的性質(zhì),通常對模為保證參數(shù)估計(jì)量具有良好的性質(zhì),通常對模型提出若干基本假設(shè)。型提出若干基本假設(shè)。 實(shí)際這些假設(shè)與所采用的估計(jì)方法緊密相關(guān)。實(shí)際這些假設(shè)與所采用的估計(jì)方法緊密相

23、關(guān)。 一、線性回歸模型的基本假設(shè)一、線性回歸模型的基本假設(shè) 假設(shè)1. 解釋變量X是確定性變量,不是隨機(jī)變量。如 假設(shè)2. 隨機(jī)誤差項(xiàng)具有零均值、同方差和不序列相關(guān)性: E(i)=0 i=1,2, ,n V a r (i ) =2 i=1,2, ,n Cov(i, j)=0 ij i,j= 1,2, ,n 施肥量陽光降雨量氣溫農(nóng)作物產(chǎn)量,f 同方差:隨機(jī)干擾項(xiàng)的條件方差恒定X1:假設(shè)經(jīng)濟(jì)學(xué)0801全班30名同學(xué)個人可支配收入都是每月600元/人;Y:現(xiàn)實(shí)中消費(fèi)支出水平有30個不同的值,并用一個方差度量這30個取值的離散程度。X2:假設(shè)全班30名同學(xué)個人可支配收入增加到每月800元/人;Y:現(xiàn)實(shí)中

24、消費(fèi)支出水平有30個不同的值,并用一個方差度量這30個取值的離散程度按照同方差假設(shè),以上兩個方差的值是一樣的。YX2X3XiiuXY211X 同方差:隨機(jī)干擾項(xiàng)的條件方差恒定 異方差:隨機(jī)干擾項(xiàng)的條件方差不一樣X1:假設(shè)全班30名同學(xué)個人可支配收入都是每月600元/人;Y:現(xiàn)實(shí)中消費(fèi)支出水平有30個不同的值,并用一個方差度量這30個取值的離散程度X2:假設(shè)全班30名同學(xué)個人可支配收入增加到每月800元/人;Y:現(xiàn)實(shí)中消費(fèi)支出水平有30個不同的值,并用一個方差度量這30個取值的離散程度按照異方差假設(shè),以上兩個方差的值是不一樣的。異方差YX2X3XiiuXY211X2)(iiiXuVar任意兩個誤

25、差項(xiàng)即隨機(jī)擾動項(xiàng)不相關(guān)假設(shè)(不序列相關(guān)) X1:假設(shè)全班30名同學(xué)個人可支配收入都是每月600元/人; Y:現(xiàn)實(shí)中消費(fèi)支出水平有30個不同的值。 那么30個不同的消費(fèi)支出數(shù)額可求出一個平均數(shù)。每一個人的實(shí)際消費(fèi)支出額與這個平均數(shù)的差額就是誤差項(xiàng)的取值。那么每個人都有一個誤差項(xiàng)的取值,任意兩個誤差項(xiàng)的取值應(yīng)當(dāng)是不相關(guān)的。 (預(yù)測股票的走勢就像預(yù)測一只鳥下一步要飛到哪根樹枝上一樣)度量兩個隨機(jī)變量的線性關(guān)系 表明隨機(jī)誤差項(xiàng)是個隨機(jī)變量。由于假定任何兩個誤差項(xiàng)是不相關(guān)的,所以任何兩個Y值也是不相關(guān)的。因?yàn)?,假定給定值和X值,Y隨著取值的變化而變化。附注:相關(guān)系數(shù)附注:相關(guān)系數(shù)cov(,)0ijij

26、ij iiiXY10假設(shè)3. 隨機(jī)誤差項(xiàng)與解釋變量X之間不相關(guān): Cov( Xi , i)=0 i=1,2, ,n 如果X是非隨機(jī)機(jī)的即為固定值),則該假設(shè)自動滿足。因?yàn)橐粋€固定值與一個隨機(jī)變量之間當(dāng)然不相關(guān)。 假設(shè)4. 服從正態(tài)分布 iN(0, 2 ) i=1,2, ,n 推導(dǎo):誤差項(xiàng)代表了沒有納入回歸模型的其他所有影響因素。因?yàn)檫@些影響因素中,每種因素對Y的影響都很微弱。如果所有這些影響因素都是隨機(jī)的,并用代表所有這些影響因素之和,那么根據(jù)中心極限定理,可以假設(shè)誤差項(xiàng)服從正態(tài)分布 以上假設(shè)也稱為線性回歸模型的經(jīng)典假設(shè)或高斯Gauss假設(shè),滿足該假設(shè)的線性回歸模型,也稱為經(jīng)典線性回歸模型Cl

27、assical Linear Regression Model, CLRM)。 附注:中心極限定理 一般來說,如果一個隨機(jī)變量是由大量的相互獨(dú)立的隨機(jī)因素的影響所造成,而每個因素的作用又是很微小的,那么這個隨機(jī)變量趨于正態(tài)分布。 另外,在進(jìn)行模型回歸時,還有兩個暗含的假設(shè): 假設(shè)5暫時不學(xué)習(xí)). 隨著樣本容量的無限增加,解釋變量X的樣本方差趨于一有限常數(shù)。即nQnXXi,/)(2 假設(shè)6. 回歸模型是正確設(shè)定的 假設(shè)5旨在排除時間序列數(shù)據(jù)出現(xiàn)持續(xù)上升或下降的變量作為解釋變量,因?yàn)檫@類數(shù)據(jù)不僅使大樣本統(tǒng)計(jì)推斷變得無效,而且往往產(chǎn)生所謂的偽回歸問題spurious regression probl

28、em)。(暫時不學(xué)習(xí)) 假設(shè)6也被稱為模型沒有設(shè)定偏誤specification error)二、參數(shù)的普通最小二乘估計(jì)二、參數(shù)的普通最小二乘估計(jì)OLSOLS) 給定一組樣本觀測值Xi, Yi)(i=1,2,n要求樣本回歸函數(shù)盡可能好地?cái)M合這組值. 普通最小二乘法Ordinary least squares, OLS給出的判斷標(biāo)準(zhǔn)是:二者之差的平方和niiiniXYYYQ121021)()(最小。表表2.1.3 家庭消費(fèi)支出與可支配收入的一個隨機(jī)樣本家庭消費(fèi)支出與可支配收入的一個隨機(jī)樣本 X 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 Y

29、594 638 1122 1155 1408 1595 1969 2078 2585 2530 0100QQ根據(jù)微積分學(xué)的運(yùn)算,當(dāng)Q對的估計(jì)量的一階偏導(dǎo)數(shù)為0時,Q達(dá)到最小。方程組(*)稱為正規(guī)方程組normal equations)。 記22221)(iiiiXnXXXx iiiiiiiiYXnYXYYXXyx1)(上述參數(shù)估計(jì)量可以寫成: XYxyxiii1021 稱為OLS估計(jì)量的離差形式deviation form)。 由于參數(shù)的估計(jì)結(jié)果是通過最小二乘法得到 的,故稱為普通最小二乘估計(jì)量ordinary least squares estimators)。 順便指出 ,記YYyii 則

30、有 iniiieXXeXXy111010)()()(可得 iixy1(*)式也稱為樣本回歸函數(shù)的離差形式。(*)注意:注意: 在計(jì)量經(jīng)濟(jì)學(xué)中,往往以小寫字母表示對均在計(jì)量經(jīng)濟(jì)學(xué)中,往往以小寫字母表示對均值的離差。值的離差。 四、最小二乘估計(jì)量的性質(zhì)四、最小二乘估計(jì)量的性質(zhì) 當(dāng)模型參數(shù)估計(jì)出后,需考慮參數(shù)估計(jì)值的精度,即是否能代表總體參數(shù)的真值,或者說需考察參數(shù)估計(jì)量的統(tǒng)計(jì)性質(zhì)。 一個用于考察總體的估計(jì)量,可從如下幾個方面考察其優(yōu)劣性: (1線性性,即它是否是另一隨機(jī)變量的線性函數(shù);(2無偏性,即它的均值或期望值是否等于總體的真實(shí)無偏性,即它的均值或期望值是否等于總體的真實(shí)值;值;(3有效性,即

31、它是否在所有線性無偏估計(jì)量中具有最有效性,即它是否在所有線性無偏估計(jì)量中具有最小方差。小方差。 這三個準(zhǔn)則也稱作估計(jì)量的小樣本性質(zhì)。因?yàn)橐坏┠彻肋@三個準(zhǔn)則也稱作估計(jì)量的小樣本性質(zhì)。因?yàn)橐坏┠彻烙?jì)量具有該類性質(zhì),它是不以樣本的大小而改變的。計(jì)量具有該類性質(zhì),它是不以樣本的大小而改變的。 擁有這類性質(zhì)的估計(jì)量稱為最佳線性無偏估計(jì)量擁有這類性質(zhì)的估計(jì)量稱為最佳線性無偏估計(jì)量best liner unbiased estimator, BLUE)。)。 (4漸近無偏性,即樣本容量趨于無窮大時,漸近無偏性,即樣本容量趨于無窮大時,是否估計(jì)量的均值序列趨于總體真值;是否估計(jì)量的均值序列趨于總體真值;(5一

32、致性,即樣本容量趨于無窮大時,它是一致性,即樣本容量趨于無窮大時,它是否依概率收斂于總體的真值即隨著樣本容量的否依概率收斂于總體的真值即隨著樣本容量的增加,估計(jì)量接近參數(shù)的真實(shí)值);增加,估計(jì)量接近參數(shù)的真實(shí)值);(6漸近有效性,即樣本容量趨于無窮大時,漸近有效性,即樣本容量趨于無窮大時,是否它在所有的一致估計(jì)量中具有最小的漸近方是否它在所有的一致估計(jì)量中具有最小的漸近方差。差。 當(dāng)不滿足小樣本性質(zhì)時,需進(jìn)一步考察估計(jì)量的大樣本或漸近性質(zhì):高斯高斯馬爾可夫定理馬爾可夫定理(Gauss-Markov theorem) 在給定經(jīng)典線性回歸的假定下,在給定經(jīng)典線性回歸的假定下,最小二乘估計(jì)量是具有最

33、小方差的線最小二乘估計(jì)量是具有最小方差的線性無偏估計(jì)量。性無偏估計(jì)量。2 2、無無偏偏性性,即估計(jì)量0、1的均值(期望)等于總體回歸參數(shù)真值0與1 理解:根據(jù)從總體中抽取的另外一個隨機(jī)樣本也可以通過普通最小二乘法計(jì)算出兩個參數(shù)估計(jì)值。進(jìn)一步地,其它的樣本同樣會計(jì)算出參數(shù)估計(jì)值。表表2.1.3 家庭消費(fèi)支出與可支配收入的另外一個隨機(jī)樣本家庭消費(fèi)支出與可支配收入的另外一個隨機(jī)樣本 X 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 Y 561 748 1012 1210 1364 1672 1881 2189 2486 2629 3 3、有有效效性

34、性(最最小小方方差差性性) ,即在所有線性無偏估計(jì)量中,最小二乘估計(jì)量0、1具有最小方差。 理解:在前面由100戶家庭組成的總體中,若抽取10個樣本出來。那么每一個樣本可以通過普通最小二乘法進(jìn)行參數(shù)估計(jì)。截距項(xiàng)就有10個不同的估計(jì)值,同理,解釋變量前面的系數(shù)也有10個不同的估計(jì)值。如果用其它的方法非普通最小二乘估計(jì)法來進(jìn)行參數(shù)估計(jì),同樣也會得到截距項(xiàng)的10個不同的估計(jì)值,以及解釋變量前面的系數(shù)的10個不同的估計(jì)值。比較以下數(shù)據(jù)的大?。河肙LS法求出的10個截距值的方差 用非OLS法求出的10個截距值的方差 結(jié)果: 用OLS法求出的10個截距值的方差最小 普通最小二乘估計(jì)量普通最小二乘估計(jì)量or

35、dinary least ordinary least Squares EstimatorsSquares Estimators稱為最佳線性無偏估計(jì)稱為最佳線性無偏估計(jì)量量best linear unbiased estimator, BLUEbest linear unbiased estimator, BLUE) 比較以下數(shù)據(jù)的大?。?用OLS法求出的解釋變量前系數(shù)的10個估計(jì)值的方差 用非OLS法求出的解釋變量前系數(shù)的10個估計(jì)值的方差結(jié)果:用OLS法估計(jì)的解釋變量前系數(shù)的10個估計(jì)值的方差最小埋伏筆:參數(shù)估計(jì)量在此有10個具體的估計(jì)值,因此參數(shù)估計(jì)量本身就是一個隨機(jī)變量,進(jìn)而有必要探討

36、參數(shù)估計(jì)量的概率分布,而概率分布的數(shù)字特征主要有兩個,一個是期望,一個是方差。 由于最小二乘估計(jì)量擁有一個“好的估計(jì)量所應(yīng)具備的小樣本特性,它自然也擁有大樣本特性。 五、參數(shù)估計(jì)量的概率分布及隨機(jī)干擾五、參數(shù)估計(jì)量的概率分布及隨機(jī)干擾項(xiàng)方差的估計(jì)項(xiàng)方差的估計(jì) (教材(教材P125P125)1、參參數(shù)數(shù)估估計(jì)計(jì)量量0和和1的的概概率率分分布布 ),(2211ixN),(22200iixnXN附注: 由于服從正態(tài)分布, iN0 ,2),而Y是的線性組合,即 因而,Y也服從正態(tài)分布 YiN0 +1Xi ,2) 又因?yàn)?, 是Yi的線性組合,所以 , 也服從正態(tài)分布。0iiiXY1010122/1ix

37、2220iixnX 2. 隨機(jī)誤差項(xiàng)隨機(jī)誤差項(xiàng)的方差的方差2的估計(jì)的估計(jì)2又稱為總體方差。 由于隨機(jī)項(xiàng)i不可觀測,只能從i的估計(jì)殘差ei出發(fā),對總體方差進(jìn)行估計(jì)。 可以證明, 2的最小二乘估計(jì)量為222nei它是關(guān)于2的無偏估計(jì)量。 2.3 2.3 一元線性回歸模型的統(tǒng)計(jì)檢驗(yàn)一元線性回歸模型的統(tǒng)計(jì)檢驗(yàn) 一、擬合優(yōu)度檢驗(yàn)一、擬合優(yōu)度檢驗(yàn) 二、變量的顯著性檢驗(yàn)二、變量的顯著性檢驗(yàn) 三、參數(shù)的置信區(qū)間三、參數(shù)的置信區(qū)間說說 明明 回歸分析是要通過樣本所估計(jì)的參數(shù)來代替總體的真實(shí)參數(shù),或者說是用樣本回歸線代替總體回歸線。 盡管從統(tǒng)計(jì)性質(zhì)上已知,如果有足夠多的重復(fù) 抽樣,參數(shù)的估計(jì)值的期望均值就等于其總

38、體的參數(shù)真值,但在一次抽樣中,估計(jì)值不一定就等于該真值。 那么,在一次抽樣中,參數(shù)的估計(jì)值與真值的差異有多大,是否顯著,這就需要進(jìn)一步進(jìn)行統(tǒng)計(jì)檢驗(yàn)。 主要包括擬合優(yōu)度檢驗(yàn)、變量的顯著性檢驗(yàn)及參數(shù)的區(qū)間估計(jì)。 一、擬合優(yōu)度檢驗(yàn)一、擬合優(yōu)度檢驗(yàn) 問題:采用普通最小二乘估計(jì)方法,已問題:采用普通最小二乘估計(jì)方法,已經(jīng)保證了樣本回歸線最好地?cái)M合了樣本觀測經(jīng)保證了樣本回歸線最好地?cái)M合了樣本觀測點(diǎn),為什么還要檢驗(yàn)擬合程度?點(diǎn),為什么還要檢驗(yàn)擬合程度? 回答:在一個特定的條件下做得最好的并不一定就是高質(zhì)量的。 比如,假如你采用最好的學(xué)習(xí)方法學(xué)習(xí)計(jì)量經(jīng)濟(jì)學(xué)該方法冠名為“普通最小二乘學(xué)習(xí)法”,可以保證你取得最好

39、的考試成績。但是這個最好成績也有可能通過考核發(fā)現(xiàn)只有55分不及格),但已經(jīng)是你的最好成績了;也有可能是99分,但不管怎樣,要通過考核才知道這個對于你來說的最好成績到底是多少分。 總之,對于你來說的最好成績,不一定就是高分。 1 1、總離差平方和的分解、總離差平方和的分解 已知由一組樣本觀測值Xi,Yi),i=1,2,n得到如下樣本回歸直線 iiXY10iiiiiiiyeYYYYYYy)()(表表2.1.3 家庭消費(fèi)支出家庭消費(fèi)支出(Y)(Y)與可支配收入與可支配收入(X)(X)的一個隨機(jī)樣本的一個隨機(jī)樣本 X800 1100 1400 1700 2000 2300 2600 2900 3200

40、 3500 Y 594 638 1122 1155 1408 1595 1969 2078 2585 2530 Y 注:如果Yi=i 即實(shí)際觀測值落在樣本回歸“線上,則Y的第i個觀察值與樣本均值的離差,全部來自樣本回歸擬合值與樣本均值的離差,即完全可由樣本回歸線解釋,表明在該點(diǎn)處實(shí)現(xiàn)完全擬合擬合最好)。這時可認(rèn)為,“離差全部來自回歸線,而與“殘差無關(guān)。 對于所有的樣本點(diǎn)本例為10個樣本點(diǎn)),則需考慮這些點(diǎn)家庭消費(fèi)支出的10個數(shù)額與樣本均值即家庭消費(fèi)支出10個數(shù)額的均值離差的平方和,可以證明:TSS=ESS+RSS22)(YYyTSSii記22)(YYyESSii22)(iiiYYeRSS總體平

41、方和總體平方和Total Sum of Squares)回歸平方和回歸平方和Explained Explained Sum of SquaresSum of Squares)殘差平方和殘差平方和Residual Residual Sum of Squares Sum of Squares ) Y的觀測值圍繞其均值的總離差(total variation)可分解為兩部分:一部分來自回歸線(ESS),另一部分則來自隨機(jī)勢力(RSS)。 在給定樣本中,TSS不變, 如果實(shí)際觀測點(diǎn)離樣本回歸線越近,則ESS在TSS中占的比重越大。因而, 擬合優(yōu)度:回歸平方和ESS/Y的總離差TSSTSSRSSTSSE

42、SSR1記22、可決系數(shù)、可決系數(shù)R2統(tǒng)計(jì)量統(tǒng)計(jì)量 稱 R2 為樣本可決系數(shù)/判定系數(shù)coefficient of determination)。 可決系數(shù)的取值范圍:可決系數(shù)的取值范圍:0,1 R2越接近越接近1,說明實(shí)際觀測點(diǎn)離樣本線越近,說明實(shí)際觀測點(diǎn)離樣本線越近,擬合優(yōu)度越高。擬合優(yōu)度越高。在實(shí)際計(jì)算可決系數(shù)時,在1已經(jīng)估計(jì)出后: 22212iiyxR 在例2.1.1的收入消費(fèi)支出例中, 9766. 045900207425000)777. 0(222212iiyxR 注:可決系數(shù)是一個非負(fù)的統(tǒng)計(jì)量。它也是注:可決系數(shù)是一個非負(fù)的統(tǒng)計(jì)量。它也是隨著抽樣的不同而不同。為此,對可決系數(shù)的統(tǒng)

43、隨著抽樣的不同而不同。為此,對可決系數(shù)的統(tǒng)計(jì)可靠性也應(yīng)進(jìn)行檢驗(yàn),這將在第計(jì)可靠性也應(yīng)進(jìn)行檢驗(yàn),這將在第3 3章中進(jìn)行。章中進(jìn)行。 二、變量的顯著性檢驗(yàn)二、變量的顯著性檢驗(yàn) 回歸分析是要判斷解釋變量X是否是被解釋變量Y的一個顯著性的影響因素。 在一元線性模型中,就是要判斷X是否對Y具有顯著的線性性影響。這就需要進(jìn)行變量的顯著性檢驗(yàn)。 變量的顯著性檢驗(yàn)所應(yīng)用的方法是數(shù)理統(tǒng)計(jì)學(xué)中的假設(shè)檢驗(yàn)。 計(jì)量經(jīng)濟(jì)學(xué)中,主要是針對變量的參數(shù)真值是否為零來進(jìn)行顯著性檢驗(yàn)的。 1、假設(shè)檢驗(yàn)、假設(shè)檢驗(yàn) 所謂假設(shè)檢驗(yàn),就是事先對總體參數(shù)或總體分布形式作出一個假設(shè),然后利用樣本信息來判斷原假設(shè)是否合理,即判斷樣本信息與原假

44、設(shè)是否有顯著差異,從而決定是否接受或否定原假設(shè)。 假設(shè)檢驗(yàn)采用的邏輯推理方法是反證法假設(shè)檢驗(yàn)采用的邏輯推理方法是反證法 先假定原假設(shè)正確,然后根據(jù)樣本信息,先假定原假設(shè)正確,然后根據(jù)樣本信息,觀察由此假設(shè)而導(dǎo)致的結(jié)果是否合理,從而判觀察由此假設(shè)而導(dǎo)致的結(jié)果是否合理,從而判斷是否接受原假設(shè)。斷是否接受原假設(shè)。 判斷結(jié)果合理與否,是基于判斷結(jié)果合理與否,是基于“小概率事件不易小概率事件不易發(fā)生這一原理的發(fā)生這一原理的 2、變量的顯著性檢驗(yàn)、變量的顯著性檢驗(yàn) ),(2211ixN)2(1112211ntSxti 檢驗(yàn)步驟: (1對總體參數(shù)提出假設(shè) H0: 1=0, H1:10(2以原假設(shè)H0構(gòu)造t統(tǒng)

45、計(jì)量,并由樣本計(jì)算其值11St (3給定顯著性水平,查t分布表得臨界值t /2(n-2) (4) 比較,判斷 假設(shè) |t| t /2 (n-2),則拒絕H0 ,接受H1 ; 假設(shè) |t| t /2 (n-2),則拒絕H1 ,接受H0 ; 對于一元線性回歸方程中的0,可構(gòu)造如下t統(tǒng)計(jì)量進(jìn)行顯著性檢驗(yàn): )2(0022200ntSxnXtii順便指出 ,記YYyii 則有 iniiieXXeXXy111010)()()(可得 iixy1(*)式也稱為樣本回歸函數(shù)的離差形式。(*)注意:在計(jì)量經(jīng)濟(jì)學(xué)中,往往以小寫字母表示對注意:在計(jì)量經(jīng)濟(jì)學(xué)中,往往以小寫字母表示對均值的離差。均值的離差。 知識回顧:

46、在上述收入消費(fèi)支出例中,首先計(jì)算2的估計(jì)值 134022107425000777. 04590020222221222nxyneiii41.98742500010/53650000134022220iixnXSt統(tǒng)計(jì)量的計(jì)算結(jié)果分別為: 29.180425. 0777. 0111St048. 141.9817.103000St 給定顯著性水平=0.05,查t分布表得臨界值 t 0.05/2(8)=2.306 |t1|2.306,說明家庭可支配收入在95%的置信度下顯著,即是消費(fèi)支出的主要解釋變量; |t0|2.306,表明在95%的置信度下,無法拒絕截距項(xiàng)為零的假設(shè)。 EVIEWS演算過程:

47、表表2.1.3 家庭消費(fèi)支出家庭消費(fèi)支出(Y)(Y)與可支配收入與可支配收入(X)(X)的一個隨機(jī)樣本的一個隨機(jī)樣本 X800 1100 1400 1700 2000 2300 2600 2900 3200 3500 Y 594 638 1122 1155 1408 1595 1969 2078 2585 2530 假設(shè)檢驗(yàn)可以通過一次抽樣的結(jié)果檢驗(yàn)總體參數(shù)可能的假設(shè)值的范圍如是否為零),但它并沒有指出在一次抽樣中樣本參數(shù)值到底離總體參數(shù)的真值有多“近”。 三、參數(shù)的置信區(qū)間三、參數(shù)的置信區(qū)間 要判斷樣本參數(shù)的估計(jì)值在多大程度上可以“近似地替代總體參數(shù)的真值,往往需要通過構(gòu)造一個以樣本參數(shù)的估

48、計(jì)值為中心的“區(qū)間”,來考察它以多大的可能性概率包含著真實(shí)的參數(shù)值。這種方法就是參數(shù)檢驗(yàn)的置信區(qū)間估計(jì)。 1)(P 如果存在這樣一個區(qū)間,稱之為置信區(qū)間confidence interval); 1-稱為置信系數(shù)置信度)(confidence coefficient), 稱為顯著性水平level of significance);置信區(qū)間的端點(diǎn)稱為置信限confidence limit或臨界值critical values)。一元線性模型中,一元線性模型中,i (i=1,2的置信區(qū)間的置信區(qū)間:在變量的顯著性檢驗(yàn)中已經(jīng)知道: )2(ntstiii 意味著,如果給定置信度1-),從分布表中查得自由度為(n-2)的臨界值,那么t值處在(-t/2, t/2)的概率是(1- )。表示為: P ttt() 221即P tstiii() 221Ptstsiiiii()221于是得到:(1-)的置信度下, i的置信區(qū)間是 (,)iitstsii22在上述收入-消費(fèi)支出例中,如果給定 =0.01,查表得: 355. 3) 8

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論