一元線性回歸分析課件_第1頁
一元線性回歸分析課件_第2頁
一元線性回歸分析課件_第3頁
一元線性回歸分析課件_第4頁
一元線性回歸分析課件_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、2021-12-24一元線性回歸分析1第2章 一元線性回歸分析 2.1 :回歸分析及回歸模型 2.2 :一元線性模型的參數(shù)估計(jì) 2.3 :參數(shù)估計(jì)值的性質(zhì)及統(tǒng)計(jì)推斷 2.4 :一元線性模型的統(tǒng)計(jì)檢驗(yàn) 2.5 :一元線性模型的預(yù)測2021-12-24一元線性回歸分析22.1 :回歸分析及回歸模型一、變量間的關(guān)系及回歸分析的基本概念一、變量間的關(guān)系及回歸分析的基本概念二、總體回歸函數(shù)二、總體回歸函數(shù)三、隨機(jī)擾動項(xiàng)三、隨機(jī)擾動項(xiàng) 和總體回歸模型的基本假設(shè)和總體回歸模型的基本假設(shè)四、樣本回歸函數(shù)四、樣本回歸函數(shù)2021-12-24一元線性回歸分析3“回歸” 一詞的歷史淵源 “回歸”一詞最早由Franc

2、is Galton引入。 Galton發(fā)現(xiàn),雖然父母的身高對子女的身高起到?jīng)Q定性作用,但給定父母的身高后,他們兒女輩的平均身高卻趨向于或者“回歸”到社會平均水平。Galton的普遍回歸定律(law of universal regression)。 Galton的朋友Karl Pearson通過收集一些家庭的1000多名成員的父子身高數(shù)據(jù),證明兒子確實(shí)“回歸到中等(regression to mediocrity)”2021-12-24一元線性回歸分析42.1.12.1.1、變量間的關(guān)系、變量間的關(guān)系 確定性關(guān)系或函數(shù)關(guān)系:確定性關(guān)系或函數(shù)關(guān)系:研究的是確定現(xiàn)象非研究的是確定現(xiàn)象非隨機(jī)變量間的

3、關(guān)系。隨機(jī)變量間的關(guān)系。 統(tǒng)計(jì)依賴或相關(guān)關(guān)系:統(tǒng)計(jì)依賴或相關(guān)關(guān)系:研究的是非確定現(xiàn)象隨研究的是非確定現(xiàn)象隨機(jī)變量間的關(guān)系。機(jī)變量間的關(guān)系。 經(jīng)濟(jì)變量之間的關(guān)系,大體可分為兩類:經(jīng)濟(jì)變量之間的關(guān)系,大體可分為兩類:2021-12-24一元線性回歸分析5對變量間對變量間統(tǒng)計(jì)依賴關(guān)系統(tǒng)計(jì)依賴關(guān)系的考察主要是通過的考察主要是通過相關(guān)分析相關(guān)分析(correlation analysis)或或回歸分析回歸分析(regression analysis)來完成的:來完成的: 正相關(guān) 線性相關(guān) 不相關(guān) 相關(guān)系數(shù):統(tǒng)計(jì)依賴關(guān)系 負(fù)相關(guān) 11XY 有因果關(guān)系 回回歸歸分分析析 正相關(guān) 無因果關(guān)系 相相關(guān)關(guān)分分析析

4、 非線性相關(guān) 不相關(guān) 負(fù)相關(guān)2021-12-24一元線性回歸分析6幾點(diǎn)注意幾點(diǎn)注意 不線性相關(guān)并不意味著不相關(guān);不線性相關(guān)并不意味著不相關(guān); 有相關(guān)關(guān)系并不意味著一定有因果關(guān)系;有相關(guān)關(guān)系并不意味著一定有因果關(guān)系; 相關(guān)分析相關(guān)分析研究一個(gè)變量對另一個(gè)(些)變量的統(tǒng)研究一個(gè)變量對另一個(gè)(些)變量的統(tǒng)計(jì)依賴關(guān)系,但它們并不意味著一定有因果關(guān)系;計(jì)依賴關(guān)系,但它們并不意味著一定有因果關(guān)系; 相關(guān)分析相關(guān)分析對稱地對待任何(兩個(gè))變量,兩個(gè)變對稱地對待任何(兩個(gè))變量,兩個(gè)變量都被看作是隨機(jī)的。量都被看作是隨機(jī)的。回歸分析回歸分析對變量的處理方法對變量的處理方法存在不對稱性,即區(qū)分應(yīng)變量(被解釋變量

5、)和自存在不對稱性,即區(qū)分應(yīng)變量(被解釋變量)和自變量(解釋變量):前者是隨機(jī)變量,后者不是。變量(解釋變量):前者是隨機(jī)變量,后者不是。2021-12-24一元線性回歸分析7 回歸分析是研究一個(gè)變量關(guān)于另一個(gè)(些)變量的回歸分析是研究一個(gè)變量關(guān)于另一個(gè)(些)變量的具體依賴關(guān)系的計(jì)算方法和理論。具體依賴關(guān)系的計(jì)算方法和理論。 這里前一個(gè)變量被稱為這里前一個(gè)變量被稱為被解釋變量被解釋變量(Explained Explained VariableVariable)或)或應(yīng)變量應(yīng)變量(Dependent VariableDependent Variable),后一),后一個(gè)(些)變量被稱為個(gè)(些)變

6、量被稱為解釋變量解釋變量(Explanatory Explanatory VariableVariable)或)或自變量自變量(Independent VariableIndependent Variable)。)。2.1.22.1.2、回歸分析的基本概念、回歸分析的基本概念2021-12-24一元線性回歸分析8回歸分析回歸分析 回歸分析通過樣本數(shù)據(jù)討論解釋變量與被解釋變量之間因果關(guān)系的數(shù)學(xué)聯(lián)系式,即有總體回歸模型: 利用樣本觀察值找出參數(shù) 和 的估計(jì)值,得到樣本回歸模型: 檢驗(yàn)估計(jì)值的性質(zhì),并利用樣本回歸模型分析被解釋變量的總體平均規(guī)律。iiiuxy10iixy10012021-12-24一

7、元線性回歸分析9 由于變量間關(guān)系的隨機(jī)性,由于變量間關(guān)系的隨機(jī)性,回歸分析關(guān)心的是根據(jù)回歸分析關(guān)心的是根據(jù)解釋變量的已知或給定值,考察被解釋變量的總體解釋變量的已知或給定值,考察被解釋變量的總體均值均值,即當(dāng)解釋變量取某個(gè)確定值時(shí),與之統(tǒng)計(jì)相,即當(dāng)解釋變量取某個(gè)確定值時(shí),與之統(tǒng)計(jì)相關(guān)的被解釋變量所有可能出現(xiàn)的對應(yīng)值的平均值。關(guān)的被解釋變量所有可能出現(xiàn)的對應(yīng)值的平均值。2021-12-24一元線性回歸分析10回歸分析構(gòu)成計(jì)量經(jīng)濟(jì)學(xué)的方法論基回歸分析構(gòu)成計(jì)量經(jīng)濟(jì)學(xué)的方法論基礎(chǔ),其主要內(nèi)容包括:礎(chǔ),其主要內(nèi)容包括: (1)根據(jù)樣本觀察值對計(jì)量經(jīng)濟(jì)模型參數(shù)進(jìn)行)根據(jù)樣本觀察值對計(jì)量經(jīng)濟(jì)模型參數(shù)進(jìn)行估計(jì)

8、,求得回歸方程;估計(jì),求得回歸方程;(2)對回歸方程、參數(shù)估計(jì)值進(jìn)行檢驗(yàn);)對回歸方程、參數(shù)估計(jì)值進(jìn)行檢驗(yàn);(3)利用回歸方程進(jìn)行分析、評價(jià)及預(yù)測。)利用回歸方程進(jìn)行分析、評價(jià)及預(yù)測。2021-12-24一元線性回歸分析112.1.2 總體回歸函數(shù)總體回歸函數(shù)(PRF)例子例子例例2.12.1:一個(gè)假想的社區(qū)有60戶家庭組成,要研究該社區(qū)每月家庭消費(fèi)支出Y與每月家庭可支配收入X的關(guān)系。 即如果知道了家庭的月收入,能否預(yù)測該社區(qū)家庭的平均月消費(fèi)支出水平。 為達(dá)到此目的,將該60戶家庭劃分為組內(nèi)收入差不多的10組,以分析每一收入組的家庭消費(fèi)支出(表2.1)。2021-12-24一元線性回歸分析12

9、表表 2.1 某社區(qū)每月家庭收入與消費(fèi)支出查統(tǒng)計(jì)表某社區(qū)每月家庭收入與消費(fèi)支出查統(tǒng)計(jì)表每月家庭收入X(元)8001000120014001600180020002200240026005506507908001020110012001350137015006007008409301070115013601370145015206507409009501100120014001400155017507008009401030116013001440152016501780750850980108011801350145015701750180008800113012501400016001890

10、1850每月家庭消費(fèi)支出Y(元)0001150000162001910共計(jì)325046204450707067807500685010430966012110條件概率1/51/61/51/71/61/61/51/71/61/7條件均值65077089010101130125013701490161017302021-12-24一元線性回歸分析13 由于不確定因素的影響,對同一收入水平由于不確定因素的影響,對同一收入水平X,不同,不同家庭的消費(fèi)支出不完全相同;家庭的消費(fèi)支出不完全相同; 但由于調(diào)查的完備性,給定收入水平但由于調(diào)查的完備性,給定收入水平X的消費(fèi)支出的消費(fèi)支出Y的分布是確定的,即以的

11、分布是確定的,即以X的給定值為條件的的給定值為條件的Y的的條條件分布件分布(Conditional distribution)是已知的,如:)是已知的,如: P(Y=550|X=800)=1/5。 因此,給定收入因此,給定收入X的值的值Xi,可得消費(fèi)支出,可得消費(fèi)支出Y的條件的條件均值(均值(conditional mean)或條件期望()或條件期望(conditional expectation):)|(iXXYE該例中:該例中:E(Y | X=800)=650 分析分析2021-12-24一元線性回歸分析14 從散點(diǎn)圖發(fā)現(xiàn):隨著收入的增加,消費(fèi)從散點(diǎn)圖發(fā)現(xiàn):隨著收入的增加,消費(fèi)“平均平均地

12、說地說”也在增加,且也在增加,且Y的條件均值均落在一根正的條件均值均落在一根正斜率的直線上。這條直線稱為斜率的直線上。這條直線稱為總體回歸線總體回歸線。500700900110013001500170019002100050010001500200025003000YX2021-12-24一元線性回歸分析15 在給定解釋變量iX條件下被解釋變量iY的期望軌跡稱為總總體體回回歸歸線線(population regression line) ,或更一般地稱為總總體體回回歸歸曲曲線線(population regression curve) 。相應(yīng)的函數(shù)(方程) : )()|(iiXfXYE (2.

13、1.1)稱為(雙變量)總總體體回回歸歸函函數(shù)數(shù)(方方程程) (PRF) (populationregression function) 。Y2021-12-24一元線性回歸分析16xy10 x0yix0iy1 iy2iy3iy4iyiiixxyExy100總體回歸模型的均值概念xy10總體回歸函數(shù)樣本回歸函數(shù) 概念概念2021-12-24一元線性回歸分析17 回歸函數(shù)(回歸函數(shù)(PRFPRF)說明被解釋變量)說明被解釋變量Y Y的平均狀態(tài)的平均狀態(tài)(總體條件期望)隨解釋變量(總體條件期望)隨解釋變量X X變化的規(guī)律。變化的規(guī)律。 函數(shù)形式可以是線性或非線性的。函數(shù)形式可以是線性或非線性的。 例

14、例2.1中中:iiXXYE10)|( 為一線性函數(shù)。其中,1與2為未知然而固定的參數(shù),稱為回回歸歸系系數(shù)數(shù)(regression coefficients) 。2021-12-24一元線性回歸分析182.1.3 隨機(jī)擾動(誤差)項(xiàng)隨機(jī)擾動(誤差)項(xiàng) 隨機(jī)擾動項(xiàng)的引入隨機(jī)擾動項(xiàng)的引入 總體回歸函數(shù)說明在給定的收入水平Xi下,該社區(qū)家庭平均的消費(fèi)支出水平。 但對某一個(gè)別的家庭,其消費(fèi)支出可能與該平均水平有偏差。記)()/(10iiiiiiXYXXYEYu稱為觀察值圍繞它的期望值的離差(deviation),它是一不可測度的隨機(jī)量,所以也稱隨機(jī)擾動項(xiàng)(stochastic disturbance),

15、或隨機(jī)誤差項(xiàng)( stochastic error)iuiY)/(iiXXYE(2.1.2)2021-12-24一元線性回歸分析19由(2.1.2)式,個(gè)別家庭的消費(fèi)支出為:即,給定收入水平iX,個(gè)別家庭的支出可表示為兩部分之和: (1) 該收入水平下所有家庭的平均消費(fèi)支出)|(iXYE, 稱為系系統(tǒng)統(tǒng)性性(systematic)或確確定定性性(deterministic)部部分分 (2)其他隨隨機(jī)機(jī)或非非確確定定性性(nonsystematic)部部分分i。iiiiiiuXYuXXYEY10)/(2.1.3)(2.1.3)稱為總體回歸模型。2021-12-24一元線性回歸分析20 、隨機(jī)誤差項(xiàng)

16、隨機(jī)誤差項(xiàng) 產(chǎn)生的原因產(chǎn)生的原因: 1)理論的含糊性; 2)數(shù)據(jù)的欠缺; 3)節(jié)省原則 隨機(jī)誤差項(xiàng)主要包括下列因素的影響隨機(jī)誤差項(xiàng)主要包括下列因素的影響: (1)在解釋變量中被忽略的因素的影響; (2)變量觀測值的觀測誤差的影響; (3)模型關(guān)系的設(shè)定誤差的影響; (4)其他隨機(jī)因素的影響。iu2021-12-24一元線性回歸分析21 3、總體線性回歸模型(2.1.3)的基本假設(shè)有: 1、隨機(jī)誤差項(xiàng)的均值為零 2、隨機(jī)誤差項(xiàng)各分量的方差相等(等方差) 3、隨機(jī)誤差項(xiàng)在不同樣本點(diǎn)之間是獨(dú)立的,不存在序列相關(guān)。即 4、隨機(jī)誤差項(xiàng)與解釋變量之間不相關(guān)。即 5、解釋變量x為確定性變量(非隨機(jī)變量)。

17、6、隨機(jī)誤差項(xiàng)服從正態(tài)分布。 0iuE niuVaruDuii, 2 , 1,2jiuuCovji , 0,niuxCovi, 2 , 1, 0,iu2, 0uN2021-12-24一元線性回歸分析22iiiuxy10 yi,ui為隨機(jī)變量,xi為確定性變量, yi和xi有樣本值, 是待估參數(shù)。 ui服從正態(tài)分布: yi服從正態(tài)分布。2, 0uiNu210,uiixNy在總體回歸模型:中10和2021-12-24一元線性回歸分析232.1.42.1.4、樣本回歸函數(shù)(、樣本回歸函數(shù)(SRFSRF)2021-12-24一元線性回歸分析24問題的提出問題的提出 由于總體的信息往往無法掌握,現(xiàn)實(shí)的情

18、況只能由于總體的信息往往無法掌握,現(xiàn)實(shí)的情況只能是在一次觀測中得到總體的一組樣本。是在一次觀測中得到總體的一組樣本。 問題是能從一次抽樣中獲得總體的近似的信息嗎?問題是能從一次抽樣中獲得總體的近似的信息嗎?如果可以,如何從抽樣中獲得總體的近似信息?如果可以,如何從抽樣中獲得總體的近似信息? 例例2.2:在例2.1的總體中有如下一個(gè)樣本,問:能否從該樣本估計(jì)總體回歸函數(shù)PRF?Y700650900950 1100 11501200140015501500X800 1000 12001400 1600 180020002200240026002021-12-24一元線性回歸分析25該樣本的散點(diǎn)圖散

19、點(diǎn)圖(scatter diagram): 樣本散點(diǎn)圖近似于一條直線,畫一條直線以盡可能好地?cái)M合該散點(diǎn)圖,由于樣本取自總體,可以該線近似地代表總體回歸線。該線稱為樣本回歸線樣本回歸線(sample regression lines),),其函數(shù)形式記為:5007009001100130015001700050010001500200025003000XY iiiXXfY10)( (2.1.4)稱為樣本回歸函數(shù)樣本回歸函數(shù)(sample regression function)SRF。2021-12-24一元線性回歸分析26 注意:注意:這里將(2.1.4)看成(2.1.1)的近似替代。 iY 就

20、為 )|(iXYE的估計(jì)量; i 為 i的估計(jì)量,) 1 , 0(i2021-12-24一元線性回歸分析27 樣本回歸函數(shù)的隨機(jī)形式樣本回歸函數(shù)的隨機(jī)形式/ /樣本回歸模型樣本回歸模型 同樣地,對某一個(gè)體iY,有 iiiiieXYY10 (2.1.5)式中,ie稱為(樣樣本本)殘殘差差(或剩剩余余)項(xiàng)項(xiàng)(residual) ,代表了其他影響iY的隨機(jī)因素的集合體,可看成為i的估計(jì)量。 由于方程中引入了隨機(jī)項(xiàng),成為計(jì)量經(jīng)濟(jì)模型,因由于方程中引入了隨機(jī)項(xiàng),成為計(jì)量經(jīng)濟(jì)模型,因此也稱為此也稱為樣本回歸模型樣本回歸模型。2021-12-24一元線性回歸分析28 回歸分析的主要目的回歸分析的主要目的根據(jù)

21、樣本回歸函數(shù)根據(jù)樣本回歸函數(shù)SRF,估計(jì)總體回歸函數(shù),估計(jì)總體回歸函數(shù)PRF。即,根據(jù) iiiiieXeYY10估計(jì) iiiiiXXYEY10)|(2021-12-24一元線性回歸分析29 Y iY iiXY10 ie iY iiXXYE10)|( )|(iXYE Xi X 樣本與總體回歸線樣本與總體回歸線i這這就就要要求求:設(shè)計(jì)一“方法”構(gòu)造SRF,以使SRF盡可能“接近”PRF,或者說使) 1 , 0(ii盡可能接近) 1 , 0( ii。注注:這里真實(shí)的PRF可能永遠(yuǎn)無從知道2021-12-24一元線性回歸分析302.2 :一元線性模型的參數(shù)估計(jì)2021-12-24一元線性回歸分析312

22、.2普通最小二乘法(OLS)2021-12-24一元線性回歸分析32 OLS回歸函數(shù) 的特征 1、樣本均值 落在回歸直線上; 2、y的理論估計(jì)值 的均值即為 ; 3、殘差一階和為0: 4、殘差與解釋變量不相關(guān): 5、殘差與y的理論預(yù)測值亦不相關(guān):YiiXY10YX,0ie0iiXe0iiYeY2021-12-24一元線性回歸分析332.3 參數(shù)估計(jì)值的性質(zhì)及統(tǒng)計(jì)推斷 高斯馬爾可夫定理 OLS下的統(tǒng)計(jì)推斷2021-12-24一元線性回歸分析34 當(dāng)模型參數(shù)估計(jì)完成,需考慮參數(shù)估計(jì)值的精當(dāng)模型參數(shù)估計(jì)完成,需考慮參數(shù)估計(jì)值的精度,即是否能代表總體參數(shù)的真值,或者說需考度,即是否能代表總體參數(shù)的真值

23、,或者說需考察參數(shù)估計(jì)量的統(tǒng)計(jì)性質(zhì)。察參數(shù)估計(jì)量的統(tǒng)計(jì)性質(zhì)。 一個(gè)用于考察總體的統(tǒng)計(jì)量,可從三個(gè)方面一個(gè)用于考察總體的統(tǒng)計(jì)量,可從三個(gè)方面考察其優(yōu)劣性:考察其優(yōu)劣性:(1)線性性)線性性(linear):即是否是另一隨機(jī)變量的即是否是另一隨機(jī)變量的線性函數(shù);線性函數(shù);(2)無偏性)無偏性(unbiased):即它的均值或期望值是即它的均值或期望值是否等于總體的真實(shí)值;否等于總體的真實(shí)值;(3)有效性)有效性(efficient):即它是否在所有線性無即它是否在所有線性無偏估計(jì)量中具有最小方差。偏估計(jì)量中具有最小方差。2021-12-24一元線性回歸分析352.3.1 高斯馬爾可夫定理 若一元線

24、性模型滿足計(jì)量經(jīng)濟(jì)基本假設(shè),則參數(shù)的最小二乘估計(jì)是最小方差的線性無偏估計(jì)。(BLUE) 高斯馬爾可夫定理的初步證明 回顧:點(diǎn)估計(jì)的三個(gè)性質(zhì)-無偏性、有效性和一致性。 (注:參數(shù)估計(jì)有點(diǎn)估計(jì)和區(qū)間估計(jì)兩類參數(shù)估計(jì)有點(diǎn)估計(jì)和區(qū)間估計(jì)兩類)2021-12-24一元線性回歸分析36同理可證明 )var()var(0*0Sampling distribution of OLS estimator 1 and alternative estimator *111*11)()( EE1*1 有效性的圖形表示:*2021-12-24一元線性回歸分析37 2.3.2 OLS下的統(tǒng)計(jì)推斷1、參參數(shù)數(shù)估估計(jì)計(jì)量量0

25、和和1的的概概率率分分布布 ),(2211ixN),(22200iixnXN2021-12-24一元線性回歸分析382、參數(shù)估計(jì)值的總體方差2221XXiu222222210uiiuiXXnXXXXn2021-12-24一元線性回歸分析39 3、隨機(jī)誤差變量 的方差估計(jì)值 4、參數(shù)估計(jì)量的樣本方差iu222neiu2221XXiu222210uiXXXn標(biāo)準(zhǔn)差為方差的平方根,Eviews的結(jié)果一般用標(biāo)準(zhǔn)差表示。2021-12-24一元線性回歸分析40第二周作業(yè): 一、書p61-62:2.1(1)(3),2.2 二、證明OLS特征: 3、殘差一階和為0: 4、殘差與解釋變量不相關(guān): 5、殘差與y

26、的理論預(yù)測值亦不相關(guān): 三、熟悉Eviews軟件,利用普通股交易資料作1-3只股票的單指數(shù)模型的樣本回歸模型。0ie0iiXe0iiYe2021-12-24一元線性回歸分析412.4 一元線性回歸模型的統(tǒng)一元線性回歸模型的統(tǒng)計(jì)檢驗(yàn)計(jì)檢驗(yàn) 一、擬合優(yōu)度檢驗(yàn)一、擬合優(yōu)度檢驗(yàn) 二、變量的顯著性檢驗(yàn)二、變量的顯著性檢驗(yàn) 三、參數(shù)的置信區(qū)間三、參數(shù)的置信區(qū)間 2021-12-24一元線性回歸分析42 回歸分析回歸分析是要通過樣本所估計(jì)的參數(shù)來代替總體的真實(shí)參數(shù),或者說是用樣本回歸線代替總體回歸線。 盡管從統(tǒng)計(jì)性質(zhì)統(tǒng)計(jì)性質(zhì)上已知,如果有足夠多的重復(fù) 抽樣,參數(shù)的估計(jì)值的期望(均值)就等于其總體的參數(shù)真值,

27、但在一次抽樣中,估計(jì)值不一定就等于該真值。 那么,在一次抽樣中,參數(shù)的估計(jì)值與真值的差異有多大,是否顯著,這就需要進(jìn)一步進(jìn)行統(tǒng)計(jì)檢驗(yàn)統(tǒng)計(jì)檢驗(yàn)。 主要包括擬合優(yōu)度檢驗(yàn)擬合優(yōu)度檢驗(yàn)、變量的顯著性檢驗(yàn)顯著性檢驗(yàn)及參數(shù)的區(qū)間估計(jì)區(qū)間估計(jì)。2021-12-24一元線性回歸分析43 2.4.1 2.4.1 擬合優(yōu)度檢驗(yàn)擬合優(yōu)度檢驗(yàn) 對樣本回歸直線與樣本觀測值之間擬合程度的檢驗(yàn)。 :判定系數(shù)判定系數(shù)(可決可決系數(shù)系數(shù))R2 2 問題:問題:采用普通最小二乘估計(jì)方法,已經(jīng)保證了模型最好地?cái)M合了樣本觀測值,為什么還要檢驗(yàn)擬合程度?2021-12-24一元線性回歸分析44 擬合度檢驗(yàn)的原理: y的理論預(yù)測值 和真

28、實(shí)的樣本值 的距離越小,擬合度越好。所以有絕對指標(biāo) 和相對指標(biāo) 。定義: 此處利用到等式:iy iyie2R222221YYeYYYYRiiii222YYYYYYiiii102 R22YYeii2021-12-24一元線性回歸分析45 1 1、總離差平方和的分解、總離差平方和的分解 已知由一組樣本觀測值(Xi,Yi),i=1,2,n得到如下樣本回歸直線 iiXY10iiiiiiiyeYYYYYYy)()(2021-12-24一元線性回歸分析46 如果Yi=i 即實(shí)際觀測值落在樣本回歸“線”上,則擬合最好擬合最好??烧J(rèn)為,“離差”全部來自回歸線,而與“殘差”無關(guān)。2021-12-24一元線性回歸

29、分析47 對于所有樣本點(diǎn),則需考慮這些點(diǎn)與樣本均值離差的平方和,可以證明:記22)(YYyTSSii總體平方和總體平方和(Total Sum of Squares)22)(YYyESSii回歸平方和回歸平方和(Explained Sum of Squares)22)(iiiYYeRSS殘差平方和殘差平方和(Residual Sum of Squares )2021-12-24一元線性回歸分析48TSS=ESS+RSS Y的觀測值圍繞其均值的總離差總離差(total variation)可分解為兩部分:一部分來自回歸線一部分來自回歸線(ESS),另一部,另一部分則來自隨機(jī)勢力分則來自隨機(jī)勢力(R

30、SS)。在給定樣本中,TSS不變, 如果實(shí)際觀測點(diǎn)離樣本回歸線越近,則ESS在TSS中占的比重越大,因此 擬合優(yōu)度擬合優(yōu)度:回歸平方和:回歸平方和ESS/YESS/Y的總離差的總離差TSSTSS2021-12-24一元線性回歸分析49TSSRSSTSSESSR1記22、可決系數(shù)、可決系數(shù)R2 2統(tǒng)計(jì)量統(tǒng)計(jì)量 稱 R2 為(樣本)(樣本)可決系數(shù)可決系數(shù)/判定系數(shù)判定系數(shù)(coefficient of determination)。 可決系數(shù)可決系數(shù)的取值范圍取值范圍:0,1 R2 2越接近越接近1 1,說明實(shí)際觀測點(diǎn)離樣本線越近,擬,說明實(shí)際觀測點(diǎn)離樣本線越近,擬合優(yōu)度越高合優(yōu)度越高。2021

31、-12-24一元線性回歸分析50在實(shí)際計(jì)算可決系數(shù)時(shí),在1已經(jīng)估計(jì)出后: 22212iiyxR 在例2.1.1的收入收入-消費(fèi)支出消費(fèi)支出例中, 9766. 045900207425000)777. 0(222212iiyxR 注:可決系數(shù)注:可決系數(shù)是一個(gè)非負(fù)的統(tǒng)計(jì)量。它也是是一個(gè)非負(fù)的統(tǒng)計(jì)量。它也是隨著抽樣的不同而不同。為此,對可決系數(shù)的統(tǒng)隨著抽樣的不同而不同。為此,對可決系數(shù)的統(tǒng)計(jì)可靠性也應(yīng)進(jìn)行檢驗(yàn),這將在第計(jì)可靠性也應(yīng)進(jìn)行檢驗(yàn),這將在第3章中進(jìn)行。章中進(jìn)行。 2021-12-24一元線性回歸分析512.4.2 一元線性模型的顯著性檢驗(yàn)回歸分析回歸分析是要判斷解釋變量解釋變量X是否是被解

32、被解釋變量釋變量Y的一個(gè)顯著性的影響因素。 在一元線性模型一元線性模型中,就是要判斷X是否對Y具有顯著的線性性影響。這就需要進(jìn)行變量的顯著性檢驗(yàn)。變量的顯著性檢驗(yàn)。2021-12-24一元線性回歸分析521、顯著性檢驗(yàn)的原理:假設(shè)檢驗(yàn) 通過對總體回歸模型中參數(shù)是否為零的統(tǒng)計(jì)學(xué)檢驗(yàn),推斷模型所表示的因果關(guān)系能否成立。一般分為單個(gè)參數(shù)的t-檢驗(yàn)和整體參數(shù)的F-檢驗(yàn)。一般先假設(shè)參數(shù)為0(原假設(shè)),在此基礎(chǔ)上建立統(tǒng)計(jì)量,再給出顯著性水平(如1%,5%),如果原假設(shè)成立,概率小于顯著性水平的事件應(yīng)該不成立,但若統(tǒng)計(jì)量顯示小概率事件亦會發(fā)生,只能推翻原假設(shè),選擇備選假設(shè)。2021-12-24一元線性回歸分

33、析53回顧:t-分布與F-分布 若隨機(jī)變量 服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則變量的平方 服從 -分布。K個(gè)獨(dú)立的,服從 分布的隨機(jī)變量的和 也服從 分布,自由度為k. T-分布為一個(gè)標(biāo)準(zhǔn)正態(tài)分布與一個(gè) 的平方根的商的隨機(jī)變量,即有 其中 為自由度。 F-分布為兩個(gè) 分布的商,有: ,其中 為自由度。222 2kt222k222212121,nnnnF21,nn2021-12-24一元線性回歸分析542、方程顯著性檢驗(yàn):F-檢驗(yàn)及統(tǒng)計(jì)量: 統(tǒng)計(jì)量為: 在給出顯著性水平 后,可查表得到臨界值,若統(tǒng)計(jì)量的實(shí)際值大于臨界值,則原假設(shè)所有參數(shù)為0不能成立。122knekYYFii2021-12-24一元

34、線性回歸分析553、 變量顯著性檢驗(yàn):單個(gè)參數(shù)的t-檢驗(yàn) 原理:給出原假設(shè)H0:=0,根據(jù)t分布構(gòu)造相應(yīng)的t-統(tǒng)計(jì)量,并根據(jù)給出的數(shù)據(jù)算出統(tǒng)計(jì)量的值。再利用t分布的雙側(cè)特征,給定顯著性水平,查表找出t /2的臨界值。若統(tǒng)計(jì)量值的絕對值大于臨界值,則概率小于的小概率事件發(fā)生,原假設(shè)不能成立。反之,不能推翻原假設(shè)。 統(tǒng)計(jì)檢驗(yàn)2021-12-24一元線性回歸分析56 假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)可以通過一次抽樣的結(jié)果檢驗(yàn)總體參數(shù)可能的假設(shè)值的范圍(如是否為零),但它并沒有指出在一次抽樣中樣本參數(shù)值到底離總體參數(shù)的真值有多“近”。 要判斷樣本參數(shù)的估計(jì)值在多大程度上可以“近似”地替代總體參數(shù)的真值,往往需要通過構(gòu)

35、造一個(gè)以樣本參數(shù)的估計(jì)值為中心的“區(qū)間”,來考察它以多大的可能性(概率)包含著真實(shí)的參數(shù)值。這種方法就是參數(shù)檢驗(yàn)的置信區(qū)間估計(jì)置信區(qū)間估計(jì)。 2.4.3 2.4.3 參數(shù)的置信區(qū)間參數(shù)的置信區(qū)間 2021-12-24一元線性回歸分析571)(P 如 果 存 在 這 樣 一 個(gè) 區(qū) 間 , 稱 之 為 置 信 區(qū) 間置 信 區(qū) 間(confidence interval); 1-稱為置信系數(shù)置信系數(shù)(置信度置信度)(confidence coefficient), 稱為顯著性水平顯著性水平(level of significance);置信區(qū)間的端點(diǎn)稱為置信限置信限(confidence lim

36、it)或臨界值臨界值(critical values)。2021-12-24一元線性回歸分析58一元線性模型中一元線性模型中, i (i=1,2)的置信區(qū)間的置信區(qū)間: :在變量的顯著性檢驗(yàn)中已經(jīng)知道: )2(ntstiii 意味著,如果給定置信度(1-),從分布表中查得自由度為(n-2)的臨界值,那么t值處在(-t/2, t/2)的概率是(1- )。表示為: Pttt()221即Ptstiii()221Ptstsiiiii()2212021-12-24一元線性回歸分析59于是得到:(1-)的置信度下, i的置信區(qū)間是 (,)iitstsii22 在上述收入收入- -消費(fèi)支出消費(fèi)支出例中,如果

37、給定 =0.01,查表得: 355. 3)8()2(005. 02tnt由于042. 01S41.980S于是,1、0的置信區(qū)間分別為: (0.6345,0.9195) (-433.32,226.98) 2021-12-24一元線性回歸分析60 由于置信區(qū)間一定程度地給出了樣本參數(shù)估計(jì)值與總體參數(shù)真值的“接近”程度,因此置信區(qū)間越小越好。 要縮小置信區(qū)間,需 (1 1)增大樣本容量)增大樣本容量n n,因?yàn)樵谕瑯拥闹眯潘较拢琻越大,t分布表中的臨界值越?。煌瑫r(shí),增大樣本容量,還可使樣本參數(shù)估計(jì)量的標(biāo)準(zhǔn)差減??; (2 2)提高模型的擬合優(yōu)度)提高模型的擬合優(yōu)度,因?yàn)闃颖緟?shù)估計(jì)量的標(biāo)準(zhǔn)差與殘差

38、平方和呈正比,模型擬合優(yōu)度越高,殘差平方和應(yīng)越小。2021-12-24一元線性回歸分析612.5 一元線性模型的預(yù)測 對于模型 如果給定樣本以外樣本以外的解釋變量的觀測值 ,有: 因 不是原來回歸方程中的樣本,所以 和原模型中的 不相關(guān)。如何求出 的合理的值或范圍,就是回歸分析中預(yù)測的內(nèi)容。具體分為點(diǎn)預(yù)測和區(qū)間預(yù)測二塊。 預(yù)測與置信區(qū)間iiiuXY10fXfffuXY10fXfu iufY2021-12-24一元線性回歸分析62一、一、f f是條件均值是條件均值E(Y|X=Xf)或個(gè)值或個(gè)值Yf的一的一個(gè)無偏估計(jì)個(gè)無偏估計(jì)二、總體條件均值與個(gè)值預(yù)測值的置信區(qū)二、總體條件均值與個(gè)值預(yù)測值的置信區(qū)

39、間間 2021-12-24一元線性回歸分析63 對于一元線性回歸模型 iiXY10給定樣本以外的解釋變量的觀測值Xf,可以得到被解釋變量的預(yù)測值f f ,可以此作為其條件均值條件均值E(Y|X=Xf)或個(gè)別值個(gè)別值Yf的一個(gè)近似估計(jì)。 注意:注意: 嚴(yán)格地說,f只是被解釋變量Yf的預(yù)測值的點(diǎn)估計(jì)值,而不是預(yù)測值。 原因:(1)參數(shù)估計(jì)量不確定; (2)隨機(jī)項(xiàng)的影響ffXY102021-12-24一元線性回歸分析64 一、一、f f是條件均值是條件均值E(Y|X=Xf)或個(gè)值或個(gè)值Yf的一個(gè)無偏估計(jì)的一個(gè)無偏估計(jì)對總體回歸函數(shù)總體回歸函數(shù)E(Y|X=Xi)=0+1Xi,X=Xf時(shí) E(Y|X=X

40、f)=0+1XfffXY10于是ffffXEXEXEYE101010)()()()(可見,可見,f是條件均值是條件均值E(Y|X=Xf)的無偏估計(jì)。的無偏估計(jì)。2021-12-24一元線性回歸分析65對總體回歸模型總體回歸模型Y=0+1X+,當(dāng)X=Xf時(shí)于是ffffXEXEXEYE101010)()()()(fffuXY10 ffffXuEEXEuXEYE101010)()()()(而通過樣本回歸函數(shù)樣本回歸函數(shù) ,求得擬合值 的期望值為XY10ffXY10擬合值與樣本值的期望值相等,即:所以, 的無偏估計(jì)。 ffYEYEffYY 是2021-12-24一元線性回歸分析66 二、總體條件均值與

41、個(gè)值預(yù)測值的置信二、總體條件均值與個(gè)值預(yù)測值的置信區(qū)間區(qū)間 1、總體均值預(yù)測值的置信區(qū)間、總體均值預(yù)測值的置信區(qū)間 由于 ),(2211ixN),(22200iixnXN于是可以證明 2210/),(ixXCovffXY10ffffXEXEXEYE101010)()()()()(),(2)()(12100VarXCovXVarYVarfff2021-12-24一元線性回歸分析67因此,有: 故 其中2121uniiffXXXXnYVar)1,(21210uniifffxxxxnXNY2ntSyEytffYffyuniifYxxxxnSf12112將未知的 用它的無偏估計(jì)量 代替,可構(gòu)造統(tǒng)計(jì)量:2u2u2021-12-24一元線性回歸分析68 這樣,在1-的置信度下,總體均值總體均值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論