第五一元線性回歸實用課件_第1頁
第五一元線性回歸實用課件_第2頁
第五一元線性回歸實用課件_第3頁
第五一元線性回歸實用課件_第4頁
第五一元線性回歸實用課件_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第五一元線性回歸(優(yōu)選)第五一元線性回歸

一、線性回歸模型的基本假設

假設1、自變量X是的數(shù)值可以是隨機變量也可以

是人為設定的。假設2、隨機誤差項具有零均值、同方差和序列不相關性:

E(i)=0i=1,2,…,nVar(i)=2i=1,2,…,nCov(i,j)=0i≠ji,j=1,2,…,n

假設3、隨機誤差項與自變量X之間不相關:

Cov(Xi,i)=0i=1,2,…,n

假設4、服從零均值、同方差、零協(xié)方差的正態(tài)分布i~N(0,2)i=1,2,…,n1、如果假設1、2滿足,則假設3也滿足;

2、如果假設4滿足,則假設2也滿足。注意:

以上假設也稱為線性回歸模型的經(jīng)典假設或高斯(Gauss)假設,滿足該假設的線性回歸模型,也稱為經(jīng)典線性回歸模型(ClassicalLinearRegressionModel,CLRM)。

另外,在進行模型回歸時,還有兩個暗含的假設:

假設5:隨著樣本容量的無限增加,自變量X的樣本方差趨于一有限常數(shù)。即

假設6:回歸模型是正確設定的

假設5旨在排除時間序列數(shù)據(jù)出現(xiàn)持續(xù)上升或下降的變量作為自變量,因為這類數(shù)據(jù)不僅使大樣本統(tǒng)計推斷變得無效,而且往往產(chǎn)生所謂的偽回歸問題(spuriousregressionproblem)。假設6也被稱為模型沒有設定偏誤(specificationerror)二、參數(shù)的普通最小二乘估計(OLS)

給定一組樣本觀測值(Xi,Yi)(i=1,2,…n)要求樣本回歸函數(shù)盡可能好地擬合這組值.普通最小二乘法(Ordinaryleastsquares,OLS)給出的判斷標準是二者之差的平方和最小。方程組(*)稱為正規(guī)方程組(normalequations)。

記上述參數(shù)估計量可以寫成:

稱為OLS估計量的離差形式(deviationform)。由于參數(shù)的估計結(jié)果是通過最小二乘法得到的,故稱為普通最小二乘估計量(ordinaryleastsquaresestimators)。

記則有

可得

(**)式也稱為樣本回歸函數(shù)的離差形式。(**)

三、參數(shù)估計的最大或然法(ML)

最大或然法(MaximumLikelihood,簡稱ML),也稱最大似然法,是不同于最小二乘法的另一種參數(shù)估計方法,是從最大或然原理出發(fā)發(fā)展起來的其它估計方法的基礎。基本原理對于最大或然法,當從模型總體隨機抽取n組樣本觀測值后,最合理的參數(shù)估計量應該使得從模型中抽取該n組樣本觀測值的概率最大。假設1、自變量X是的數(shù)值可以是隨機變量也可以在95%的置信度下,E(CONSP2001)的預測區(qū)間為:例1:在家庭可支配收入-消費支出中,對于所抽出的一組樣本數(shù),參數(shù)估計的計算可通過下面的表1進行。由于參數(shù)的估計結(jié)果是通過最小二乘法得到的,故稱為普通最小二乘估計量(ordinaryleastsquaresestimators)。Cov(i,j)=0i≠ji,j=1,2,…,n問題:采用普通最小二乘估計方法,已經(jīng)保證了模型最好地擬合了樣本觀測值,為什么還要檢驗擬合程度?于是,1、0的置信區(qū)間分別為:要判斷樣本參數(shù)的估計值在多大程度上可以“近似”地替代總體參數(shù)的真值,往往需要通過構(gòu)造一個以樣本參數(shù)的估計值為中心的“區(qū)間”,來考察它以多大的可能性(概率)包含著真實的參數(shù)值。2、模型檢驗同樣地,在95%的置信度下,CONSP2001的預測區(qū)間為:f=n-1,而fU則對應于自變量x的個數(shù),在這里自變量只有1個,因此fU=1,可知fQ=n-2。Cov(Xi,i)=0i=1,2,…,n在滿足基本假設條件下,對一元線性回歸模型:

隨機抽取n組樣本觀測值(Xi,Yi)(i=1,2,…n)。

那么Yi服從如下的正態(tài)分布:于是,Y的概率函數(shù)為(i=1,2,…n)

假如模型的參數(shù)估計量已經(jīng)求得,為因為Yi是相互獨立的,所以所有樣本觀測值的聯(lián)合概率,也即或然函數(shù)(likelihoodfunction)為:

將該或然函數(shù)極大化,即可求得到模型參數(shù)的極大或然估計量。

由于或然函數(shù)的極大化與或然函數(shù)的對數(shù)的極大化是等價的,所以,取對數(shù)或然函數(shù)如下:回歸平方和(ExplainedSumofSquares)水文學中,主要是針對變量的參數(shù)真值是否為零來進行顯著性檢驗的。假設5旨在排除時間序列數(shù)據(jù)出現(xiàn)持續(xù)上升或下降的變量作為自變量,因為這類數(shù)據(jù)不僅使大樣本統(tǒng)計推斷變得無效,而且往往產(chǎn)生所謂的偽回歸問題(spuriousregressionproblem)。fyy=fU+fQ它也是隨著抽樣的不同而不同。方程組(*)稱為正規(guī)方程組(normalequations)。E(Y|X=X0)=0+1X0對總體回歸函數(shù)E(Y|X=X0)=0+1X,X=X0時二、總體條件均值與個值預測值的置信區(qū)間由于置信區(qū)間一定程度地給出了樣本參數(shù)估計值與總體參數(shù)真值的“接近”程度,因此置信區(qū)間越小越好。解得模型的參數(shù)估計量為:

可見,在滿足一系列基本假設的情況下,模型結(jié)構(gòu)參數(shù)的最大或然估計量與普通最小二乘估計量是相同的。

例1:在家庭可支配收入-消費支出中,對于所抽出的一組樣本數(shù),參數(shù)估計的計算可通過下面的表1進行。

xi,yi:X、Y系列的距平系列。因此,由該樣本估計的回歸方程為:

四、最小二乘估計量的性質(zhì)

當模型參數(shù)估計出后,需考慮參數(shù)估計值的精度,即是否能代表總體參數(shù)的真值,或者說需考察參數(shù)估計量的統(tǒng)計性質(zhì)。

一個用于考察總體的估計量,可從如下幾個方面考察其優(yōu)劣性:

(1)線性性,即它是否是另一隨機變量的線性函數(shù);

(2)無偏性,即它的均值或期望值是否等于總體的真實值;

(3)有效性,即它是否在所有線性無偏估計量中具有最小方差。(4)漸近無偏性,即樣本容量趨于無窮大時,是否它的均值序列趨于總體真值;(5)一致性,即樣本容量趨于無窮大時,它是否依概率收斂于總體的真值;(6)漸近有效性,即樣本容量趨于無窮大時,是否它在所有的一致估計量中具有最小的漸近方差。

這三個準則也稱作估計量的小樣本性質(zhì)。擁有這類性質(zhì)的估計量稱為最佳線性無偏估計量(bestlinerunbiasedestimator,BLUE)。

當不滿足小樣本性質(zhì)時,需進一步考察估計量的大樣本或漸近性質(zhì):

第二節(jié)一元線性回歸模型的統(tǒng)計檢驗

一、擬合優(yōu)度檢驗

擬合優(yōu)度檢驗對樣本回歸直線與樣本觀測值之間擬合程度的檢驗。度量擬合優(yōu)度的指標決定性系數(shù)r2

問題:采用普通最小二乘估計方法,已經(jīng)保證了模型最好地擬合了樣本觀測值,為什么還要檢驗擬合程度?1、總離差平方和的分解

已知由一組樣本觀測值(Xi,Yi),i=1,2…,n得到如下樣本回歸直線

如果Yi=?i即實際觀測值落在樣本回歸“線”上,則擬合最好??烧J為,“離差”全部來自回歸線,而與“殘差”無關。

對于所有樣本點,則需考慮這些點與樣本均值離差的平方和,可以證明:記總體平方和(TotalSumofSquares)回歸平方和(ExplainedSumofSquares)殘差平方和(ResidualSumofSquares)Syy=Q+U

Y的觀測值圍繞其均值的總離差(totalvariation)可分解為兩部分:一部分來自回歸線U,另一部分則來自隨機勢力Q。在給定樣本中,Syy不變,如果實際觀測點離樣本回歸線越近,則U在Syy中占的比重越大,因此

擬合優(yōu)度:回歸平方和U/Y的總離差Syy2、決定性系數(shù)r2統(tǒng)計量

稱r2為(樣本)決定性系數(shù)(coefficientofdetermination)。

決定性系數(shù)的取值范圍:[0,1]

r2越接近1,說明實際觀測點離樣本線越近,擬合優(yōu)度越高。

3.回歸問題的方差分析回歸問題中總的離差平方和也可分解為回歸平方和與殘差平方和之和。相應有總的離差平方和Syy的自由度也可分解為回歸平方和自由度fU與殘差平方和的自由度

之和,即

fyy=fU+

fQ在回歸問題中,與周期分析一樣,

f=n-1,而fU則對應于自變量x的個數(shù),在這里自變量只有1個,因此fU

=1,可知fQ=n-2。殘差平方和Q除以它的自由度fQ所得的商為稱為剩余方差或剩余均方,可看作在排除了x對y的線性影響以后,衡量y隨機波動大小的一個估計量,它的平方根為稱為剩余標準差或簡稱標準差,

在例1的收入-消費支出例中,

注:決定性系數(shù)是一個非負的統(tǒng)計量。它也是隨著抽樣的不同而不同。為此,對決定性系數(shù)的統(tǒng)計可靠性也應進行檢驗。

在實際計算決定性系數(shù)時,在已經(jīng)已經(jīng)估計出后

二、變量的顯著性檢驗

回歸分析是要判斷自變量X是否是因變量Y的一個顯著性的影響因素。在一元線性模型中,就是要判斷X是否對Y具有顯著的線性性影響。這就需要進行變量的顯著性檢驗。

變量的顯著性檢驗所應用的方法是數(shù)理統(tǒng)計學中的假設檢驗。水文學中,主要是針對變量的參數(shù)真值是否為零來進行顯著性檢驗的。

1、假設檢驗

所謂假設檢驗,就是事先對總體參數(shù)或總體分布形式作出一個假設,然后利用樣本信息來判斷原假設是否合理,即判斷樣本信息與原假設是否有顯著差異,從而決定是否接受或否定原假設。假設檢驗采用的邏輯推理方法是反證法。先假定原假設正確,然后根據(jù)樣本信息,觀察由此假設而導致的結(jié)果是否合理,從而判斷是否接受原假設。判斷結(jié)果合理與否,是基于“小概率事件不易發(fā)生”這一原理的2、變量的顯著性檢驗

檢驗步驟:

(1)對總體參數(shù)提出假設

H0:1=0,H1:10(2)以原假設H0構(gòu)造t統(tǒng)計量,并由樣本計算其值(3)給定顯著性水平,查t分布表,得臨界值t/2(n-2)(4)比較,判斷若|t|>t/2(n-2),則拒絕H0

,接受H1

;若|t|

t/2(n-2),則拒絕H1

,接受H0

;

對于一元線性回歸方程中的0,可構(gòu)造如下t統(tǒng)計量進行顯著性檢驗:

在上述收入-消費支出例中,首先計算2的估計值

t統(tǒng)計量的計算結(jié)果分別為:

給定顯著性水平=0.05,查t分布表得臨界值

t0.05/2(8)=2.306|t1|>2.306,說明家庭可支配收入在95%的置信度下顯著,即是消費支出的主要解釋變量;

|t2|<2.306,表明在95%的置信度下,無法拒絕截距項為零的假設。

假設檢驗可以通過一次抽樣的結(jié)果檢驗總體參數(shù)可能的假設值的范圍(如是否為零),但它并沒有指出在一次抽樣中樣本參數(shù)值到底離總體參數(shù)的真值有多“近”。要判斷樣本參數(shù)的估計值在多大程度上可以“近似”地替代總體參數(shù)的真值,往往需要通過構(gòu)造一個以樣本參數(shù)的估計值為中心的“區(qū)間”,來考察它以多大的可能性(概率)包含著真實的參數(shù)值。這種方法就是參數(shù)檢驗的置信區(qū)間估計。

三、參數(shù)的置信區(qū)間

如果存在這樣一個區(qū)間,稱之為置信區(qū)間(confidenceinterval);

1-稱為置信系數(shù)(置信度)(confidencecoefficient),

稱為顯著性水平(levelofsignificance);置信區(qū)間的端點稱為置信限(confidencelimit)或臨界值(criticalvalues)。一元線性模型中,i(i=1,2)的置信區(qū)間:在變量的顯著性檢驗中已經(jīng)知道:

意味著,如果給定置信度(1-),從分布表中查得自由度為(n-2)的臨界值,那么t值處在(-t/2,t/2)的概率是(1-)。表示為:

即于是得到:(1-)的置信度下,i的置信區(qū)間是

在上述收入-消費支出例中,如果給定

=0.01,查表得:

由于于是,1、0的置信區(qū)間分別為:(0.6345,0.9195)

(-433.32,226.98)

由于置信區(qū)間一定程度地給出了樣本參數(shù)估計值與總體參數(shù)真值的“接近”程度,因此置信區(qū)間越小越好。

要縮小置信區(qū)間,需

(1)增大樣本容量n,因為在同樣的置信水平下,n越大,t分布表中的臨界值越小;同時,增大樣本容量,還可使樣本參數(shù)估計量的標準差減??;

(2)提高模型的擬合優(yōu)度,因為樣本參數(shù)估計量的標準差與殘差平方和呈正比,模型擬合優(yōu)度越高,殘差平方和應越小。第三節(jié)一元線性回歸分析的應用

預測問題一、?0是條件均值E(Y|X=X0)或個值Y0的一個無偏估計二、總體條件均值與個值預測值的置信區(qū)間

對于一元線性回歸模型

給定樣本以外的解釋變量的觀測值X0,可以得到被解釋變量的預測值?0

,可以此作為其條件均值E(Y|X=X0)或個別值Y0的一個近似估計。

注意:嚴格地說,這只是被解釋變量的預測值的估計值,而不是預測值。原因:(1)參數(shù)估計量不確定;(2)隨機項的影響

一、?0是條件均值E(Y|X=X0)或個值Y0的一個無偏估計對總體回歸函數(shù)E(Y|X=X0)=0+1X,X=X0時

E(Y|X=X0)=0+1X0于是可見,?0是條件均值E(Y|X=X0)的無偏估計。對總體回歸模型Y=0+1X+,當X=X0時于是

二、總體條件均值與個值預測值的置信區(qū)間

1、總體均值預測值的置信區(qū)間

由于

于是可以證明

因此

其中于是,在1-的置信度下,總體均值E(Y|X0)的置信區(qū)間為

2、總體個值預測值的預測區(qū)間

由Y0=0+1X0+

知:

于是

式中

:從而在1-的置信度下,Y0的置信區(qū)間為

在上述收入-消費支出例中,得到的樣本回歸函數(shù)為

則在X0=1000處,?0=–103.172+0.777×1000=673.84

因此,總體均值E(Y|X=1000)的95%的置信區(qū)間為:

673.84-2.30661.05<E(Y|X=1000)<673.84+2.30661.05或

(533.05,814.62)

同樣地,對于Y在X=1000的個體值,其95%的置信區(qū)間為:

673.84-2.30661.05<Yx=1000<673.84+2.30661.05或(372.03,975.65)

總體回歸函數(shù)的置信帶(域)(confidenceband)個體的置信帶(域)

對于Y的總體均值E(Y|X)與個體值的預測區(qū)間(置信區(qū)間):(1)樣本容量n越大,預測精度越高,反之預測精度越低;(2)樣本容量一定時,置信帶的寬度當在X均值處最小,其附近進行預測(插值預測)精度越大;X越遠離其均值,置信帶越寬,預測可信度下降。第四節(jié)實例一、中國居民人均消費模型

二、時間序列問題

一、中國居民人均消費模型

考察中國居民收入與消費支出的關系。GDPP:人均國內(nèi)生產(chǎn)總值(1990年不變價)CONSP:人均居民消費(以居民消費價格指數(shù)(1990=100)縮減)。

該兩組數(shù)據(jù)是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論