應(yīng)用回歸分析(R語言版)(第2版) 課件 第4、5章 違背基本假設(shè)的情況、自變量的選擇與逐步回歸_第1頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第4、5章 違背基本假設(shè)的情況、自變量的選擇與逐步回歸_第2頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第4、5章 違背基本假設(shè)的情況、自變量的選擇與逐步回歸_第3頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第4、5章 違背基本假設(shè)的情況、自變量的選擇與逐步回歸_第4頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第4、5章 違背基本假設(shè)的情況、自變量的選擇與逐步回歸_第5頁
已閱讀5頁,還剩128頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章違背基本假設(shè)的幾種情況2024/4/2314.1異方差性產(chǎn)生的背景和原因4.2一元加權(quán)最小二乘估計(jì)4.3多元加權(quán)最小二乘估計(jì)4.4自相關(guān)性問題及其處理4.5BOX-COX變換4.6異常值與強(qiáng)影響點(diǎn)4.7本章小結(jié)與評(píng)注第4章違背基本假設(shè)的幾種情況2024/4/232Gauss-Markov條件誤差項(xiàng)具有相同的方差,且不相關(guān)4.1異方差性產(chǎn)生的背景和原因2024/4/2334.1.1異方差產(chǎn)生的原因例4-1居民收入與消費(fèi)水平有著密切的關(guān)系。用xi表示第i戶的收入量,yi表示第i戶的消費(fèi)額,一個(gè)簡(jiǎn)單的消費(fèi)模型為:yi=β0+β1xi+εi

i=1,2,…,n低收入的家庭購買差異性比較小,高收入的家庭購買行為差異就很大,導(dǎo)致消費(fèi)模型的隨機(jī)項(xiàng)εi具有不同的方差。4.1異方差性產(chǎn)生的背景和原因2024/4/2344.1.2異方差性帶來的問題

當(dāng)存在異方差時(shí),普通最小二乘估計(jì)存在以下問題:(1)參數(shù)估計(jì)值雖是無偏的,但不是最小方差線性無偏估計(jì);(2)參數(shù)的顯著性檢驗(yàn)失效;(3)回歸方程的應(yīng)用效果極不理想。4.2一元加權(quán)最小二乘估計(jì)2024/4/2354.2.1異方差性的檢驗(yàn)(一)殘差圖分析法

圖2-5(b)存在異方差4.2一元加權(quán)最小二乘估計(jì)2024/4/2364.2.1異方差性的檢驗(yàn)(二)等級(jí)相關(guān)系數(shù)法等級(jí)相關(guān)系數(shù)檢驗(yàn)法又稱斯皮爾曼(Spearman)檢驗(yàn),是一種應(yīng)用較廣泛的方法。這種檢驗(yàn)方法既可用于大樣本,也可用于小樣本,檢驗(yàn)有三個(gè)步驟。第一步,做y關(guān)于x的普通最小二乘回歸,求出εi的估計(jì)值,即ei的值。4.2一元加權(quán)最小二乘估計(jì)2024/4/2374.2.1異方差性的檢驗(yàn)(二)等級(jí)相關(guān)系數(shù)法第二步,取ei的絕對(duì)值,分別把xi和|ei|按遞增(或遞減)的次序分成等級(jí),按下式計(jì)算出等級(jí)相關(guān)系數(shù):其中,n為樣本容量,di為對(duì)應(yīng)于xi和|ei|的等級(jí)的差數(shù)。4.2一元加權(quán)最小二乘估計(jì)2024/4/2384.2.1異方差性的檢驗(yàn)(二)等級(jí)相關(guān)系數(shù)法第三步,做等級(jí)相關(guān)系數(shù)的顯著性檢驗(yàn)。在n>8的情況下,用下式對(duì)樣本等級(jí)相關(guān)系數(shù)rs進(jìn)行t檢驗(yàn)。檢驗(yàn)統(tǒng)計(jì)量為:如果|t|≤tα/2(n-2)可認(rèn)為異方差性問題不存在;如果|t|>tα/2(n-2),說明xi與|ei|之間存在系統(tǒng)關(guān)系,異方差性問題存在。4.2一元加權(quán)最小二乘估計(jì)2024/4/239例4-3設(shè)某地區(qū)的居民收入與儲(chǔ)蓄額的歷史統(tǒng)計(jì)數(shù)據(jù)見下頁表4-1。(1)用普通最小二乘法建立儲(chǔ)蓄y與居民收入x的回歸方程,

并畫出殘差散點(diǎn)圖;(2)診斷該問題是否存在異方差性。

4.2一元加權(quán)最小二乘估計(jì)2024/4/23102024/4/2311data4.3<-read.csv("D:/data4.3.csv",head=TRUE)lm4.3<-lm(y~x,data=data4.3)#建立回歸方程summary(lm4.3)e<-resid(lm4.3)#計(jì)算殘差attach(data4.3)#將該數(shù)據(jù)框添加到R的搜索路徑plot(x,e,ylim=c(-500,500))#畫散點(diǎn)圖,ylim用于調(diào)整縱坐標(biāo)的范圍abline(h=c(0),lty=5)#添加虛直線e=0detach(data4.3)#與attach()相對(duì)應(yīng),將數(shù)據(jù)框從搜索路徑中移除4.2一元加權(quán)最小二乘估計(jì)解:(1)首先用R軟件建立回歸方程并畫散點(diǎn)圖,相應(yīng)的代碼如下:4.2一元加權(quán)最小二乘估計(jì)2024/4/2312圖4-1殘差圖運(yùn)行上述代碼得到回歸方程的回歸系數(shù)、回歸方程的顯著性檢驗(yàn)結(jié)果(見課本93頁)、殘差及殘差圖4-1,其中殘差列在表4-1中。從殘差圖看出,誤差項(xiàng)具有明顯的異方差性,誤差隨著x

的增加呈現(xiàn)出增加的態(tài)勢(shì)。4.2一元加權(quán)最小二乘估計(jì)2024/4/2313給定顯著性水平0.05,查得臨界值t0.025(29)=2.045,由

t=5.076>2.045,認(rèn)為殘差絕對(duì)值與自變量顯著相關(guān),誤差項(xiàng)存在異方差。(2)計(jì)算等級(jí)相關(guān)系數(shù)。方法一:手工計(jì)算。首先由表4-1中計(jì)算的di可得,

然后,代入等級(jí)相關(guān)系數(shù)的計(jì)算公式得2024/4/23144.2一元加權(quán)最小二乘估計(jì)(2)計(jì)算等級(jí)相關(guān)系數(shù)。方法二:使用R軟件計(jì)算。首先需要計(jì)算出殘差絕對(duì)值,然后以cor.test

語句進(jìn)行Spearman等級(jí)相關(guān)性檢驗(yàn),計(jì)算代碼及輸出結(jié)果如下:abse<-abs(e)#計(jì)算殘差e的絕對(duì)值cor.test(data4.3$x,abse,alternative="two.sided“,method="spearman”)#記號(hào)$用來選取數(shù)據(jù)框中的某個(gè)特定變量等級(jí)相關(guān)系數(shù)P值<0.05拒絕原假設(shè)4.2一元加權(quán)最小二乘估計(jì)2024/4/2315

Spearman等級(jí)相關(guān)系數(shù)可以反映非線性相關(guān)的情況,Pearson簡(jiǎn)單相關(guān)系數(shù)不能反映非線性相關(guān)的情況。例如,x與y的取值見下表,具有完全的曲線相關(guān)關(guān)系。容易計(jì)算出y與x的簡(jiǎn)單相關(guān)系數(shù)r=0.9746,而y與x的等級(jí)相關(guān)系數(shù)rs=1,說明等級(jí)相關(guān)系數(shù)可以如實(shí)反映單調(diào)遞增或單調(diào)遞減趨勢(shì)變量間的相關(guān)性。序號(hào)12345678910x12345678910y1491625364964811004.2一元加權(quán)最小二乘估計(jì)2024/4/2316

4.2.2一元加權(quán)最小二乘估計(jì)消除異方差性的方法通常有:加權(quán)最小二乘法,Box-Cox變換法(參考文獻(xiàn)[1])方差穩(wěn)定性變換法加權(quán)最小二乘法(WeightedLeastSquare,簡(jiǎn)記為WLS)是一種最常用的消除異方差性的方法。4.2一元加權(quán)最小二乘估計(jì)2024/4/23174.2.2一元加權(quán)最小二乘估計(jì)一元線性回歸普通最小二乘法的殘差平方和為:

一元線性回歸的加權(quán)最小二乘的離差平方和為:

4.2一元加權(quán)最小二乘估計(jì)2024/4/2318

加權(quán)最小二乘估計(jì)為:

其中,

是自變量的加權(quán)平均;

是因變量的加權(quán)平均。

4.2一元加權(quán)最小二乘估計(jì)2024/4/2319在實(shí)際問題中,誤差項(xiàng)的方差是未知的,常與自變量x的冪函數(shù)xm成比例,其中m是待定的未知參數(shù)。此時(shí)權(quán)函數(shù)為所以誤差項(xiàng)的方差較大的觀測(cè)值接受較小的權(quán)數(shù);誤差項(xiàng)的方差較小的觀測(cè)值接受較大的權(quán)數(shù)。為了消除異方差的影響,觀測(cè)值的權(quán)數(shù)應(yīng)該是觀測(cè)值誤差項(xiàng)方差的倒數(shù),即4.2一元加權(quán)最小二乘估計(jì)2024/4/23204.2.3尋找最優(yōu)權(quán)函數(shù)尋找最優(yōu)的權(quán)函數(shù),即為確定m

的取值,使回歸方程最優(yōu)。一般情況下,冪指數(shù)m的取值為-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0,也可以根據(jù)實(shí)際情況對(duì)其進(jìn)行調(diào)整。此處我們以對(duì)數(shù)似然統(tǒng)計(jì)量作為衡量回歸方程優(yōu)劣的標(biāo)準(zhǔn),計(jì)算不同的m值對(duì)應(yīng)的對(duì)數(shù)似然值,取使其最大者。利用R軟件確定冪指數(shù)m的最優(yōu)取值2024/4/2321利用R軟件確定冪指數(shù)m的最優(yōu)取值的計(jì)算代碼如下:4.2一元加權(quán)最小二乘估計(jì)s<-seq(-2,2,0.5)#生成序列-2.0,-1.5,-1.0,…,1.5,2.0result1<-vector(length=9,mode="list")#生成一個(gè)列表向量,以存儲(chǔ)下面循環(huán)過程中的回歸方程估計(jì)的對(duì)數(shù)似然統(tǒng)計(jì)量結(jié)果result2<-vector(length=9,mode="list")#生成一個(gè)列表向量,以存儲(chǔ)下面循環(huán)過程中所建立回歸方程的估計(jì)系數(shù)及顯著性檢驗(yàn)等結(jié)果for(jin1:9){w<-data4.3$x^(-s[j])#計(jì)算權(quán)向量lm4<-lm(y~x,weights=w,data4.3)#使用加權(quán)最小二乘法建立回歸方程result1[[j]]<-logLik(lm4)#將第j次計(jì)算的對(duì)數(shù)似然統(tǒng)計(jì)量保存在result1的第j個(gè)元素中result2[[j]]<-summary(lm4)}#將j次建立的回歸方程的結(jié)果保存在result2的第j個(gè)元素中result1#輸出所有的對(duì)數(shù)似然統(tǒng)計(jì)量4.2一元加權(quán)最小二乘估計(jì)2024/4/2322

運(yùn)行上述代碼,得到輸出結(jié)果如下,從結(jié)果中可看出第8個(gè)對(duì)數(shù)似然估計(jì)的值是最大的,對(duì)應(yīng)的m=1.5。2024/4/23234.2一元加權(quán)最小二乘估計(jì)輸出result2中保存的第8個(gè)回歸模型的結(jié)果,可看到R2=0.9359,F(xiàn)值=423.7;而普通最小二乘估計(jì)的R2=0.912,F(xiàn)值=300.7。這說明加權(quán)最小二乘估計(jì)的效果好于普通最小二乘估計(jì)的效果。4.2一元加權(quán)最小二乘估計(jì)2024/4/2324

圖4-2加權(quán)最小二乘殘差圖殘差圖比較圖4-1普通殘差圖和圖4-2加權(quán)最小二乘殘差圖,我們可能看不出兩張圖之間的差異。這是否表明加權(quán)最小二乘回歸沒有達(dá)到效果?4.2一元加權(quán)最小二乘估計(jì)2024/4/2325進(jìn)一步計(jì)算出31組數(shù)據(jù)的普通殘差ei和加權(quán)最小二乘殘差eiw,比較兩者數(shù)值的差異,由此來說明加權(quán)最小二乘法的作用。這個(gè)例子共有31對(duì)數(shù)據(jù),把數(shù)據(jù)分為3組,第1~10對(duì)數(shù)據(jù)為第1組,是小方差組;第11~21對(duì)數(shù)據(jù)為第2組,是中等方差組;第22~31對(duì)數(shù)據(jù)為第3組,是大方差組。(殘差數(shù)值列于下面三頁)序號(hào)yixiwieieiw小方差組126487771.2161E-06169211210592101.1314E-06-271439099541.0069E-06-105-664131105089.2837E-07-111-745122109798.6927E-07-159-1246107119127.6917E-07-253-2217406127476.9485E-07-2548503134996.3760E-078359431142695.8669E-07-129-10510588155225.1710E-07-78-584.2一元加權(quán)最小二乘估計(jì)

2024/4/2326序號(hào)yixiwieieiw中等方差組11898167304.6212E-0713014612950176634.2599E-0710311613779185753.9501E-07-146-13514819196353.6346E-07-195-188151222211633.2481E-077880161702228802.8895E-07413409171578241272.6684E-07183176181654256042.4408E-07134122191400265002.3181E-07-195-211201829276702.1726E-07134115212200283002.1005E-074524314.2一元加權(quán)最小二乘估計(jì)

2024/4/2327序號(hào)yixiwieieiw大方差組222017274302.2012E-07343324232105295601.9676E-07250225241600281502.1173E-07-135-156252250321001.7388E-07180147262420325001.7068E-07317281272570352501.5110E-07234190281720335001.6309E-07-468-507291900360001.4640E-07-500-546302100362001.4519E-07-317-364312300382001.3394E-07-286-3404.2一元加權(quán)最小二乘估計(jì)

2024/4/2328回歸模型存在異方差時(shí),加權(quán)最小二乘估計(jì)只是對(duì)普通最小二乘的改進(jìn),這種改進(jìn)可能是細(xì)微的,不能理解為加權(quán)最小二乘估計(jì)一定會(huì)得到與普通最小二乘估計(jì)截然不同的回歸方程,或者一定有大幅度的改進(jìn)。加權(quán)最小二乘以犧牲大方差項(xiàng)的擬合效果為代價(jià)改善了小方差項(xiàng)的擬合效果,這也并不總是研究者需要的。在社會(huì)經(jīng)濟(jì)現(xiàn)象中,通常變量取值大時(shí)方差也大,在以經(jīng)濟(jì)總量為研究目標(biāo)時(shí),更關(guān)心變量取值大的項(xiàng),而普通最小二乘恰好能滿足這個(gè)要求。所以在這樣的一些特定場(chǎng)合下,即使數(shù)據(jù)存在異方差,也仍然可以選擇使用普通最小二乘估計(jì)。2024/4/23294.2一元加權(quán)最小二乘估計(jì)

4.3多元加權(quán)最小二乘2024/4/2330易得加權(quán)最小二乘估計(jì)(WLSE)的矩陣表達(dá)式4.3.1多元加權(quán)最小二乘估計(jì)對(duì)于一般的多元線性回歸模型,當(dāng)誤差項(xiàng)εi存在異方差時(shí),加權(quán)離差平方和為其中4.3多元加權(quán)最小二乘估計(jì)2024/4/2331通常取權(quán)函數(shù)W為某個(gè)自變量xj(j=1,2,…,p)的冪函數(shù),即。那么在x1,x2,…,xp這p個(gè)自變量中應(yīng)該取哪一個(gè)?這只需計(jì)算每個(gè)自變量xj與普通殘差的等級(jí)相關(guān)系數(shù),選取等級(jí)相關(guān)系數(shù)最大的自變量構(gòu)造權(quán)函數(shù)。4.3.2權(quán)函數(shù)的確定方法4.3多元加權(quán)最小二乘估計(jì)2024/4/2332例4-4續(xù)例3-2,研究北京市各經(jīng)濟(jì)開發(fā)區(qū)經(jīng)濟(jì)發(fā)展與招商投資的關(guān)系。因變量y為各開發(fā)區(qū)的銷售收入(百萬元),x1為截至1998年底各開發(fā)區(qū)累計(jì)招商數(shù)目,x2為招商企業(yè)注冊(cè)資本(百萬元)。計(jì)算出普通殘差的絕對(duì)值abse=|ei|與x1、x2的等級(jí)相關(guān)系數(shù),re1=0.443,re2=0.721,因而選取x2構(gòu)造權(quán)函數(shù)。仿照例4-3,首先在?2.0,…,2.0的范圍內(nèi)尋找m

的最優(yōu)取值,得到的計(jì)算結(jié)果為m=2時(shí)取得最優(yōu)估計(jì),由于是在范圍[?2,2]的邊界,因而應(yīng)該擴(kuò)大m

的取值范圍重新計(jì)算。4.3多元加權(quán)最小二乘估計(jì)

2024/4/2333取m從1到5,步長(zhǎng)仍為0.5重新計(jì)算,得m的最優(yōu)值為m=2.5,輸出結(jié)果如下。4.3多元加權(quán)最小二乘估計(jì)

2024/4/2334加權(quán)最小二乘的R2=0.84941,F(xiàn)值=33.84普通最小二乘的R2=0.842,F(xiàn)值=31.96說明加權(quán)最小二乘估計(jì)的擬合效果略好于普通最小二乘。加權(quán)最小二乘的回歸方程為:普通最小二乘的回歸方程為:4.4自相關(guān)性問題及其處理2024/4/2335

如果一個(gè)回歸模型的隨機(jī)誤差項(xiàng)cov(εi

,εj)≠0,i,j=1,2,…,n則稱隨機(jī)誤差項(xiàng)之間存在著自相關(guān)現(xiàn)象。這里的自相關(guān)現(xiàn)象不是指兩個(gè)或兩個(gè)以上的變量之間的相關(guān),而指的是一個(gè)變量前后期數(shù)值之間存在的相關(guān)關(guān)系?!?.4自相關(guān)性問題及其處理2024/4/23361.遺漏關(guān)鍵變量時(shí)會(huì)產(chǎn)生序列的自相關(guān)性。2.經(jīng)濟(jì)變量的滯后性會(huì)給序列帶來自相關(guān)性。3.采用錯(cuò)誤的回歸函數(shù)形式也可能引起自相關(guān)性。4.蛛網(wǎng)現(xiàn)象(Cobwebphenomenon)可能帶來序列的自相關(guān)性。5.因?qū)?shù)據(jù)加工整理而導(dǎo)致誤差項(xiàng)之間產(chǎn)生自相關(guān)性。4.4.1自相關(guān)性產(chǎn)生的背景和原因

4.4自相關(guān)性問題及其處理2024/4/23374.4.2自相關(guān)性帶來的問題

1.參數(shù)的估計(jì)值不再具有最小方差線性無偏性。2.均方誤差MSE可能嚴(yán)重低估誤差項(xiàng)的方差。3.容易導(dǎo)致對(duì)t值評(píng)價(jià)過高,常用的F檢驗(yàn)和t檢驗(yàn)失效。4.當(dāng)存在序列相關(guān)時(shí),仍然是β的無偏估計(jì)量,但在任一特定的樣本中,可能嚴(yán)重歪曲β的真實(shí)情況,即最小二乘估計(jì)量對(duì)抽樣波動(dòng)變得非常敏感。5.如果不加處理地運(yùn)用普通最小二乘法估計(jì)模型參數(shù),用此模型進(jìn)行預(yù)測(cè)和結(jié)構(gòu)分析將會(huì)帶來較大的方差甚至錯(cuò)誤的解釋。4.4自相關(guān)性問題及其處理2024/4/23384.4.3自相關(guān)性的診斷

(一)圖示檢驗(yàn)法

1.繪制(et,et-1)的散點(diǎn)圖。

圖4-3§4.4自相關(guān)性問題及其處理2024/4/2339

(一)圖示檢驗(yàn)法

2.按照時(shí)間順序繪制回歸殘差項(xiàng)et的圖形。4.4.3自相關(guān)性的診斷

4.4自相關(guān)性問題及其處理2024/4/2340

(二)自相關(guān)系數(shù)法自相關(guān)系數(shù)的估計(jì)值為

4.4.3自相關(guān)性的診斷

誤差序列ε1,ε2,…,εn的自相關(guān)系數(shù)定義為取值范圍是[-1,1]§4.4自相關(guān)性問題及其處理2024/4/2341(三)DW檢驗(yàn)DW檢驗(yàn)是J.Durbin和G.S.Watson于1951年提出的一種適用于小樣本的一種檢驗(yàn)方法。DW檢驗(yàn)只能用于檢驗(yàn)隨機(jī)擾動(dòng)項(xiàng)具有一階自回歸形式的序列相關(guān)問題。4.4.3自相關(guān)性的診斷

隨機(jī)擾動(dòng)項(xiàng)的一階自回歸形式為εt=ρεt?1+ut其中ut是不相關(guān)序列。為了檢驗(yàn)序列的相關(guān)性,構(gòu)造的假設(shè)是H0:ρ=04.4自相關(guān)性問題及其處理2024/4/2342(三)DW檢驗(yàn)定義DW統(tǒng)計(jì)量為4.4.3自相關(guān)性的診斷

4.4自相關(guān)性問題及其處理2024/4/2343得DW的取值范圍為:0≤DW≤4(三)DW檢驗(yàn)由4.4.3自相關(guān)性的診斷

4.4自相關(guān)性問題及其處理2024/4/2344DW值與的對(duì)應(yīng)關(guān)系DW誤差項(xiàng)的自相關(guān)性-14完全負(fù)自相關(guān)(-1,0)(2,4)負(fù)自相關(guān)02無自相關(guān)(0,1)(0,2)正自相關(guān)10完全正自相關(guān)(三)DW檢驗(yàn)4.4.3自相關(guān)性的診斷

4.4自相關(guān)性問題及其處理2024/4/2345根據(jù)樣本容量n和解釋變量的數(shù)目k(這里包括常數(shù)項(xiàng)),查DW分布表,得臨界值dL和dU,然后依下列準(zhǔn)則考察計(jì)算得到的DW值,以確定模型的自相關(guān)狀態(tài)。0≤DW≤dL,誤差項(xiàng)ε1,ε2,…,εn間存在正相關(guān);dL<DW≤dU,不能判定是否有自相關(guān);dU<DW<4-dU,誤差項(xiàng)ε1,ε2,…,εn間無自相關(guān);4-dU

≤DW<4-dL,不能判定是否有自相關(guān);4-dL

≤DW≤4,誤差項(xiàng)ε1,ε2,…,εn間存在負(fù)相關(guān)。(三)DW檢驗(yàn)4.4.3自相關(guān)性的診斷

4.4自相關(guān)性問題及其處理2024/4/2346(三)DW檢驗(yàn)4.4.3自相關(guān)性的診斷

4.4自相關(guān)性問題及其處理2024/4/23474.4自相關(guān)性問題及其處理2024/4/2348(1)DW檢驗(yàn)有一個(gè)不能確定的區(qū)域,一旦DW值落在這個(gè)區(qū)域,就無法判斷,這時(shí)只有增大樣本容量或選取其他方法。(2)DW統(tǒng)計(jì)量的上、下界表要求n>15,這是因?yàn)闃颖救绻傩±脷埐罹秃茈y對(duì)自相關(guān)的存在性做出比較正確的診斷。(3)DW檢驗(yàn)不適應(yīng)隨機(jī)項(xiàng)具有高階序列相關(guān)的檢驗(yàn)。4.4.3自相關(guān)性的診斷

(三)DW檢驗(yàn)的缺點(diǎn)和局限性4.4自相關(guān)性問題及其處理2024/4/23494.4.4自相關(guān)問題的處理方法

(一)迭代法以一元線性回歸模型為例,設(shè)一元線性回歸模型的誤差項(xiàng)存在一階自相關(guān)yt=β0+β1xt+εtεt=ρεt-1+ut4.4自相關(guān)性問題及其處理2024/4/2350根據(jù)回歸模型yt=β0+β1xt+εt有yt-1=β0+β1xt-1+εt-1則

yt-ρyt-1=(β0-ρβ0)+β1(xt-ρxt-1)+(εt-ρεt-1) 令

4.4.4自相關(guān)問題的處理方法

(一)迭代法有不相關(guān)的誤差項(xiàng),但該式中ρ未知得(4.23)4.4自相關(guān)性問題及其處理2024/4/2351自相關(guān)系數(shù)ρ用公式估計(jì),然后用變換因變量與變換自變量作普通最小二乘回歸。如果誤差項(xiàng)確實(shí)是一階自相關(guān),通過以上變換,回歸模型已經(jīng)消除自相關(guān)。實(shí)際問題中,有時(shí)誤差項(xiàng)并不是簡(jiǎn)單的一階自相關(guān),而是更復(fù)雜的自相關(guān)形式。此時(shí)需要對(duì)變換后得到的回歸模型的殘差做DW檢驗(yàn),如果誤差項(xiàng)仍存在自相關(guān),需要繼續(xù)重復(fù)使用迭代法,直至最終消除誤差項(xiàng)自相關(guān)。這種通過迭代消除自相關(guān)的過程正是迭代法名稱的由來。4.4.4自相關(guān)問題的處理方法

(一)迭代法4.4自相關(guān)性問題及其處理2024/4/2352一階差分法通常適用于原模型存在較高程度的一階自相關(guān)的情況。當(dāng)ρ=1時(shí),得yt

-yt-1=β1(xt

-xt-1)+εt

-εt-1以Δyt

=yt

-yt-1,Δxt

=xt

-xt-1代之,得Δyt=β1Δxt+ut上式是不帶有常數(shù)項(xiàng)的回歸方程,則有

在式y(tǒng)t-ρyt-1=(β0-ρβ0)+β1(xt-ρxt-1)+(εt-ρεt-1)中,4.4.4自相關(guān)問題的處理方法

(二)差分法4.4自相關(guān)性問題及其處理2024/4/2353一階差分法的應(yīng)用條件是自相關(guān)系數(shù)ρ=1,在實(shí)際應(yīng)用中,ρ接近1時(shí)我們就采用差分法而不用迭代法,這有兩個(gè)原因。第一,迭代法需要用樣本估計(jì)自相關(guān)系數(shù)ρ,對(duì)ρ的估計(jì)誤差會(huì)影響迭代法的使用效率;第二,差分法比迭代法簡(jiǎn)單,人們?cè)诮r(shí)序數(shù)據(jù)的回歸模型時(shí),更習(xí)慣于用差分法。但是完全的ρ=1情況幾乎是見不到的,實(shí)際應(yīng)用時(shí)ρ較大就行!(二)差分法例4-5續(xù)例2-2,表2-2的數(shù)據(jù)是時(shí)間序列數(shù)據(jù),因變量y為城鎮(zhèn)家庭平均每人全年消費(fèi)性支出,自變量x為城鎮(zhèn)家庭平均每人可支配收入。加載lmtest包后用dwtest()函數(shù)檢驗(yàn)該回歸方程的自相關(guān)性,得到DW=0.4297,

P

值=1.252e?08,故在顯著性水平為0.05時(shí)拒絕原假設(shè),認(rèn)為誤差項(xiàng)存在自相關(guān)性。另外,由圖2-7中可以看到殘差由明顯的趨勢(shì)變動(dòng),表明誤差項(xiàng)存在自相關(guān)。自相關(guān)系數(shù)ρ≈1?1/2DW=0.7852,說明誤差項(xiàng)存在高度自相關(guān)。2024/4/23544.4自相關(guān)性問題及其處理2024/4/2355(1)用迭代法消除自相關(guān)。依照式(4.23)計(jì)算變換因變量yt′與變換自變量xt′,結(jié)果如表4-6所示(見課本113頁)。然后用yt′對(duì)xt′作普通最小二乘回歸,計(jì)算結(jié)果見輸出結(jié)果4.6(見下頁),殘差et′列在表4-6中。從輸出結(jié)果4.6中看到,新回歸殘差et′的DW=2.2677,P=0.596,在0.05的顯著性水平下,不拒絕原假設(shè),認(rèn)為誤差項(xiàng)不存在自相關(guān)。誤差項(xiàng)ut的標(biāo)準(zhǔn)差,小于εt的標(biāo)準(zhǔn)差。yt′對(duì)xt′的回歸方程為4.4自相關(guān)性問題及其處理還原為原始變量的方程為2024/4/23564.4自相關(guān)性問題及其處理(2)用一階差分法消除自相關(guān)。首先計(jì)算差分Δyt=yt-yt-1,Δxt=xt-xt-1,差分結(jié)果列在表4-7中然后用Δyt對(duì)Δxt做過原點(diǎn)的最小二乘回歸,計(jì)算結(jié)果見輸出結(jié)果4.7(見下頁),其中殘差et′列在表4-7中。從輸出結(jié)果4.7中看到,新回歸殘差et′的DW=2.3242,P=0.3723,在顯著性水平為0.05時(shí)認(rèn)為不存在自相關(guān)。誤差項(xiàng)ut的標(biāo)準(zhǔn)差,小于εt的標(biāo)準(zhǔn)差211.071。

Δyt對(duì)Δxt的回歸方程為:將Δyt=yt-yt-1,Δxt=xt-xt-1代入,還原為原始變量的方程

yt=yt-1+0.6319(xt-xt-1)(4.27)2024/4/23574.4自相關(guān)性問題及其處理2024/4/23584.4自相關(guān)性問題及其處理2024/4/23594.4自相關(guān)性問題及其處理4.4自相關(guān)性問題及其處理2024/4/2360(3)預(yù)測(cè)使用迭代法和差分法需要手工計(jì)算回歸預(yù)測(cè)值。計(jì)算的方法有兩種,下面以迭代法為例來說明這兩種計(jì)算方法。第一種:計(jì)算出后,再用計(jì)算出,它是隨機(jī)誤差項(xiàng)ut的估計(jì)值。在自相關(guān)回歸中,估計(jì)回歸預(yù)測(cè)值的一般性公式為2024/4/23614.4自相關(guān)性問題及其處理(3)預(yù)測(cè)方法二:對(duì)做修正在誤差項(xiàng)沒有自相關(guān)時(shí),就是直接用作為回歸預(yù)測(cè)值?,F(xiàn)誤差項(xiàng)存在自相關(guān),需要從殘差et

中提取出有用的信息對(duì)做修正,其中是誤差項(xiàng)的估計(jì)值,是ut的估計(jì)值。注意其中的系數(shù)估計(jì)值和是按照關(guān)系式

推算的,并非普通最小二乘的估計(jì)值,殘差et也不是普通最小二乘的殘差。計(jì)算過程如下t=1時(shí),取t≥2時(shí),取2020年城鎮(zhèn)居民人均收入是x31=43834(元),則用迭代法計(jì)算的人均消費(fèi)額的預(yù)測(cè)值為:用第二種方法:兩種方法得到的結(jié)果完全一樣。2024/4/23624.4自相關(guān)性問題及其處理(3)預(yù)測(cè)4.5BOX-COX變換2024/4/2363BOX-COX變換(1964年)是對(duì)因變量y做如下變換此變換要求y的各分量都大于0,否則可用推廣的BOX-COX變換即先對(duì)y做平移,使得y+a的各個(gè)分量都大于0后再做變換。BOX-COX變換不僅可以處理異方差問題,也能處理自相關(guān)、誤差非正態(tài)等情況。λ不同,變換也不同,它是變換族

2024/4/23644.5BOX-COX變換找到合適的λ,使得變換后經(jīng)過計(jì)算可得λ的最大似然估計(jì)式中,令,對(duì)Lmax(λ)取對(duì)數(shù)并略去與λ無關(guān)的常數(shù)項(xiàng),可得2024/4/23654.5BOX-COX變換在R中,可調(diào)用MASS包中的boxcox()函數(shù),計(jì)算出一系列λ對(duì)應(yīng)的對(duì)數(shù)似然函數(shù)值lnLmax(λ),其中使對(duì)數(shù)似然函數(shù)值達(dá)到最大的λ即為需要的λ值。1.消除異方差繼續(xù)討論例3-2,使用BOX-COX變換對(duì)因變量數(shù)據(jù)做變換,并對(duì)變換后的值關(guān)于自變量建立線性回歸模型。首先,使用R中boxcox()函數(shù)尋找使對(duì)數(shù)似然函數(shù)lnLmax(λ)取得最大值的λ。然后,對(duì)y做變換,對(duì)變換后的y關(guān)于x1和x2做線性回歸。2024/4/23664.5BOX-COX變換計(jì)算代碼library(MASS)#加載MASS包bc3.2<-boxcox(y~x1+x2,data=data3.2,lambda=seq(-2,2,0.01))#λ的取值為區(qū)間[-2,2]上步長(zhǎng)為0.01的值,bc3.2中保存了λ的值和對(duì)應(yīng)的對(duì)數(shù)似然函數(shù)值lambda<-bc3.2$x[which.max(bc3.2$y)]lambday_bc<-(data3.2$y^lambda-1)/lambda#計(jì)算變換后的y值lm3.2_bc<-lm(y_bc~x1+x2,data=data3.2)#使用變換后的y值建立回歸方程summary(lm3.2_bc)abse<-abs(resid(lm3.2_bc))#計(jì)算殘差的絕對(duì)值cor.test(data3.2$x1,abse,method="spearman")#計(jì)算殘差與x1的相關(guān)系數(shù)cor.test(data3.2$x2,abse,method=“spearman”)#計(jì)算殘差與x2的相關(guān)系數(shù)2024/4/23674.5BOX-COX變換運(yùn)行上述代碼得到的輸出結(jié)果如下:2024/4/23684.5BOX-COX變換根據(jù)輸出結(jié)果,使似然函數(shù)取值最大的λ=0.47,變換后的y(0.47)對(duì)x1,x2的回歸

方程為還原為原始變量的方程為2024/4/23694.5BOX-COX變換1.消除異方差由輸出結(jié)果可看到,殘差絕對(duì)值與x1和x2的等級(jí)相關(guān)系數(shù)t檢驗(yàn)的P值分別為0.0623,0.3401,在顯著性水平為0.05時(shí)都不顯著,故可認(rèn)為異方差被消除。另外,經(jīng)過BOX-COX變換后的R2=0.845,F(xiàn)值=32.72;而普通最小二乘的R2=0.842,F(xiàn)值=31.96;加權(quán)最小二乘的R2=0.849,F(xiàn)值=33.84。這說明用BOX-COX變換和加權(quán)最小二乘估計(jì)都能消除異方差,但對(duì)于本例的數(shù)據(jù)用加權(quán)最小二乘的擬合效果要略好。

2024/4/23704.5BOX-COX變換2.消除自相關(guān)討論例2-2,使用BOX-COX變換以消除殘差序列自相關(guān),計(jì)算代碼如下:bc2.2<-boxcox(y~x,data=data2.2,lambda=seq(-2,2,0.01))#λ的取值為區(qū)間[-2,2]上步長(zhǎng)為0.01的值lambda<-bc2.2$x[which.max(bc2.2$y)]y_bc<-(data2.2$y^lambda-1)/lambdasummary(lm2.2_bc<-lm(y_bc~x-1,data=data2.2))lambda2024/4/23714.5BOX-COX變換2.消除自相關(guān)運(yùn)行上述代碼,得到輸出結(jié)果如下:2024/4/23724.5BOX-COX變換2.消除自相關(guān)

根據(jù)輸出結(jié)果4.9可知,使似然函數(shù)取值最大的λ=1.09,變換后的y(1.09)對(duì)x的回歸

方程為還原為原始變量的方程為對(duì)變換后的回歸模型,可計(jì)算得回歸殘差的DW=1.3429,P值=0.0616。在顯著性水平為0.05時(shí)不拒絕原假設(shè),認(rèn)為新的殘差序列不存在自相關(guān),這表明BOX-COX方法消除了序列自相關(guān)。4.6異常值與強(qiáng)影響點(diǎn)

2024/4/2373異常值分為兩種情況:一種是關(guān)于因變量y異常;另一種是關(guān)于自變量x異常。4.6.1關(guān)于因變量y異常在殘差分析中,認(rèn)為超過的殘差為異常值。標(biāo)準(zhǔn)化殘差學(xué)生化殘差其中,hii是帽子矩陣H=X(X'X)?1X'的主對(duì)角線元素。4.6異常值與強(qiáng)影響點(diǎn)

2024/4/2374當(dāng)數(shù)據(jù)中存在關(guān)于y的異常觀測(cè)值時(shí),異常值會(huì)把回歸線拉向自身,使異常值本身的殘差減少,而其余觀測(cè)值的殘差增大,這時(shí)回歸殘差的標(biāo)準(zhǔn)差也會(huì)增大,因而用“3σ”準(zhǔn)則不能正確分辨出異常值。解決這個(gè)問題的方法是改用刪除殘差。刪除殘差的構(gòu)造思想是:在計(jì)算第i個(gè)觀測(cè)值的殘差時(shí),用刪除掉第

i個(gè)觀測(cè)值的其余n?1個(gè)觀測(cè)值擬合回歸方程,計(jì)算出第

i個(gè)觀測(cè)值的刪除擬合值,它與第i個(gè)值無關(guān),定義第i個(gè)觀測(cè)值的刪除殘差為。4.6.1關(guān)于因變量y異常4.6異常值與強(qiáng)影響點(diǎn)

2024/4/2375刪除殘差e(i)相比普通殘差更能如實(shí)反映第i個(gè)觀測(cè)值的異常性,可以證明

4.6.1關(guān)于因變量y異常進(jìn)一步可以給出第

i個(gè)觀測(cè)值的刪除學(xué)生化殘差,記為SRE(i)。4.6異常值與強(qiáng)影響點(diǎn)

2024/4/2376在實(shí)際運(yùn)用中,可以直接用R軟件中的rstudent()函數(shù)計(jì)算出刪除學(xué)生化殘差SRE(i)的數(shù)值,|SRE(i)|>3的觀測(cè)值即判定為異常值。rstudent()函數(shù)的使用方式為rstudent(model),其中model為所建立的回歸模型。

4.6.1關(guān)于因變量y異常4.6異常值與強(qiáng)影響點(diǎn)

2024/4/23774.6.2關(guān)于自變量x的異常值對(duì)回歸的影響在D(ei)=(1?hii)σ2

中,hii為帽子矩陣中主對(duì)角線的第

i個(gè)元素,它是調(diào)節(jié)ei方差大小的杠桿,因而稱hii為第i個(gè)觀測(cè)值的杠桿值。較大的杠桿值的殘差偏小,這是因?yàn)楦軛U值大的觀測(cè)點(diǎn)遠(yuǎn)離樣本中心,能夠把回歸方程拉向自身,因而把杠桿值大的樣本點(diǎn)稱為強(qiáng)影響點(diǎn)。由于強(qiáng)影響點(diǎn)并不總是y的異常值點(diǎn),故引入庫克距離來判斷強(qiáng)影響點(diǎn)是否為異常值點(diǎn),庫克距離的計(jì)算公式為:反映杠桿值與殘差的綜合效應(yīng)2024/4/23784.6異常值與強(qiáng)影響點(diǎn)

4.6.2關(guān)于自變量x的異常值對(duì)回歸的影響由于,則杠桿值hii的平均值為因此,如果一個(gè)杠桿值hii大于2倍或3倍的,就認(rèn)為是大的。對(duì)于庫克距離,一個(gè)粗略的標(biāo)準(zhǔn)是:當(dāng)Di<0.5時(shí),認(rèn)為不算異常值點(diǎn);當(dāng)Di>1時(shí),認(rèn)為是異常值點(diǎn)。在R軟件中可以直接用hatvalues()函數(shù)計(jì)算杠桿值hii,用cooks.distance()函數(shù)計(jì)算庫克距離。4.6異常值與強(qiáng)影響值

2024/4/23794.6.3異常值實(shí)例分析以例3-2的北京各開發(fā)區(qū)的數(shù)據(jù)為例,做異常值的診斷分析。分別計(jì)算普通殘差ei,學(xué)生化殘差SREi,刪除學(xué)生化殘差SRE(i),杠桿值hii,庫克距離Di,見下表4-8。4.6異常值與強(qiáng)影響值

2024/4/23804.6.3異常值實(shí)例分析從表4-8中看到,絕對(duì)值最大的學(xué)生化殘差為SRE15=2.613,小于3,因而根據(jù)學(xué)生化殘差診斷認(rèn)為數(shù)據(jù)不存在異常值。絕對(duì)值最大的刪除學(xué)生化殘差為SRE(15)=3.81,因而根據(jù)學(xué)生化殘差診斷認(rèn)為第15個(gè)數(shù)據(jù)為異常值。其杠桿值h15=0.406,而=(p+1)/n=3/15=0.2,因此h15>2,同時(shí)庫克距離D15=1.555>1,可知第15個(gè)數(shù)據(jù)為異常值是由自變量異常與因變量異常兩個(gè)原因共同引起的。4.6異常值與強(qiáng)影響值

2024/4/2381診斷出異常值后,要進(jìn)一步判斷引起異常值的原因,常見的引起異常值的原因及相應(yīng)的處理方法列于表4-9。4.6異常值與強(qiáng)影響值

2024/4/2382對(duì)例3-2的數(shù)據(jù),經(jīng)過核實(shí)認(rèn)為不存在登記誤差和測(cè)量誤差。然后,刪除第15組數(shù)據(jù),用其余14組數(shù)據(jù)擬合回歸方程,發(fā)現(xiàn)第6組數(shù)據(jù)的刪除學(xué)生化殘差增加為SRE(6)=4.418,仍然存在異常值現(xiàn)象,因而認(rèn)為異常值不是由于數(shù)據(jù)的隨機(jī)誤差引起的。實(shí)際上,在4.3節(jié)中已經(jīng)診斷出本例數(shù)據(jù)存在異方差,應(yīng)該采用加權(quán)最小二乘回歸。權(quán)數(shù)為Wi

=x2-2.5

,用R軟件計(jì)算出加權(quán)最小二乘回歸的相關(guān)變量取值見表4-10(見下頁)。

4.6異常值與強(qiáng)影響值

2024/4/2383從表4-10中看到,采用加權(quán)最小二乘回歸后,刪除學(xué)生化殘差SRE(i)的絕對(duì)值最大者為|SRE(13)|=1.742,庫克距離小于0.5,說明數(shù)據(jù)沒有異常值。這個(gè)例子也說明了用加權(quán)最小二乘法處理異方差性問題的有效性。4.7本章小結(jié)與評(píng)注

2024/4/23844.7.1異方差問題出現(xiàn)異方差時(shí),消除異方差影響的方法也較多,用得最多的是加權(quán)最小二乘法。另外,也可以通過對(duì)變量進(jìn)行變換的方法消除異方差,如方差穩(wěn)定變換,常見的變量變換有:(1)如果σi2與E(yi)存在一定的比例關(guān)系,使用(2)如果σi與E(yi)存在一定的比例關(guān)系,使用(3)如果

與E(yi)存在一定的比例關(guān)系,使用注:方差穩(wěn)定變換在改變誤差項(xiàng)方差的同時(shí),也會(huì)改變誤差項(xiàng)的分布和回歸函數(shù)的形式。誤差項(xiàng)只是存在異方差時(shí),應(yīng)該采用加權(quán)最小二乘估計(jì);當(dāng)誤差項(xiàng)不僅存在異方差,而且誤差項(xiàng)不服從正態(tài)分布時(shí),應(yīng)該采用方差穩(wěn)定變換。4.7本章小結(jié)與評(píng)注

2024/4/23854.7.3異常值問題對(duì)異常觀測(cè)值,不能總是簡(jiǎn)單地剔除了事,有時(shí)異常觀測(cè)值是正確的,它說明了回歸模型為什么失敗。如果一個(gè)異常值數(shù)據(jù)是準(zhǔn)確的,但是找不到對(duì)它的合理解釋,那么與剔除這個(gè)觀測(cè)值相比,一種更穩(wěn)健的方法是抑制它的影響。最小絕對(duì)離差和法是一種穩(wěn)健估計(jì)方法,它具有對(duì)異常值和不合適模型不敏感的性質(zhì)。最小絕對(duì)離差和法是尋找使絕對(duì)離差和達(dá)到極小的參數(shù)的估計(jì)值,即

第5章自變量的選擇與逐步回歸2024/4/2386

5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響5.2所有子集回歸5.3逐步回歸5.4本章小結(jié)與評(píng)注第5章自變量選擇與逐步回歸

2024/4/2387從20世紀(jì)60年代開始,關(guān)于回歸自變量的選擇成為統(tǒng)計(jì)學(xué)中研究的熱點(diǎn)問題。統(tǒng)計(jì)學(xué)家們提出了許多回歸選元的準(zhǔn)則,并提出了許多行之有效的選元方法。本章從回歸選元對(duì)回歸參數(shù)估計(jì)和預(yù)測(cè)的影響開始,介紹自變量選擇常用的幾個(gè)準(zhǔn)則;扼要介紹所有子集回歸選元的幾個(gè)方法;詳細(xì)討論逐步回歸方法及其應(yīng)用。5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響2024/4/23885.1.1全模型和選模型

設(shè)研究某一實(shí)際問題涉及到對(duì)因變量有影響的因素共有m個(gè),回歸模型為:y=β0+β1x1+β2x2+…+βmxm+ε

(5.1)稱為全回歸模型。如果我們從所有可供選擇的m個(gè)變量中挑選出p個(gè),記為x1,x2,…,xp,構(gòu)成的回歸模型為:y=β0p+β1px1+β2px2+…+βppxp+εp

(5.2)稱模型(5.2)式為選模型。2024/4/2389模型選擇不當(dāng)會(huì)給參數(shù)估計(jì)和預(yù)測(cè)帶來什么影響?下面我們將分別給予討論。把模型(5.1)式的參數(shù)向量β

和σ2的估計(jì)記為:把模型(5.2)式的參數(shù)估計(jì)向量記為5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響5.1.1全模型和選模型

2024/4/23905.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響5.1.2自變量選擇對(duì)預(yù)測(cè)的影響性質(zhì)1在xj與xp+1,…,xm的相關(guān)系數(shù)不全為0時(shí),選模型回歸系數(shù)的最小二乘估計(jì)是全模型相應(yīng)參數(shù)的有偏估計(jì),即性質(zhì)2選模型的預(yù)測(cè)是有偏的。給定新自變量值

,因變量新值用選模型的預(yù)測(cè)值作為y0的預(yù)測(cè)值是有偏的,即。2024/4/23915.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響5.1.2自變量選擇對(duì)預(yù)測(cè)的影響性質(zhì)4

選模型的預(yù)測(cè)殘差有較小的方差。選模型的預(yù)測(cè)殘差,全模型的預(yù)測(cè)殘差為,其中y0=β0+β1x01+β2x02+…+βmx0m+ε0,則有D(e0p)≤D(e0m)。

性質(zhì)3選模型的參數(shù)估計(jì)有較小的方差。選模型的最小二乘參數(shù)估計(jì)為,全模型的最小二乘參數(shù)估計(jì)為,這一性質(zhì)說明

。5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響2024/4/2392性質(zhì)5記βm-p=(βp+1,…,βm)′,用全模型對(duì)βm-p

的最小二乘估計(jì)為,則在的條件下,E(e0p)2=D(e0p)+(E(e0p))2≤D(e0m),即選模型預(yù)測(cè)的均方誤差比全模型預(yù)測(cè)的方差更小。5.1.2自變量選擇對(duì)預(yù)測(cè)的影響性質(zhì)1和性質(zhì)2表明,在全模型正確時(shí),用選模型去建立回歸模型,參數(shù)估計(jì)值是有偏估計(jì),用其做預(yù)測(cè),預(yù)測(cè)值也是有偏的。性質(zhì)3和性質(zhì)4表明,用選模型去做預(yù)測(cè),殘差的方差比用全模型去做預(yù)測(cè)的方差小。性質(zhì)5說明即使全模型正確,但如果其中有一些自變量對(duì)因變量影響很小或回歸系數(shù)方差過大,則丟掉這些變量之后,用選模型去預(yù)測(cè)可以提高預(yù)測(cè)的精度。5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響2024/4/2393從上述性質(zhì)可以看到,一個(gè)好的回歸模型,并不是考慮的自變量越多越好。在建立回歸模型時(shí),選擇自變量的基本指導(dǎo)思想是“少而精”。丟掉了一些對(duì)因變量y有影響的自變量后,所付出的代價(jià)是估計(jì)量產(chǎn)生了有偏性。然而,盡管估計(jì)量是有偏的,但預(yù)測(cè)偏差的方差會(huì)下降。另外,如果保留下來的自變量有些對(duì)因變量無關(guān)緊要,那么,方程中包括這些變量會(huì)導(dǎo)致參數(shù)估計(jì)和預(yù)測(cè)的有偏性和精度降低。5.1.2自變量選擇對(duì)預(yù)測(cè)的影響5.2所有子集回歸2024/4/23945.2.1所有子集的數(shù)目有m個(gè)可供選擇的變量x1,x2,…,xm,由于每個(gè)自變量都有入選和不入選兩種情況,這樣y關(guān)于這些自變量的所有可能的回歸方程就有2m-1個(gè),這里要求回歸模型中至少包含一個(gè)自變量。從另一個(gè)角度看,從全部m個(gè)自變量中選出p>0個(gè)的方法共有組合數(shù),因而所有選模型的數(shù)目為2024/4/2395在第3章中從數(shù)據(jù)與模型擬合優(yōu)劣的直觀考慮出發(fā),認(rèn)為殘差平方和SSE最小的回歸方程就是最好的,還用復(fù)相關(guān)系數(shù)R來衡量回歸擬合的好壞。然而這兩種方法都有明顯的不足,這是因?yàn)?.2所有子集回歸5.2.2自變量選擇的幾個(gè)準(zhǔn)則2024/4/2396準(zhǔn)則1自由度調(diào)整復(fù)決定系數(shù)達(dá)到最大。

5.2所有子集回歸5.2.2自變量選擇的幾個(gè)準(zhǔn)則顯然有,隨著自變量的增加并不一定增大,盡管1?R2隨著變量的增加而減少,但由于其前面的系數(shù)(n?1)/(n?p?1)起折扣作用。從擬合角度追求最優(yōu),則所有回歸子集中最大者對(duì)應(yīng)的回歸方程就是最優(yōu)方程。2024/4/2397從另外一個(gè)角度考慮回歸的擬合效果,回歸誤差項(xiàng)方差σ2的無偏估計(jì)為:此無偏估計(jì)式中也加入了懲罰因子n-p-1,當(dāng)自變量個(gè)數(shù)從0開始增加時(shí),SSE逐漸減小,作為除數(shù)的懲罰因子n?p?1也隨之減小,只是自變量從0開始增加時(shí),SSE減小的速度快,當(dāng)自變量個(gè)數(shù)增加到一定數(shù)量后,SSE減小的幅度不大。實(shí)際上它等價(jià)于調(diào)整復(fù)決定系數(shù),容易證明5.2所有子集回歸5.2.2自變量選擇的幾個(gè)準(zhǔn)則5.2所有子集回歸2024/4/2398準(zhǔn)則2赤池信息量AIC達(dá)到最小。

AIC準(zhǔn)則是日本統(tǒng)計(jì)學(xué)家赤池(Akaike)1974年根據(jù)極大似然估計(jì)原理提出的一種較為一般的模型選擇準(zhǔn)則,人們稱它為Akaike信息量準(zhǔn)則(AkaikeInformationCriterion,簡(jiǎn)記為AIC)。AIC準(zhǔn)則既可用來作回歸方程自變量的選擇,又可用于時(shí)間序列分析中自回歸模型的定階上。由于該方法的廣泛應(yīng)用,使得赤池乃至日本統(tǒng)計(jì)學(xué)家在世界的聲譽(yù)大增。5.2.2自變量選擇的幾個(gè)準(zhǔn)則2024/4/2399設(shè)回歸模型的似然函數(shù)為L(zhǎng)(θ,x),θ的維數(shù)為p,x為隨機(jī)樣本(在回歸分析中樣本為y=(y1,y2,…,yn)′),則AIC定義為5.2所有子集回歸準(zhǔn)則2赤池信息量AIC達(dá)到最小。

式中,為θ

的最大似然估計(jì);p為未知參數(shù)的個(gè)數(shù)。由于似然函數(shù)越大的估計(jì)量越好,因而在回歸模型中使AIC達(dá)到最小的模型是最優(yōu)模型。2024/4/23100下面討論把AIC準(zhǔn)則用于回歸模型的選擇。假定回歸模型的隨機(jī)誤差項(xiàng)ε服從正態(tài)分布,即ε~N(0,σ2)。在該假定下,對(duì)數(shù)似然函數(shù)為5.2所有子集回歸準(zhǔn)則2赤池信息量AIC達(dá)到最小。

將代入得將上式代入AIC的計(jì)算公式,略去與p無關(guān)的常數(shù),得回歸模型的AIC公式為2024/4/231015.2所有子集回歸準(zhǔn)則3Cp統(tǒng)計(jì)量達(dá)到最小。1964年馬勒斯(Mallows)從預(yù)測(cè)的角度提出一個(gè)可以用來選擇自變量的統(tǒng)計(jì)量—Cp統(tǒng)計(jì)量。根據(jù)性質(zhì)5,即使全模型正確,但仍有可能選模型有更小的預(yù)測(cè)誤差。Cp統(tǒng)計(jì)量正是根據(jù)這一原理提出來的??紤]在n個(gè)樣本點(diǎn)上,用選模型(5.2)式作回報(bào)預(yù)測(cè)時(shí),預(yù)測(cè)值與期望值的相對(duì)偏差平方和為:2024/4/231025.2所有子集回歸準(zhǔn)則3Cp統(tǒng)計(jì)量達(dá)到最小。Jp的期望值是略去無關(guān)的常數(shù)2,據(jù)此構(gòu)造出Cp統(tǒng)計(jì)量為式中,為全模型中σ2的無偏估計(jì)。選擇變量的Cp

準(zhǔn)則:選擇使Cp最小的自變量子集,這個(gè)自變量子集對(duì)應(yīng)的回歸方程就是最優(yōu)回歸方程。2024/4/23103我們講的最優(yōu)模型是相對(duì)而言的,在實(shí)際問題的選模中應(yīng)綜合考慮,或根據(jù)實(shí)際問題的研究目的從不同角度來考慮。有時(shí)希望模型各項(xiàng)衡量準(zhǔn)則較優(yōu),得到的模型又能給出合理的經(jīng)濟(jì)解釋;有時(shí)只從擬合角度考慮,有時(shí)只從預(yù)測(cè)角度考慮,并不計(jì)較回歸方程能否有合理解釋;有時(shí)要求模型的各個(gè)衡量準(zhǔn)則較優(yōu),而模型最好簡(jiǎn)單一些,涉及變量少一些;有時(shí)還要看回歸模型參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差大小等。5.2所有子集回歸2024/4/231045.2.3用R軟件尋找最優(yōu)子集5.2所有子集回歸R軟件中尋找最優(yōu)子集的函數(shù)為regsubestes(),在使用該函數(shù)前需要加載leaps包。例5-1

對(duì)例3-1中的數(shù)據(jù),用調(diào)整的復(fù)決定系數(shù)Ra2

準(zhǔn)則選擇最優(yōu)子集回歸模型。

2024/4/23105對(duì)于例3-1的數(shù)據(jù),尋找最優(yōu)子集的計(jì)算代碼為:data3.1<-read.csv("D:/data3.1.csv",head=TRUE)install.packages("leaps")#下載leaps包library(leaps)#加載leaps包exps<-regsubsets(y~x1+x2+x3+x4+x5+x6+x7+x8+x9,data=data3.1,nbest=1,really.big=T)#進(jìn)行全子集回歸expres<-summary(exps)#將回歸結(jié)果賦給expresres<-data.frame(expres$outmat,調(diào)整R平方=expres$adjr2)res#選擇輸出計(jì)算結(jié)果中的調(diào)整的R2這一指標(biāo)代碼中第四行調(diào)用regsubsets函數(shù)是做所有子集(除了全模型)的回歸分析,共計(jì)算了2m-2個(gè)子集的回歸結(jié)果,結(jié)果中有Ra2

,Cp和AIC的值,此處只選擇輸出Ra2的值。其中nbest可以任意賦大于等于1的值n,其主要用于展示包含不同變量個(gè)數(shù)(1個(gè)、2個(gè)或多個(gè)解釋變量)的子集的前n個(gè)最佳模型。5.2所有子集回歸2024/4/231065.2所有子集回歸運(yùn)行上述代碼后得到的部分輸出結(jié)果如下:由以上輸出結(jié)果可知,依據(jù)Ra2準(zhǔn)則選出的最優(yōu)子集為x1,

x2,

x3,x4,

x5,

x8,同時(shí)也可看到包含變量x1,

x2,

x3,

x5,

x6,

x8的子集回歸模型的Ra2的取值與最優(yōu)子集回歸模型的Ra2差別很小。如果僅考慮Ra2

這一個(gè)準(zhǔn)則時(shí),則x1,

x2,

x3,x4,

x5,

x8為最優(yōu)子集,但是實(shí)際應(yīng)用中應(yīng)該綜合考慮幾個(gè)準(zhǔn)則來確定最優(yōu)子集。2024/4/231075.2.3用R軟件尋找最優(yōu)子集5.2所有子集回歸例5-2

對(duì)例3-1中的數(shù)據(jù),用Cp準(zhǔn)則選擇最優(yōu)子集回歸模型。對(duì)于例5-1已經(jīng)得到的結(jié)果,選擇輸出子模型對(duì)應(yīng)的Cp統(tǒng)計(jì)量的結(jié)果,相應(yīng)代碼為:data.frame(expres$outmat,Cp=expres$cp)

對(duì)應(yīng)的輸出結(jié)果為:2024/4/231085.2.3用R軟件尋找最優(yōu)子集5.2所有子集回歸由輸出結(jié)果5.2可知,依據(jù)Cp準(zhǔn)則選出的最優(yōu)子集為x1,

x2,

x3,

x4,

x5,

x8而且Cp

=5.237與其他7個(gè)子集所對(duì)應(yīng)的Cp

的值相差均較明顯。因此,綜合輸出結(jié)果5.1和5.2,我們可以選擇包含變量x1,

x2,

x3,x4,

x5,

x8的回歸模型作為最優(yōu)子集回歸模型。

5.3逐步回歸2024/4/23109問題的提出

自變量的所有可能子集構(gòu)成2m-1個(gè)回歸方程,當(dāng)可供選擇的自變量不太多時(shí),用前邊的方法可以求出一切可能的回歸方程,然后用幾個(gè)選元準(zhǔn)則去挑選最優(yōu)的方程,但是當(dāng)自變量的個(gè)數(shù)較多時(shí),要求出所有可能的回歸方程是非常困難的。為此,人們提出了一些較為簡(jiǎn)便、實(shí)用、快速的選擇最優(yōu)方程的方法。人們所給出的方法各有優(yōu)缺點(diǎn),至今還沒有絕對(duì)最優(yōu)的方法,目前常用的方法有前進(jìn)法、后退法、逐步回歸法,而逐步回歸法最受推崇。2024/4/23110R軟件提供了進(jìn)行逐步回歸分析的計(jì)算函數(shù)step(),它是以AIC信息統(tǒng)計(jì)量為準(zhǔn)則,通過選擇最小的AIC信息統(tǒng)計(jì)量,來達(dá)到剔除或添加變量的目的。step()函數(shù)的使用格式為:step(object,scope,scale=0,direction=c("both","backward","forward"),trace=1,keep=NULL,steps=1000,k=2,…)其中object是初始的回歸方程;scope是確定逐步搜索中模型的范圍;scale=0指使用AIC統(tǒng)計(jì)量;direction確定逐步搜索的方式,其他參數(shù)參見在線幫助。5.3逐步回歸2024/4/231115.3逐步回歸5.3.1前進(jìn)法前進(jìn)法的思想是變量由少到多,每次增加一個(gè),直至沒有可引入的變量為止。在R中使用前進(jìn)法做變量選擇時(shí),通常將初始模型設(shè)定為不包含任何變量,只含有常數(shù)項(xiàng)的回歸模型,此時(shí)回歸模型有相應(yīng)的AIC統(tǒng)計(jì)量的值,不妨記為C0。然后,將m個(gè)自變量全部分別對(duì)因變量y建立m個(gè)一元線性回歸方程,并分別計(jì)算這m個(gè)一元回歸方程的AIC統(tǒng)計(jì)量的值,記為

,選其中最小值記為:

2024/4/231125.3逐步回歸因此,變量xj首先被引入回歸模型,簡(jiǎn)便起見不妨將xj記作x1,此時(shí)回歸方程對(duì)應(yīng)的AIC值記為C1。接下來,因變量y

分別對(duì)(x1,x2),(x1,x3),…,(x1,xm)建立m?1個(gè)二元線性回歸方程,對(duì)這m?1個(gè)回歸方程分別計(jì)算其AIC統(tǒng)計(jì)量的值,記為,選其中的最小值記為:,則接著將變量xj引入回歸模型,此時(shí)模型中包含的變量為x1和xj。依上述方法接著做下去,直至再次引入新變量時(shí),所建立的新回歸方程的AIC值不會(huì)更小,此時(shí)得到的回歸方程即為最終確定的方程。5.3.1前進(jìn)法前進(jìn)法時(shí)設(shè)為“forward”2024/4/231135.3逐步回歸例5-3

對(duì)例3-1城鎮(zhèn)居民消費(fèi)性支出y關(guān)于9個(gè)自變量做回歸的數(shù)據(jù),使用前進(jìn)法做變量選擇。使用R軟件做變量選擇的計(jì)算代碼如下:lmo3.1<-lm(y~1,data=data3.1)#建立初始模型lm3.1.for<-step(lmo3.1,scope=list(upper=~x1+x2+x3+x4+x5+x6+x7+x8+x9,lower=~1),direction="forward")#將模型的搜索范圍定義為至多加入所有變量,至少包含常數(shù)項(xiàng),使用前進(jìn)法尋找最優(yōu)回歸模型summary(lm3.1.for)#輸出最優(yōu)回歸模型及其回歸系數(shù)的顯著性檢驗(yàn)2024/4/231145.3逐步回歸運(yùn)行上述代碼,得到的部分輸出結(jié)果為:2024/4/231155.3逐步回歸2024/4/231165.3逐步回歸由上述輸出結(jié)果可看到,前進(jìn)法依次引入了

x3,x1,

x4,

x5,

x2,

x8,最優(yōu)回歸模型為模型整體上高度顯著,且各變量的回歸系數(shù)均極其顯著,復(fù)決定系數(shù)R2=0.996,調(diào)整的復(fù)決定系數(shù)。5.3逐步回歸2024/4/231175.3.2后退法后退法與前進(jìn)法相反,通常先用全部m個(gè)變量建立一個(gè)回歸方程,然后計(jì)算剔除任意一個(gè)變量后回歸方程所對(duì)應(yīng)的AIC統(tǒng)計(jì)量的值,選出最小的AIC值所對(duì)應(yīng)的需要剔除的變量,不妨記作x1;然后,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論