版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第5章自變量的選擇與逐步回歸
5.1自變量選擇對估計和預(yù)測的影響5.2所有子集回歸5.3逐步回歸5.4本章小結(jié)與評注第5章自變量的選擇與逐步回歸5.1自變量選擇對估計1§第5章自變量選擇與逐步回歸
從20世紀60年代開始,關(guān)于回歸自變量的選擇成為統(tǒng)計學(xué)中研究的熱點問題。統(tǒng)計學(xué)家們提出了許多回歸選元的準則,并提出了許多行之有效的選元方法。本章從回歸選元對回歸參數(shù)估計和預(yù)測的影響開始,介紹自變量選擇常用的幾個準則;扼要介紹所有子集回歸選元的幾個方法;詳細討論逐步回歸方法及其應(yīng)用?!斓?章自變量選擇與逐步回歸從20世紀60年代2§5.1自變量選擇對估計和預(yù)測的影響
一、全模型和選模型
設(shè)研究某一實際問題涉及到對因變量有影響的因素共有m個,回歸模型為:y=β0+β1x1+β2x2+…+βmxm+ε(5.1)稱為全回歸模型。如果我們從所有可供選擇的m個變量中挑選出p個,記為x1,x2,…,xp,構(gòu)成的回歸模型為:y=β0p+β1px1+β2px2+…+βppxp+εp (5.2)稱模型(5.2)式為選模型?!?.1自變量選擇對估計和預(yù)測的影響一、全模型和選模型3§5.1自變量選擇對估計和預(yù)測的影響
一、全模型和選模型
模型選擇不當會給參數(shù)估計和預(yù)測帶來什么影響?下面我們將分別給予討論。為了方便,我們把模型(5.1)式的參數(shù)估計向量和σ2的估計記為:把模型(5.2)式的參數(shù)估計向量記為§5.1自變量選擇對估計和預(yù)測的影響一、全模型和選模型4§5.1自變量選擇對估計和預(yù)測的影響
二、自變量選擇對預(yù)測的影響
關(guān)于自變量選擇對預(yù)測的影響可以分成兩種情況:第一種情況是全模型正確而誤用了選模型;第二種情況是選模型正確而誤用了全模型式。
§5.1自變量選擇對估計和預(yù)測的影響二、自變量選擇對預(yù)測5§5.1自變量選擇對估計和預(yù)測的影響
(一)全模型正確而誤用選模型的情況§5.1自變量選擇對估計和預(yù)測的影響(一)全模型正確而誤6§5.1自變量選擇對估計和預(yù)測的影響
(一)全模型正確而誤用選模型的情況§5.1自變量選擇對估計和預(yù)測的影響(一)全模型正確而誤7§5.1自變量選擇對估計和預(yù)測的影響
(一)全模型正確而誤用選模型的情況§5.1自變量選擇對估計和預(yù)測的影響(一)全模型正確而誤8§5.1自變量選擇對估計和預(yù)測的影響
(一)全模型正確而誤用選模型的情況§5.1自變量選擇對估計和預(yù)測的影響(一)全模型正確而誤9§5.1自變量選擇對估計和預(yù)測的影響
(一)全模型正確而誤用選模型的情況§5.1自變量選擇對估計和預(yù)測的影響(一)全模型正確而誤10§5.1自變量選擇對估計和預(yù)測的影響
(二)選模型正確而誤用全模型的情況§5.1自變量選擇對估計和預(yù)測的影響(二)選模型正確而誤11§5.1自變量選擇對估計和預(yù)測的影響
(二)選模型正確而誤用全模型的情況§5.1自變量選擇對估計和預(yù)測的影響(二)選模型正確而誤12§5.1自變量選擇對估計和預(yù)測的影響
(二)選模型正確而誤用全模型的情況
上述結(jié)論告訴我們,一個好的回歸模型,并不是考慮的自變量越多越好。在建立回歸模型時,選擇自變量的基本指導(dǎo)思想是“少而精”。哪怕我們丟掉了一些對因變量y還有些影響的自變量,由選模型估計的保留變量的回歸系數(shù)的方差,要比由全模型所估計的相應(yīng)變量的回歸系數(shù)的方差小。而且,對于所預(yù)測的因變量的方差來說也是如此。丟掉了一些對因變量y有影響的自變量后,所付出的代價是估計量產(chǎn)生了有偏性。然而,盡管估計量是有偏的,但預(yù)測偏差的方差會下降。另外,如果保留下來的自變量有些對因變量無關(guān)緊要,那么,方程中包括這些變量會導(dǎo)致參數(shù)估計和預(yù)測的有偏性和精度降低。§5.1自變量選擇對估計和預(yù)測的影響(二)選模型正確而誤13§5.2所有子集回歸
一、所有子集的數(shù)目
有m個可供選擇的變量x1,x2,…,xm,由于每個自變量都有入選和不入選兩種情況,這樣y關(guān)于這些自變量的所有可能的回歸方程就有2m-1個。從另一個角度看
§5.2所有子集回歸一、所有子集的數(shù)目14§5.2所有子集回歸
二、關(guān)于自變量選擇的幾個準則
從數(shù)據(jù)與模型擬合優(yōu)劣的直觀考慮出發(fā),認為殘差平方和SSE最小的回歸方程就是最好的。還曾用復(fù)相關(guān)系數(shù)R來衡量回歸擬合的好壞。然而這兩種方法都有明顯的不足,這是因為:§5.2所有子集回歸二、關(guān)于自變量選擇的幾個準則15§5.2所有子集回歸
準則1自由度調(diào)整復(fù)相關(guān)系數(shù)達到最大
§5.2所有子集回歸準則1自由度調(diào)整復(fù)相關(guān)系16§5.2所有子集回歸
準則1自由度調(diào)整復(fù)相關(guān)系數(shù)達到最大
從另外一個角度考慮回歸的擬合效果,回歸誤差項方差σ2的無偏估計為:此無偏估計式中也加入了懲罰因子n-p-1§5.2所有子集回歸準則1自由度調(diào)整復(fù)相關(guān)系17§5.2所有子集回歸
準則1自由度調(diào)整復(fù)相關(guān)系數(shù)達到最大§5.2所有子集回歸準則1自由度調(diào)整復(fù)相關(guān)系18§5.2所有子集回歸
準則2赤池信息量AIC達到最小
AIC準則是日本統(tǒng)計學(xué)家赤池(Akaike)1974年根據(jù)極大似然估計原理提出的一種較為一般的模型選擇準則,人們稱它為Akaike信息量準則(AkaikeInformationCriterion,簡記為AIC)。AIC準則既可用來作回歸方程自變量的選擇,又可用于時間序列分析中自回歸模型的定階上。由于該方法的廣泛應(yīng)用,使得赤池乃至日本統(tǒng)計學(xué)家在世界的聲譽大增?!?.2所有子集回歸準則2赤池信息量AIC達19§5.2所有子集回歸
準則2赤池信息量AIC達到最小
設(shè)回歸模型的似然函數(shù)為L(θ,x),θ的維數(shù)為p,x為樣本,在回歸分析中樣本為y=(y1,y2,…yn)′,則AIC定義為:§5.2所有子集回歸準則2赤池信息量AIC達20§5.2所有子集回歸
準則2赤池信息量AIC達到最小
假定回歸模型的隨機誤差項ε遵從正態(tài)分布,即
ε~N(0,σ2)對數(shù)似然函數(shù)為§5.2所有子集回歸準則2赤池信息量AIC達21§5.2所有子集回歸
準則2赤池信息量AIC達到最小
帶入公式中這里似然函數(shù)中的未知參數(shù)個數(shù)為p+2,略去與p無關(guān)的常數(shù),得回歸模型的AIC公式為AIC=nln(SSE)+2p
對每一個回歸子集計算AIC,其中AIC最小者所對應(yīng)的模型是“最優(yōu)”回歸模型§5.2所有子集回歸準則2赤池信息量AIC達22§5.2所有子集回歸
準則4Cp統(tǒng)計量達到最小
1964年馬勒斯(Mallows)從預(yù)測的角度提出一個可以用來選擇自變量的統(tǒng)計量————Cp統(tǒng)計量。根據(jù)性質(zhì)5,即使全模型正確,但仍有可能選模型有更小的預(yù)測誤差。Cp正是根據(jù)這一原理提出來的?!?.2所有子集回歸準則4Cp統(tǒng)計量達到最小23§5.2所有子集回歸
準則4Cp統(tǒng)計量達到最小
考慮在n個樣本點上,用選模型(5.2)式作回報預(yù)測時,預(yù)測值與期望值的相對偏差平方和為:§5.2所有子集回歸準則4Cp統(tǒng)計量達到最小24§5.2所有子集回歸
準則4Cp統(tǒng)計量達到最小
可以證明,Jp的期望值是略去無關(guān)的常數(shù)2,據(jù)此構(gòu)造出Cp統(tǒng)計量為§5.2所有子集回歸準則4Cp統(tǒng)計量達到最小25§5.2所有子集回歸
準則4Cp統(tǒng)計量達到最小
§5.2所有子集回歸準則4Cp統(tǒng)計量達到最小26§5.2所有子集回歸
例5.1
y表示某種消費品的銷售額,x1表示居民可支配收入,x2表示該類消費品的價格指數(shù),x3表示其他消費品平均價格指數(shù)。表5.1給出了某地區(qū)18年某種消費品銷售情況資料,試建立該地區(qū)該消費品銷售額預(yù)測方程?!?.2所有子集回歸例5.1y表示某種消費品27§5.2所有子集回歸
序號x1(元)x2(%)x3(%)(百萬元)181.285.087.07.8282.992.094.08.4383.291.595.08.7485.992.995.59.0588.093.096.09.6699.996.097.010.37102.095.097.510.68105.395.697.010.99117.798.998.011.310126.4101.5101.212.311131.2102.0102.513.512148.0105.0104.014.213153.0106.0105.914.914161.0109.0109.515.915170.0112.0111.018.516174.0112.5112.019.517185.0113.0112.319.918189.0114.0113.020.5表5.1§5.2所有子集回歸序號x1(元)x2(%)x328§5.2所有子集回歸
這個例子中,n=18,m=3,所有的自變量子集有2m-1=7個,即有7個回歸子集。自變量子集R2AICCpx10.97280.971140.064.134x20.95660.953948.4816.151x30.95080.947750.7420.452x1,x20.97470.971440.764.734x1,x30.97840.975537.932.005x2,x30.95760.951950.0917.461x1,x2,x30.98110.977137.522.000表5.2§5.2所有子集回歸這個例子中,n=18,m=329§5.2所有子集回歸
由表5.2的3項指標均可看到x1,x2,x3是“最優(yōu)”子集,x1,x3是“次優(yōu)”子集?;貧w方程分別為§5.2所有子集回歸由表5.2的3項30§5.2所有子集回歸
三、用SAS軟件尋找最優(yōu)子集
SAS軟件共有三個基本窗口,分別為:(1)程序編輯窗(PROGRAMEDITOR),用來編輯程序。(2)日志窗(LOG),顯示已執(zhí)行的語句和系統(tǒng)信息,包括錯誤信息。(3)輸出窗(OUTPUT)顯示程序運行結(jié)果。用主菜單的Window命令可以實現(xiàn)在三個窗口間的轉(zhuǎn)換。
§5.2所有子集回歸三、用SAS軟件尋找最優(yōu)子集31§5.2所有子集回歸
datadata1;inputx1-x12y;cards;1.944.5154.45207.33246.87277.64135.7930.58110.6780.8351.8314.0923840.336.49133.16127.29120.17114.8881.2114.0535.71627.12.93202…;procreg;modely=x1-x12/selection=adjrsq;run;§5.2所有子集回歸datadata1;32§5.2所有子集回歸
以下是部分輸出結(jié)果:
AdjustedR-squareVariablesinModelR-squareIn0.829855170.863884146X3X5X8X9X10X110.826928500.867311857X3X5X6X8X9X10X110.824873990.859899196X3X6X8X9X10X110.823667780.864811977X3X4X5X8X9X10X110.823432750.864631787X3X5X8X9X10X11X120.823118280.864390687X3X5X7X8X9X10X11 …§5.2所有子集回歸以下是部分輸出結(jié)果:33§5.3逐步回歸
一、問題的提出及逐步回歸的思想
自變量的所有可能子集構(gòu)成2m-1個回歸方程,當可供選擇的自變量不太多時,用前邊的方法可以求出一切可能的回歸方程,然后用幾個選元準則去挑出“最好”的方程,但是當自變量的個數(shù)較多時,要求出所有可能的回歸方程是非常困難的。為此,人們提出了一些較為簡便、實用、快速的選擇“最優(yōu)”方程的方法。人們所給出的方法各有優(yōu)缺點,至今還沒有絕對最優(yōu)的方法,目前常用的方法有“前進法”、“后退法”、“逐步回歸法”,而逐步回歸法最受推崇。§5.3逐步回歸一、問題的提出及逐步回歸的思想34§5.3逐步回歸
一、問題的提出及逐步回歸的思想在后邊的討論中,無論我們從回歸方程中剔除某個自變量,還是給回歸方程增加某個自變量都要利用(3.42)式的偏F檢驗,這個偏F檢驗與(3.40)式的t檢驗是等價的,F(xiàn)檢驗的定義式的統(tǒng)計意義更為明了,并且容易推廣到對多個自變量的顯著性檢驗,因而采用F檢驗?!?.3逐步回歸一、問題的提出及逐步回歸的思想35§5.3逐步回歸
一、前進法
§5.3逐步回歸一、前進法36§5.3逐步回歸
一、問題的提出及逐步回歸的思想§5.3逐步回歸一、問題的提出及逐步回歸的思想37§5.3逐步回歸
一、問題的提出及逐步回歸的思想依上述方法接著做下去。直至所有未被引入方程的自變量的F值均小于Fα(1,n-p-1)時為止。這時,得到的回歸方程就是最終確定的方程。每步檢驗中的臨界值Fα(1,n-p-1)與自變量數(shù)目p有關(guān),在用軟件計算時,我們實際使用的是顯著性P值(或記為sig)做檢驗。§5.3逐步回歸一、問題的提出及逐步回歸的思想38§5.3逐步回歸
一、問題的提出及逐步回歸的思想例5.4對例3.1國際旅游外匯收入y對第三產(chǎn)業(yè)的12個變量做回歸的數(shù)據(jù),用前進法做變量選擇,取顯著性水平α進=0.05。首先進入線性回歸對話框,將y與x1至x12分別選入各自的變量框,然后在Method對話框中點選前進法Forward,點選Options選項看到默認的顯著性水平α進正是0.05。部分運行結(jié)果如下:§5.3逐步回歸一、問題的提出及逐步回歸的思想39§5.3逐步回歸
§5.3逐步回歸40§5.3逐步回歸
§5.3逐步回歸41§5.3逐步回歸
§5.3逐步回歸42§5.3逐步回歸
一、問題的提出及逐步回歸的思想§5.3逐步回歸一、問題的提出及逐步回歸的思想43§5.3逐步回歸
二、后退法§5.3逐步回歸二、后退法44§5.3逐步回歸
二、后退法§5.3逐步回歸二、后退法45§5.3逐步回歸
二、后退法續(xù)例5.4對例3.1國際旅游外匯收入y對第三產(chǎn)業(yè)的12個變量做回歸的數(shù)據(jù),用后退法做變量選擇,取顯著性水平α出=0.10。首先進入線性回歸對話框,將y與x1至x12分別選入各自的變量框,然后在Method對話框中點選后退法Backward,點選Options選項看到默認的顯著性水平α出正是0.10。部分運行結(jié)果見表5.4:§5.3逐步回歸二、后退法續(xù)例5.446§5.3逐步回歸
二、后退法§5.3逐步回歸二、后退法47§5.3逐步回歸
二、后退法§5.3逐步回歸二、后退法48§5.3逐步回歸
二、后退法§5.3逐步回歸二、后退法49§5.3逐步回歸
三、逐步回歸法
逐步回歸的基本思想是“有進有出”。具體做法是將變量一個一個引入,當每引入一個自變量后,對已選入的變量要進行逐個檢驗,當原引入的變量由于后面變量的引入而變得不再顯著時,要將其剔除。這個過程反復(fù)進行,直到既無顯著的自變量選入回歸方程,也無不顯著自變量從回歸方程中剔除為止。這樣就避免了前進法和后退法各自的缺陷,保證了最后所得的回歸子集是“最優(yōu)”回歸子集?!?.3逐步回歸三、逐步回歸法逐步回歸的50§5.3逐步回歸
三、逐步回歸法
在逐步回歸中需要注意的一個問題是引入自變量和剔除自變量的顯著性水平α值是不相同的,要求α進<α出否則可能產(chǎn)生“死循環(huán)”。也就是當α進≥α出時,如果某個自變量的顯著性P值在α進與α出之間,那末這個自變量將被引入、剔除、再引入、再剔除、…,循環(huán)往復(fù),以至無窮?!?.3逐步回歸三、逐步回歸法在逐步51§5.3逐步回歸
三、逐步回歸法續(xù)例5.4對例3.1國際旅游外匯收入y對第三產(chǎn)業(yè)的12個變量做回歸的數(shù)據(jù),用逐步回歸法做變量選擇,取顯著性水平α進=0.05,α出=0.10。首先進入線性回歸對話框,將y與x1至x12分別選入各自的變量框,然后在Method對話框中點選逐步回歸法Stepwise,點選Options選項看到默認的顯著性水平正是α進=0.05,α出=0.10。部分運行結(jié)果見表5.5:§5.3逐步回歸三、逐步回歸法續(xù)例5.452§5.3逐步回歸
三、逐步回歸法§5.3逐步回歸三、逐步回歸法53§5.3逐步回歸
§5.3逐步回歸54§5.4本章小結(jié)與評注
一、逐步回歸實例分析
例5.5為了研究香港股市的變化規(guī)律,此例以恒生指數(shù)為例,建立回歸方程,分析影響股票價格趨勢變動的因素。這里我們選了6個影響股票價格指數(shù)的經(jīng)濟變量:
x1(百萬$)—成交額,x2—九九金價($/兩),
x3—港匯指數(shù),x4—人均生產(chǎn)總值(現(xiàn)價$),
x5—建筑業(yè)總開支(現(xiàn)價百萬$),
x6—房地產(chǎn)買賣金額(百萬$),
x7—優(yōu)惠利率(最低%)。
y為恒生指數(shù)?!?.4本章小結(jié)與評注一、逐步回歸實例分析55§5.3逐步回歸
年份yx1x2x3x4x5x6x71974172.911246681105.91018341101124291975352.9410335791107.4104143996126936.51976447.6713156607114.41313446891668161977404.026127714110.8150336876221314.751978409.512741991199.4173898636313534.751979619.7125633123191.42171512339435289.519801121.1795684276090.82707516623707521019811506.94105987265186.331827199371259891619821105.79462302105125.335393247879946
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)產(chǎn)品采購合同范例
- 冷庫家電維修合同范本
- 中介鋪面出售合同范例
- 業(yè)主小區(qū)送菜合同范本
- 臨沂商品房抵押合同范本
- 貼牌生產(chǎn)合同范本
- 建筑公司資質(zhì)轉(zhuǎn)讓合同范本
- 關(guān)于裝修售后合同范本
- 2025年大盤白帶項目可行性研究報告
- 供貨安裝服務(wù)合同范本
- 義務(wù)教育物理課程標準(2022年版)測試題文本版(附答案)
- 人工智能在地理信息系統(tǒng)中的應(yīng)用
- 第7章-無人機法律法規(guī)
- 藥劑科基本藥物處方用藥狀況點評工作表
- 拆遷征收代理服務(wù)投標方案
- 完形療法概述
- 說課的技巧和方法專題講座
- SL631-637-2012-水利水電工程單元工程施工質(zhì)量驗收評定標準
- 監(jiān)理質(zhì)量管理講義監(jiān)理工作的基本知識
- 煙花爆竹考試真題模擬匯編(共758題)
- 四年級數(shù)學(xué)上冊口算天天練4
評論
0/150
提交評論