應(yīng)用回歸分析知識點(diǎn)總結(jié)_第1頁
應(yīng)用回歸分析知識點(diǎn)總結(jié)_第2頁
應(yīng)用回歸分析知識點(diǎn)總結(jié)_第3頁
應(yīng)用回歸分析知識點(diǎn)總結(jié)_第4頁
應(yīng)用回歸分析知識點(diǎn)總結(jié)_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

U4違背基本假設(shè)的情況一、異方差產(chǎn)生的原因在建立實(shí)際問題的回歸分析模型時,經(jīng)常會出現(xiàn)某一因素或一些因素隨著解釋變量觀測值的變化而對被解釋變量產(chǎn)生不同的影響,導(dǎo)致隨機(jī)誤差項(xiàng)產(chǎn)生不同的方差。即:var(s)主var(s),當(dāng)i豐j時。樣本數(shù)據(jù)為截面數(shù)據(jù)時容易出現(xiàn)異ij方差性。二、異方差性帶來的問題1、參數(shù)估計(jì)值雖然是無偏的,但不是最小方差線性無偏估計(jì)。2、參數(shù)的顯著性檢驗(yàn)失效。3、回歸方程的應(yīng)用效果極不理想。三、異方差性的檢驗(yàn)1、殘差圖分析法殘差圖分析法是一種只管、方便的分析方法。它以殘差e為縱坐標(biāo),以其他i適宜的變量為橫坐標(biāo)畫散點(diǎn)圖。常用的橫坐標(biāo)有三種選擇:(1)以擬合值y為橫坐標(biāo);(2)以x(i=1,2,,p)為橫坐標(biāo);(3)以觀測時間或序號為橫坐標(biāo)。i醫(yī)生厲朮種常見的峨螯廿布晁迄.國(a)線性關(guān)系成立;(b)x加入二次方項(xiàng);(c)存在異方差,需要改變x形式(d)殘差與時間t有關(guān)??赡苓z漏變量或者存在序列相關(guān),需要引入變量。2、等級相關(guān)系數(shù)法等級相關(guān)系數(shù)又稱斯皮爾曼(Spearman)檢驗(yàn),是一種應(yīng)用較廣泛的方法。這種檢驗(yàn)方法既可用于大樣本,也可以用于小樣本。進(jìn)行等級相關(guān)系數(shù)檢驗(yàn)通常有三個步驟:第一步,做y關(guān)于x的普通最小二乘回歸,求出£的估計(jì)值,即e的值TOC\o"1-5"\h\zii第二步,取e的絕對值,即|e把x和|e|按遞增或遞減的次序排列后分成等iiii級,按下式計(jì)算出等級相關(guān)系數(shù):r=1-6Ed2,其中,n為樣本容量,sn(n2-1)ii=1d為對應(yīng)于x和|e|的等級的差數(shù)。iii第三步,做等級相關(guān)系數(shù)的顯著性檢驗(yàn)。在n>8的情況下,用下式對樣本等級相

關(guān)系數(shù)r進(jìn)行t檢驗(yàn),檢驗(yàn)統(tǒng)計(jì)量為:tnZ2r^,如果t<t(n-2)可以認(rèn)為sJl-r2a2s異方差性問題不存在,如果t>t(n-2),說明x與|e|之間存在系統(tǒng)關(guān)系,異a2ii方差性問題存在。(在這個檢驗(yàn)中,原假設(shè)為:不存在異方差性)等級相關(guān)系數(shù)可以如實(shí)反映單調(diào)遞增或單調(diào)遞減趨勢的變量間的相關(guān)性,而簡單相關(guān)系數(shù)值適宜衡量直線趨勢變量間的向關(guān)系。四、一元加權(quán)最小二乘估計(jì)當(dāng)研究的問題存在異方差性時,就不能用普通最小二乘法進(jìn)行參數(shù)估計(jì)了。消除異方差性的方法通常有加權(quán)最小二乘法、Box-Cox變換法、方差穩(wěn)定變換法。對于一元線性回歸方程來說,普通最小二乘法的離差平方和為:Q(P,P)二區(qū)(y-E(y))2二區(qū)(y-B-Bx)2,其中每個觀測值的權(quán)數(shù)相同。0liii0lii=1i=1在等方差的條件下,平方和的每一項(xiàng)的地位是相同的。然而,在異方差的條件下,平方和中的每一項(xiàng)的地位是不同的,誤差項(xiàng)方差a2大的項(xiàng),在平方和式子i中的作用就偏大,因而普通最小二乘估計(jì)的回歸線就被拉向方差大的項(xiàng),而方差小的項(xiàng)的擬合程度就差。加權(quán)最小二乘估計(jì)的方法是在平方和中加入一個適當(dāng)?shù)臋?quán)數(shù)w,以調(diào)整各項(xiàng)在平方和中的作用。一元線性回歸的加權(quán)最小二乘的i離差平方和為:Q(BB)=區(qū)W(y-E(y))2=Xw(y-B-Bx)2,其中w為01iiiii01iii=1i=1給定的權(quán)數(shù)。使用加權(quán)最小二乘法時,為了消除異方差性的影響,為了使各項(xiàng)的地位相同,觀測值的權(quán)數(shù)應(yīng)該是觀測值誤差項(xiàng)方差的倒數(shù),即w=—。誤差項(xiàng)ia2i方差較大的觀測值接受較小的權(quán)數(shù),誤差項(xiàng)方差較小的觀測值接受較大的權(quán)數(shù)。在社會、經(jīng)濟(jì)研究中,經(jīng)常會遇到這種特色的權(quán)數(shù),即誤差項(xiàng)方差與X的冪函數(shù)xm成比例,其中,m成比例,其中,m為待定的未知參數(shù)。此時權(quán)函數(shù)為:1w=ixmi加權(quán)最小二乘估計(jì)照顧小殘差項(xiàng)是以犧牲大殘差項(xiàng)為代價的,當(dāng)回歸模型存在異方差時,加權(quán)最小二乘估計(jì)只是對普通最小二乘法估計(jì)的改進(jìn),這種改進(jìn)有可能是細(xì)微的,不能理解為加權(quán)最小二乘估計(jì)一定會得到與普通最小二乘估計(jì)截然不同的回歸方程,或者一定有大幅度的改進(jìn)。另外,加權(quán)最小二乘以犧牲大方差項(xiàng)的擬合效果為代價改善了小方差項(xiàng)的擬合效果,這也并不總是研究者所需要的。在社會經(jīng)濟(jì)現(xiàn)象中,通常變量取值大時方差也大,在以經(jīng)濟(jì)總量為研究目標(biāo)時,更關(guān)心的是變量取值大的項(xiàng),而普通最小二乘恰好能滿足這個要求。所以在這樣的一些特定場合下,即使數(shù)據(jù)存在異方差,也仍然可以選擇使用普通最小二乘估計(jì)。五、多元加權(quán)最小二乘估計(jì)多元線性回歸有多個自變量,通常取權(quán)數(shù)W為某個自變量x(j二1,2,…,p)j的冪函數(shù),即W=Xm,在x,X,…,X這P個自變量中,應(yīng)該選取哪一個自變量,j12p這只需計(jì)算每個自變量X與普通殘差的等級相關(guān)系數(shù),選取等級相關(guān)系數(shù)最大j的自變量構(gòu)造權(quán)函數(shù)。六、自相關(guān)性如果一個回歸模型不滿足cov(s8)HO,則稱為隨機(jī)誤差項(xiàng)之間存在自相關(guān)ij現(xiàn)象。這里的自相關(guān)現(xiàn)象不是指兩個或者兩個以上的變量之間的相關(guān)關(guān)系,而指的是一個變量前后期數(shù)值之間存在的相關(guān)關(guān)系。七、自相關(guān)產(chǎn)生的背景和原因產(chǎn)生序列自相關(guān)的背景及原因通常有以下幾個方面。1、遺漏關(guān)鍵變量時會產(chǎn)生序列的自相關(guān)性。2、經(jīng)濟(jì)變量的滯后性會給序列帶來自相關(guān)性。3、采用錯誤的回歸函數(shù)形式也可能引起自相關(guān)性。例如,假定某實(shí)際問題的正確回歸函數(shù)應(yīng)由指數(shù)形式y(tǒng)=pexp(PX+8)來表示,但無用了線性回歸模型O1y=P+Px+8r表示,這時,誤差項(xiàng),也會表現(xiàn)為自相關(guān)性。O14、蛛網(wǎng)現(xiàn)象可能帶來序列的自相關(guān)性。(經(jīng)濟(jì)學(xué)中的蛛網(wǎng)模型)5、因?qū)?shù)據(jù)加工整理而導(dǎo)致誤差項(xiàng)之間產(chǎn)生自相關(guān)性。八、自相關(guān)性帶來的問題當(dāng)一個線性回歸模型的隨機(jī)誤差項(xiàng)存在序列相關(guān)時,就違背了線性回歸方程的基本假設(shè),仍直接用普通最小二乘法估計(jì)未知參數(shù),序列相關(guān)性會帶來下列問題:1、參數(shù)估計(jì)值不再具有最小方差線性無偏性2、均方誤差MSE可能嚴(yán)重低估誤差項(xiàng)的方差。3、容易導(dǎo)致對t值評價過高,常用的F檢驗(yàn)和t檢驗(yàn)失效。4、當(dāng)存在序列相關(guān)性時,P仍然是P的無偏估計(jì)量,但在任一特定的樣本中,P可能嚴(yán)重歪曲0的真實(shí)情況,即最小二乘估計(jì)量對抽樣波動變得非常敏感。5、如果不加處理地運(yùn)用普通最小二乘法估計(jì)模型參數(shù),用此模型進(jìn)行預(yù)測和進(jìn)行結(jié)構(gòu)分析將會帶來較大的方差甚至錯誤的解釋。九、自相關(guān)性的診斷1、圖示法圖示法是一種直觀的診斷方法,它是把給定的回歸模型直接用普通最小二乘法估計(jì)參數(shù),求出殘差項(xiàng)e,e作為隨機(jī)項(xiàng)s的真實(shí)值的估計(jì)值,在描繪e的散點(diǎn)圖,tttt根據(jù)e的相關(guān)性來判斷隨機(jī)項(xiàng)s的序列相關(guān)性。tt繪制e,e的散點(diǎn)圖。tt—1圖a表明隨機(jī)擾動項(xiàng)存在正的序列相關(guān),圖b表明隨機(jī)擾動項(xiàng)存在負(fù)相關(guān)。按照時間順序繪制回歸殘差項(xiàng)e的圖形,如果e隨著t的變化逐次有規(guī)律地tt變化,呈現(xiàn)鋸齒形或循環(huán)形狀的變化,可斷言e存在相關(guān),表明s存在著序列相tt關(guān)。如果e隨著t的變化逐次變化并不斷地改變符號,如下圖d所示,那么隨機(jī)擾t動項(xiàng)s存在負(fù)的序列相關(guān),這種現(xiàn)象稱為蛛網(wǎng)現(xiàn)象;如果e隨著t的變化逐次變tt化并不頻繁地改變符號,而是幾個正的e后面跟著幾個負(fù)的,則表明隨著擾動項(xiàng)ts存在正的序列相關(guān),如下圖c所示。tHee自相關(guān)函數(shù)的估計(jì)值為6=tt—自相關(guān)函數(shù)的估計(jì)值為6=tt—10作為自相關(guān)系數(shù)P的估計(jì)值與樣本量有關(guān),需要做統(tǒng)計(jì)顯著性檢驗(yàn)才能確定自相關(guān)性的存在,通常采用DW檢驗(yàn)代替對P的檢驗(yàn)。3、DW檢驗(yàn)DW檢驗(yàn)是適用于小樣本的一種檢驗(yàn)方法,而且DW檢驗(yàn)只能用于檢驗(yàn)隨機(jī)擾動項(xiàng)具有一階自回歸形式的序列相關(guān)問題。DW沁2(1-p),計(jì)算出DW值后,根據(jù)樣本容量n和解釋變量的數(shù)目k(包括常數(shù)項(xiàng))查DW分布表,得出臨界值d和d。LU0WD.W<d,L誤差項(xiàng)8,8,…,8間存在正相關(guān);12nd<D.W<d,LU不能判定是否有自相關(guān);d<D.W<4-d,UU誤差項(xiàng)8,8,…,8間無自相關(guān);12n4-d<D.W<4-d,UL不能判定是否有自相關(guān);4-d<D.W<4,L誤差項(xiàng)8,8,…,8間存在負(fù)相關(guān)。12n需要注意的是,DW檢驗(yàn)盡管有著廣泛的應(yīng)用,但也有明顯的缺點(diǎn)和局限性:(1)DW檢驗(yàn)有兩個不能確定的區(qū)域,一旦DW值落在這兩個區(qū)域,就無法判斷。這時只有增大樣本容量或選取其他方法;(2)DW統(tǒng)計(jì)量的上、下界表要求n>15,這是因?yàn)闃颖救绻傩。脷埐罹秃茈y對自相關(guān)的存在性做出比較正確的診斷;(3)DW檢驗(yàn)不適應(yīng)隨機(jī)項(xiàng)具有高階序列相關(guān)的檢驗(yàn)(只能判斷一階)。

十、自相關(guān)問題的處理方法1、迭代法設(shè)一元線性回歸模型的誤差項(xiàng)存在一階自相關(guān)TOC\o"1-5"\h\zy=B+Px+e(1)t01tte=pe+p(2)tt—1tE(p)=0,t=1,2,…,n

t2,t=Scov(p,p)=<(t,s=1,2,…,n)(2)式表明誤差項(xiàng)存在一階自相關(guān),(1)式表明p滿足關(guān)于隨機(jī)擾動項(xiàng)的基(2)式表明誤差項(xiàng)存在一階自相關(guān),(1)式表明p滿足關(guān)于隨機(jī)擾動項(xiàng)的基tTOC\o"1-5"\h\z本假設(shè)。所以回歸模型(1)有:y=P+Px+e(3)t—101t—1t—1將(3)式兩端乘以p,在用(1)式減去乘以p的(3)式,則有(y—py—)=(P—pP)+P(x—px—)+(e—e—)(4)tt—1001tt—1tt—1在(4)式中,令y'=y—py,x'=x—px,P'=P(1—p),P'=Pttt—1ttt—10011于是(4)可以變?yōu)閥'=P'+P'x+p(5)t01tt模型(5)式有獨(dú)立隨機(jī)誤差項(xiàng),滿足線性回歸模型的基本假設(shè),用普通最小二乘法估計(jì)的參數(shù)估計(jì)量具有通常的優(yōu)良性。由于自相關(guān)系數(shù)p是未知的,需要對p作估計(jì)。p-1—2DW,計(jì)算出p的估計(jì)值后,帶入計(jì)算變換因變量y'和變換自變量x',然后用(5)式做普通最小二乘回歸。一階自相關(guān)模型,通過上述變t換,已經(jīng)消除自相關(guān),迭代法到此結(jié)束。如果檢驗(yàn)表明誤差項(xiàng)p不存在自相關(guān),t迭代法結(jié)束,如果檢驗(yàn)表明誤差項(xiàng)p存在自相關(guān),那么對回歸模型(5)式重復(fù)t用迭代法,這個過程可能要重復(fù)幾次,直至最終消除誤差項(xiàng)自相關(guān)。2、差分法差分法就是用增量數(shù)據(jù)代替原來的樣本數(shù)據(jù),將原來的回歸模型變?yōu)椴罘中问降哪P?。一階差分法通常適用于原模型存在較高程度的一階自相關(guān)情況。(y—y)=(卩—卩)+卩(x—x)+(e—e)用增量表示為:Ay=卩Ax+ptt—1001tt—1tt—1t1tt以差分?jǐn)?shù)據(jù)Ay和Ax為樣本的回歸方程。差分之后的模型,通常不帶有常數(shù)項(xiàng),tt它是回歸直線過原點(diǎn)的回歸方程。一階差分的應(yīng)用條件是自相關(guān)系數(shù)P=1,在實(shí)際應(yīng)用中,P接近1時,就可以采用差分法而不用迭代法。有兩個原因:第一,迭代法需要用樣本估計(jì)自相關(guān)系數(shù)P,對P的估計(jì)誤差會影響迭代法的使用效率;第二,差分法比迭代法簡單,在建立時序數(shù)據(jù)的回歸方程時,更習(xí)慣于用差分法。十一、異常值與強(qiáng)影響點(diǎn)異常值分為兩種情況,一種是關(guān)于因變量y異常,另一種是關(guān)于自變量x異常。1、關(guān)于因變量y的異常值在殘差分析中,認(rèn)為超過土3^的殘差為異常值。標(biāo)準(zhǔn)化殘差:ZRE=二,ib學(xué)生化殘差:SRE=;。標(biāo)準(zhǔn)化殘差使殘差具有可比性,|ZRE|>3的相ibjl—hiii應(yīng)觀測值即判定為異常值,這簡化了判斷工作,但是沒有解決方差不等的問題。學(xué)生化殘差則進(jìn)一步解決了方差不等的問題,比標(biāo)準(zhǔn)化殘差又有所改進(jìn)。但是當(dāng)觀測數(shù)據(jù)中存在關(guān)于y的異常觀測值時,普通殘差、標(biāo)準(zhǔn)化殘差、學(xué)生化殘差這三種殘差都不再適用,這是由于異常值把回歸線拉向自身,使異常值本身的殘差減少,而其余觀測值的殘差增大,這時回歸標(biāo)準(zhǔn)差b也會增大,因而用3b準(zhǔn)則不能正確分辨出異常值。解決這個問題的方法是改用刪除誤差。刪除誤差的構(gòu)造思想是:在計(jì)算第i個觀測值的殘差時,用刪除掉這個第i個觀測值的其余n-1個觀測值擬合回歸方程,計(jì)算出第i個觀測值的刪除擬合值y,(i)這個刪除擬合值與第i個值無關(guān),不受第i個值是否為異常值的影響,定義第i個觀測值的刪除殘差為:e二y—y,刪除殘差e較普通殘差更能如實(shí)反映第i(i)i(i)(i)e個觀測值的異常性。可以證明,e=ei,進(jìn)一步可以給出第i個觀測值的刪(i)1—hii除學(xué)生化殘差,記為SRE=SRE(一"—P—2)2,在實(shí)際應(yīng)用當(dāng)中,可以(i)(i)n—p—1—SRE2i直接使用軟件計(jì)算出刪除學(xué)生化殘差SRE的數(shù)值,|SRE|>3的觀測值即判定(i)(i)為異常值。2、關(guān)于自變量x的異常值有D(e)=(1-h)b2,其中杠桿值h表示自變量的第i次觀測值與自變量平均iiiii值之間的遠(yuǎn)近。較大的杠桿值的殘差偏小,這是因?yàn)榇蟾軛U值的觀測點(diǎn)遠(yuǎn)離樣本中心,能夠把回歸方程拉向自身,因而把杠桿值大的樣本點(diǎn)稱為強(qiáng)影響點(diǎn)。強(qiáng)影響點(diǎn)并不一定是y值的異常值點(diǎn),因而強(qiáng)影響點(diǎn)并不總會對回歸方程造成不良影響。但是強(qiáng)影響點(diǎn)對回歸效果通常有較強(qiáng)的影響,這是由于一下兩個原因:第一,在實(shí)際問題中,因變量與自變量的線性關(guān)系只是在一定的范圍內(nèi)成立,強(qiáng)影響點(diǎn)原來樣本中心,因變量與自變量之間可能已不再是線性函數(shù)關(guān)系,因而在選擇回歸函數(shù)的形式時,需側(cè)重于強(qiáng)影響點(diǎn);第二,即使線性回歸形式成立,但是強(qiáng)影響點(diǎn)遠(yuǎn)離樣本中心,能夠把回歸方程拉向自身,使回歸方程產(chǎn)生偏移。由于強(qiáng)影響點(diǎn)并不總是y的異常值點(diǎn),所以不能單純根據(jù)杠桿值的大小判斷強(qiáng)影響點(diǎn)是否異常,為此,引入庫克距離,用來判斷強(qiáng)影響點(diǎn)是否為y的異常值點(diǎn)。庫克距離的計(jì)算公式為:D二笛?匕,庫克距離反映了杠桿(i)(p+l)b2(1—h)2ii值h與殘差e大小的一個綜合效應(yīng)。杠桿值h的平均值為h=-£h=業(yè),iiiiiniini=1一個杠桿值大于2倍或者3倍的h就認(rèn)為是大的。中心化的杠桿值ch=h—丄,iiiin因此有中心化杠桿值ch的平均值是Ch=1£ch=P,對于庫克聚類大小標(biāo)準(zhǔn)iiniini=1的初略判斷是:D<0.5時,認(rèn)為不是異常值點(diǎn);當(dāng)D>1時,認(rèn)為是異常值點(diǎn)。ii診斷出異常值后,進(jìn)一步判斷引起異常值的原因,通常由以下幾種。異常值原因異常值消除方法1.數(shù)據(jù)登記誤差,存在抄寫或錄入的錯誤重新核實(shí)數(shù)據(jù)2.數(shù)據(jù)測量誤差重新測量數(shù)據(jù)3.數(shù)據(jù)隨機(jī)誤差刪除或重新觀測異常值數(shù)據(jù)4.缺少重要自變量增加必要的自變量5.缺少觀測數(shù)據(jù)增加觀測數(shù)據(jù),適當(dāng)擴(kuò)大自變量取值范圍6.存在異方差采用加權(quán)線性回歸7?模型選用錯誤,線性模型不適用改用非線性回歸模型U5自變量選擇與逐步回歸一、全模型和選模型設(shè)研究某一實(shí)際問題,涉及對因變量有影響的因素共有m個,由因變量y和m個自變量構(gòu)成的回歸模型y=B+Px+Px+—Px+8稱為全模型。01122mm如果從可供選擇的m個變量中選出p個,由選出的p個自變量組成的回歸模型y=P+Px+Px+—Px+8稱為選模型。0p1p12p2ppppp二、自變量選擇對預(yù)測的影響自變量選擇對預(yù)測的影響可以分為兩種情況考慮,第一種情況是全模型正確而誤用了選模型;第二種情況是選模型正確而無用了全模型。以下是這兩種情況對回歸的影響。1、全模型正確而誤用選模型的情況,性質(zhì)1,在x與x,…,x的相關(guān)系數(shù)不全為0時,選模型回歸系數(shù)的最小二乘jp+1m估計(jì)是全模型相應(yīng)參數(shù)的有偏估計(jì),即E(P)=PP(j二1,2,…,p)jpjpj性質(zhì)2,選模型的預(yù)測是有偏的。性質(zhì)3,選模型的參數(shù)估計(jì)有較小的方差。性質(zhì)4,選模型的預(yù)測殘差有較小的方差。性質(zhì)5,選模型的均方誤差比全模型預(yù)測的方差更小。(用選模型去預(yù)測,可以提高預(yù)測的精度)三、所有子集回歸1、關(guān)于自變量選擇的幾個準(zhǔn)則準(zhǔn)則一:自由度調(diào)整復(fù)決定系數(shù)達(dá)到最大。設(shè)R2=1-"_1(1-R2)為自由度調(diào)整后的復(fù)決定系數(shù),其中,n為樣本容an—p—1量,P為自變量的個數(shù)。所有回歸子集中R2最大者對應(yīng)的回歸方程就是最優(yōu)方程。a從另外一個角度考慮回歸的擬合效果,回歸誤差項(xiàng)b2的無偏估計(jì)為:£2=一1SSE。用平均殘差平方和&2和調(diào)整的復(fù)決定系數(shù)作為自變量選元n—p—1n—1準(zhǔn)則實(shí)際上是等價的。因?yàn)橛蠷2二1—£2。&2小說明模型好,而&2小R2就aSSTa會大也說明模型好。準(zhǔn)則二:赤池信息量AIC達(dá)到最小。設(shè)模型的似然函數(shù)為L(9,x),9的維數(shù)為p,x為隨即樣本,則AIC定義為:AIC=-2InL(99,x)+2p,其中9為9的極大似然估計(jì);p為未知參數(shù)的個數(shù),選擇LL使AIC達(dá)到最小的模型是最優(yōu)模型。在回歸分析的建模過程中,對每一個回歸子集計(jì)算AIC,其中AIC最小者所對應(yīng)的模型是最優(yōu)回歸模型。準(zhǔn)則三:C統(tǒng)計(jì)量達(dá)到最小p即使全模型正確,仍有可能選模型有更小的預(yù)測誤差,C正是根據(jù)這一原SSE1p理提出來的。C=(n-m-1)p-n+2p,其中cP2=SSE為全模型中pSSEn-m-1mc2的無偏估計(jì)。選擇使C最小的自變量子集,這個自變量子集對應(yīng)的回歸方程p就是最優(yōu)回歸方程。四、前進(jìn)法前進(jìn)法的思想是變量由少到多,每次增加一個,直至沒有可引入的變量為止。在R中使用前進(jìn)法做變量選擇時,通常將初始模型設(shè)定為不包含任何變量,只含有常數(shù)項(xiàng)的回歸模型,此時回歸模型的AIC統(tǒng)計(jì)量的值,不妨為Co。然后,將全部m個自變量分別對因變量y建立m個一元線性回歸方程,并分別計(jì)算這m個一元回歸方程的AIC統(tǒng)計(jì)量的值,選其中最小值記為:Cjl。因此,變量xj將首先被引人回歸模型,為了方便進(jìn)一步地說明前進(jìn)法,不妨將xj記作xl,此時回歸方程對應(yīng)的AIC值記為C1。接下來,因變量y分別對(x1,x2),(x1,x3)…(xl,xm)建立m-1個二元線性回歸方程,對這m-1個回歸方程分別計(jì)算其AIC統(tǒng)計(jì)量的值,選其中最小值記為Cj2則接著將變量xj引人回歸模型,此時模型中包含的變量為X1和Xj?依上述方法接著做下去,直至再次引人新變量時,所建立的新回歸方程的AIC值不會更小,此時得到的回歸方程即為最終確定的方程。五、后退法后退法與前進(jìn)法相反,通常先用全部m個變量建立一個回歸方程,然后計(jì)算在剔除任意一個變量后回歸方程所對應(yīng)的AIC統(tǒng)計(jì)量的值,選出最小的AIC值所對應(yīng)的需要剔除的變量,不妨記作X1;然后,建立剔除變量xl后因變量y對剩余m-I個變量的回歸方程,計(jì)算在該回歸方程中再任意剔除一個變量后所得回歸方程的AIC值,選出最小的AIC值并確定應(yīng)該剔除的變量;依此類推,直至回歸方程中剩余的p個變量中再任意剔除一個AIC值都會增加,此時已經(jīng)沒有可以繼續(xù)剔除的自變量,因此包含這p個變量的回歸方程就是最終確定的方程。六、前進(jìn)法和后退法的比較前進(jìn)法的優(yōu)點(diǎn)是能夠?qū)σ蜃兞坑杏绊懙淖宰兞堪达@著性一一選入,計(jì)算量小。前進(jìn)法的缺點(diǎn)是不能反映引進(jìn)新變量后的變化,而且選入的變量就算不顯著也不能刪除。后退法的優(yōu)點(diǎn)是是能夠?qū)σ蜃兞繘]有顯著影響的自變量按不顯著性一一剔除,保留的自變量都是顯著的。后退法的缺點(diǎn)是開始計(jì)算量大,當(dāng)減少一個自變量時,它再也沒機(jī)會進(jìn)入了。如果碰到自變量間有相關(guān)關(guān)系時,前進(jìn)法和后退法所作的回歸方程均會出現(xiàn)不同程度的問題。七、逐步回歸法逐步回歸的基本思想是有進(jìn)有出。step()函數(shù)的具體做法是在給定了包含p個變量的初始模型后,計(jì)算初始模型的AIC值,并在此模型基礎(chǔ)上分別剔除p個變量和添加剩余m-p個變量中的任一變量后的AIC值,然后選擇最小的AIC值決定是否添加新變量或剔除已存在初始模型中的變量。如此反復(fù)進(jìn)行,直至既不添加新變量也不剔除模型中已有的變量時所對應(yīng)的AIC值最小,即可停止計(jì)算,并返回最終結(jié)果。八、選擇回歸子集選擇哪一個回歸子集,用哪一個衡量準(zhǔn)則要根據(jù)研究問題的目的來決定,回歸模型常用的三個方面是:結(jié)構(gòu)分析,預(yù)測,控制。如果想通過回歸模型去研究經(jīng)濟(jì)變量之間的相關(guān)聯(lián)系,即做結(jié)構(gòu)分析,則在選元時可以考慮適當(dāng)放寬選元標(biāo)準(zhǔn),給回歸方程中保留較多的自變量,但這時需要注意回歸系數(shù)的正負(fù)號,看它們是否符合經(jīng)濟(jì)意義。如果希望回歸方程簡單明了,易于理解,則應(yīng)該采用較嚴(yán)的選元標(biāo)準(zhǔn)。比如在逐步回歸選元中,給顯著性水平賦一個較小的值,就可進(jìn)使得回歸方程中保留較少最重要最能說明問題的自變量。如果建立回歸方程的目的是為了用于控制,那么就應(yīng)采取能使回歸參數(shù)的估計(jì)標(biāo)準(zhǔn)誤差盡可能小的準(zhǔn)則。如果建立回歸方程的目的是用于預(yù)測,就應(yīng)該考慮使得預(yù)測的均方誤差盡量小的準(zhǔn)則,如C準(zhǔn)則。U6多重共線性的情形及其處理一、多重共線性對回歸模型的影響設(shè)回歸模型y=B+Px+Px+…Px+s存在完全的多重共線性,即對01122pp設(shè)計(jì)矩陣X的列向量存在不全為零的一組數(shù)c,c,c,…,c,使得:012pc+cx+cxHFcx=0(i=1,2,?…,n).01i12i2pip產(chǎn)生原因:采用時間序列數(shù)據(jù)樣本;采用橫截面數(shù)據(jù)影響:1、完全共線性下參數(shù)估計(jì)量不存在;2、近似共線性下OLS估計(jì)量非有效;3、參數(shù)估計(jì)量經(jīng)濟(jì)含義不合理;4、變量的顯著性檢驗(yàn)失去意義;5、模型的預(yù)測功能失效。二、多重共線性的診斷1、方差擴(kuò)大因子法對自變量作中心標(biāo)準(zhǔn)化,則X:X*=(r)為自變量的相關(guān)陣,記ijC二(c)二(X:X*)-1稱其主對角線元素VIF=c為自變量x的方差擴(kuò)大因子。ijjjjjvar(p)二CG2/L(j二1,2,…,p),其中L為x的離差平方和。記R2為自變jjjjj力jJ1量x對其余p-1個自變量的復(fù)決定系數(shù),則有c,該式子同樣也可以jjj1—R2j作為方差擴(kuò)大因子VIF的定義。j由于R2度量了自變量x與其余p-1個自變量的線性相關(guān)程度,這種相關(guān)程Jj度越強(qiáng),說明自變量之間的多重共線性越嚴(yán)重,R2也就越接近于1,VIF也就Jj越大。由此可見VIF的大小反映了自變量之間是否存在多重共線性,因此可以由它來度量多重共線性的嚴(yán)重程度。經(jīng)驗(yàn)表明,當(dāng)VIF>10時,就說明自變量x與其余自變量之間有嚴(yán)重的多重共線性,且這種多重共線性可能會過度地影響最小二乘估計(jì)值。也可以用P個自變量所對應(yīng)的方差擴(kuò)大因子的平均數(shù)來度量多重共線性,當(dāng)1?一VIF=—£VIF遠(yuǎn)遠(yuǎn)大于1時就表示存在嚴(yán)重的多重共線性問題。2、特征根判定法特征根分析:當(dāng)矩陣XX有一個特征根近似為零時,設(shè)計(jì)矩陣X的列向量間必存在多重共線性,并且XX有多少個特征根接近于零,X就有多少個多重共線性關(guān)系。

條件數(shù):(X'X)='^max,為矩陣XX的條件數(shù)。通常認(rèn)為k<100時,設(shè)計(jì)矩min陣X沒有多重共線性;100<k<1000時,認(rèn)為X存在較強(qiáng)的多重共線性;當(dāng)k>1000時,則認(rèn)為存在嚴(yán)重的多重共線性。3、直觀判定法(1)當(dāng)增加或剔除一個自變量,或者改變一個觀測值時,回歸系數(shù)的估計(jì)值發(fā)生較大變化。(2)從定性分析認(rèn)為,一些重要的自變量在回歸方程中沒有通過顯著性檢驗(yàn)。(3)有些自變量的回歸系數(shù)所帶正負(fù)號與定性分析結(jié)果違背。(4)自變量的相關(guān)矩陣中,自變量間的相關(guān)系數(shù)較大。(5)—些重要的自變量的回歸系數(shù)的標(biāo)準(zhǔn)誤差較大。三、消除共線性的方法1、刪除一些不重要的解釋變量在選擇回歸模型時,可以將回歸系數(shù)的顯著性檢驗(yàn)、方差擴(kuò)大因子VIF的多重共線性檢驗(yàn)與自變量的經(jīng)濟(jì)含義結(jié)合起來考慮,以引進(jìn)或剔除變量。2、增大樣本容量例如,在建立二元回歸模型時,假設(shè)數(shù)據(jù)都已經(jīng)中心化,有&G2&G2var(|5)=1(1—r2)L1211SG2,var(|5)=2(1—r2)L1222。其中L二工x2,L二工xx,11i112訂i2i=1i=1L=2X2則x,x之間的相關(guān)系數(shù)r=5,可以看到,在r固定不變時,22i21212:LL12i=1*1122當(dāng)樣本容量n增大時,L和L都會增大,兩個方差均可減小,從而減弱了多重1122共線性對回歸方程的影響。但是,增加了樣本數(shù)據(jù),可能新的數(shù)據(jù)距離原來樣本數(shù)據(jù)的平均值較大,會產(chǎn)生一些新的問題,使模型擬合變差,沒有達(dá)到增加樣本數(shù)據(jù)期望的效果。3、回歸系數(shù)的有偏估計(jì)為了消除多重共線性對回歸模型的影響,還可以采取有偏估計(jì)為代價來提高估計(jì)量穩(wěn)定性的方法,如嶺回歸,主成份回歸法,偏最小二乘法等。U7嶺回歸分析一、嶺回歸的定義嶺回歸法是以引入偏誤為代價減小參數(shù)估計(jì)量的方差是一種回歸方法。當(dāng)自變量間存在多重共線性,|XX|沁0時,設(shè)想給XX加上一個正常數(shù)矩陣kI(k>0)那么XX+kI接近奇異的程度就會比XX接近奇異的程度小得多??紤]到變量的量綱問題,先要對數(shù)據(jù)標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的設(shè)計(jì)矩陣仍用X表示,定義0(k)二(XX+kI)-1Xy稱為P的嶺回歸估計(jì),其中,k稱為嶺參數(shù)。由于假設(shè)X已經(jīng)標(biāo)準(zhǔn)化,所以XX就是自變量樣本相關(guān)陣。y可以標(biāo)準(zhǔn)化也可以未標(biāo)準(zhǔn)化,如果y也經(jīng)過標(biāo)準(zhǔn)化,那么計(jì)算的實(shí)際是標(biāo)準(zhǔn)化嶺回歸估計(jì)。0(k)作為0的估計(jì)應(yīng)比最小二乘估計(jì)0穩(wěn)定,當(dāng)k=0時的嶺回歸估計(jì)0(0)就是普通的最小二乘估計(jì)。因?yàn)閹X參數(shù)k不是唯一確定的,所以得到的嶺回歸估計(jì)0(k)實(shí)際是回歸參數(shù)0的一個估計(jì)族。二、嶺回歸估計(jì)的性質(zhì)性質(zhì)1,0(k)是回歸參數(shù)0的有偏估計(jì)。證明:E[0(k)]二E((XX+kI)-1Xy)二(XX+kI)-1XE(y)二(XX+kI)-1XX0顯然只有當(dāng)k=0時,E[0(0)]=0;當(dāng)艮工0時,0(k)是0的有偏估計(jì)。性質(zhì)2,在認(rèn)為嶺參數(shù)k是與y無關(guān)的常數(shù)時,0(k)=(XX+kI)-1Xy是最小二乘估計(jì)0的一個線性變換。也是y的線性函數(shù)。證明:0(k)=(xX+kI)-1xy=(xX+kI)-1xx(xx)-ixy=(xx+kI)-1xx0性質(zhì)3,對任意k>0,間豐0,總有110(k)|<101。這里制是向量的模,等于向量各分量的平方和的平方根。這個性質(zhì)表明0(k)看看成由0進(jìn)行某種向原點(diǎn)的壓縮。從0(k)的表達(dá)式可以看到,當(dāng)k?時,0(k)T0,即0(k)化為零向量。性質(zhì)4,以MSE表示估計(jì)向量的均方誤差,則存在k>0,使得MSE[0(k)]<MSE(0)。三、嶺參數(shù)k的選擇嶺參數(shù)選擇的目的是要選擇使MSE(0(k))達(dá)到最小的k,最優(yōu)k值依賴于1、嶺跡法嶺跡法的直觀考慮是,如果最小二乘估計(jì)看來有不合理之外,如估計(jì)值以及正負(fù)號不符合經(jīng)濟(jì)意義,希望能通過采用適當(dāng)?shù)膸X估計(jì)0(k)來加以一定程度的改善,嶺參數(shù)k值的選擇就是尤為重要。選擇k值的一般原則是:各回歸系數(shù)的嶺估計(jì)基本穩(wěn)定;用最小二乘估計(jì)時符號不合理的回歸系數(shù),其嶺估計(jì)的符號變得合理?;貧w系數(shù)沒有不合乎經(jīng)濟(jì)意義的絕對值;殘差平方和增大不太多。2、方差擴(kuò)大因子法=c?v((X*X+*/r'AF>J(Xr,X+WrrlX>)=(Xeov(y,y)X(X'X+A/)-1X+kiy'X(XfXkiy^er^cik)應(yīng)用方差擴(kuò)大因子法選擇k的經(jīng)驗(yàn)做法是:選擇k使所有方差擴(kuò)大因子c<10,當(dāng)c<10時,所對應(yīng)的k值的嶺估計(jì)0(k)就會相對穩(wěn)定。jjjj3、由殘差平方和來確定k值嶺估計(jì)0(k)在減小均方誤差的同時增大了殘差平方和,我們希望嶺回歸的殘差平方和SSE(k)的增加幅度控制在一定的限度以內(nèi),從而可以給定一個大于1的c值,要求SSE(k)<cSSE,尋找使該式成立的最大的k值。四、用嶺回歸選擇變量嶺回歸選擇變量的原則:1、在嶺回歸的計(jì)算中,假定設(shè)計(jì)矩陣X已經(jīng)中心化和標(biāo)準(zhǔn)化了,這樣可以直接比較標(biāo)準(zhǔn)化嶺回歸系數(shù)的大小??梢蕴蕹魳?biāo)準(zhǔn)化嶺回歸系數(shù)比較穩(wěn)定且絕對值很小的自變量。2、當(dāng)k值較小時,標(biāo)準(zhǔn)化嶺回歸系數(shù)的絕對值并不是很小,但是不穩(wěn)定,隨著k的增加迅速趨于零,像這樣嶺回歸系數(shù)不穩(wěn)定,震動趨于零的自變量可以予以剔除。3、去掉標(biāo)準(zhǔn)化嶺回歸系數(shù)很不穩(wěn)定的自變量。如果有若干個嶺回歸系數(shù)不穩(wěn)定,究竟去掉幾個,去掉哪幾個,這并無一般原則可循,這需根據(jù)去掉某個變量后重新進(jìn)行嶺回歸分析的效果來確定。U9非線性回歸一、可化為線性回歸的曲線回歸可線性化的曲線回歸模型稱為本質(zhì)線性回歸模型,不可線性化的曲線回歸模型稱為本質(zhì)非線性回歸模型。乘性誤差項(xiàng)模型和加性誤差項(xiàng)模型所得的結(jié)果有一定差異,其中乘性誤差項(xiàng)模型認(rèn)為y本身是異方差的,而lny是等方差的。加性誤差項(xiàng)模型認(rèn)為y是等ttt方差的。從統(tǒng)計(jì)性質(zhì)看兩者的差異,前者淡化了y值大的項(xiàng)(近期數(shù)據(jù))的作用,t強(qiáng)化了y值小的項(xiàng)(早期數(shù)據(jù))的作用,對早起數(shù)據(jù)擬合得效果較好,而后者則t對近期數(shù)據(jù)擬合得效果較好。影響模型擬合效果的統(tǒng)計(jì)性質(zhì)主要是異方差、自相關(guān)和共線性這三個方面。異方差可以同構(gòu)選擇乘性誤差項(xiàng)模型和加性誤差項(xiàng)模型解決,必要時還可以使用加權(quán)最小二乘。二、多項(xiàng)式回歸多項(xiàng)式回歸模型是一種重要的曲線回歸模型,這種模型通常容易轉(zhuǎn)化為一般的多元線性回歸來做處理。1、常見的多項(xiàng)式回歸模型回歸模型y二卩+卩x+卩x2+8稱為一元二階多項(xiàng)式模型。通常將回歸模i01i2ii型中的系數(shù)表示成:y-P+Px+Px2+8,回歸函數(shù)y=P+Px+Px2是一i01i11iii01i11i條拋物線方程,通常稱為二項(xiàng)式回歸函數(shù)?;貧w系數(shù)P為線性效應(yīng)系數(shù),P為111二次效應(yīng)系數(shù)。當(dāng)自變量的冪次超過3時,回歸系數(shù)的解釋變得困難起來,回歸函數(shù)也變得很不穩(wěn)定,對回歸模型的應(yīng)用會收到影響。因而,冪次超過3的多項(xiàng)式回歸模型不常使用。在實(shí)際應(yīng)用當(dāng)中,常遇到含兩個或兩個以上自變量的情況,稱回歸模型:y-P+Px+Px2+Px+Px2+Pxx+8為二元二階多項(xiàng)式回i01i111i12i222i212i1i2i歸模型。它的回歸系數(shù)中分別含有兩個自變量的線性項(xiàng)系數(shù)P和P,二次項(xiàng)系12數(shù)P和P,并含有交叉乘積項(xiàng)系數(shù)P,交叉乘積項(xiàng)表示x與x的交互作用,11221212系數(shù)P通常稱為交互影響系數(shù)。12三、非線性模型在非線性回歸中,平方和分解式SST=SSR+SSE不在成立,類似于線性回歸中的復(fù)決定系數(shù),定義非線性回歸的相關(guān)指數(shù):R"2=1-SSE/SST用非線性最小二乘法求解非線性回歸方程,非線性最小二乘是使殘差平方和達(dá)到最小,這種平方損失函數(shù)的優(yōu)點(diǎn)是數(shù)學(xué)性質(zhì)好,在一定條件下具有統(tǒng)計(jì)學(xué)的一些優(yōu)良性質(zhì),但其最大的缺點(diǎn)是缺乏穩(wěn)健性。當(dāng)數(shù)據(jù)存在異常值時,參數(shù)的估計(jì)效果變得很差。因而在一些場合,可以用一些更穩(wěn)健的殘差損失函數(shù)代替平方和損失函數(shù),例如絕對值損失函數(shù)。絕對值殘差損失函數(shù)為:Q(6)仝|y-f(x,6)|ii有時候用最小絕對值法的最大殘差比普通最小二乘法的最大殘差更大,這是否與最小絕對值法的穩(wěn)健性相矛盾?其實(shí)這正說明了最小絕對值法的穩(wěn)健性。這是因?yàn)樽钚〗^對值法受異常值的影響程度小,回歸線向異常值靠攏的程度也小,因而異常值的殘差反而大。四、非線性回歸的一些問題根據(jù)實(shí)際觀測數(shù)據(jù)配以合適的曲線模型一般有兩個重要的步驟。一是確定曲線類型。對一個自變量的情況,確定曲線類型一般是把樣本觀測值畫成散點(diǎn)圖,由散點(diǎn)圖的形狀來大體確定曲線類型。再就是根據(jù)專業(yè)知識來確定曲線類型,如商品的銷售量與廣告費(fèi)之間的關(guān)系,一般用S形曲線來描述;在農(nóng)業(yè)生產(chǎn)中,糧食的產(chǎn)量與種植密度之間的關(guān)系往往服從拋物線關(guān)系。對于由專業(yè)知識可以確定的曲線類型,就用相應(yīng)的模型去試著擬合,如果擬合的效果可以,問題就解決了。二是參數(shù)估計(jì)問題。如果可將曲線模型轉(zhuǎn)化為線性模型,就可用普通最小二乘法去估計(jì)未知參數(shù),如果不能用某種變換把它轉(zhuǎn)化成線性模型,則參數(shù)的估計(jì)就要用非線性最小二乘法進(jìn)行。非線性最小二乘法比普通最小二乘法要復(fù)雜得多一般都是用迭代方法。由于任一連續(xù)函數(shù)都可用分段多項(xiàng)式來逼近,所以在實(shí)際問題中,不論變量y與其他變量的關(guān)系如何,在相當(dāng)寬的范圍內(nèi)總可以用多項(xiàng)式來擬合。例如在一元回歸關(guān)系中,如果變量y與x的關(guān)系可以假定為p次多項(xiàng)式,就可以轉(zhuǎn)化為多元線性回歸模型來處理。利用多項(xiàng)式回歸模型可能會把已有的數(shù)據(jù)擬合得十分漂亮,但是,如果對較大的x作外推預(yù)測,這種多項(xiàng)式回歸函數(shù)就可能會得到很差的結(jié)果,預(yù)測值可能會朝著意想不到的方向轉(zhuǎn)折,可能會與實(shí)際情況嚴(yán)重不符。所有類型的多項(xiàng)式回歸函數(shù),尤其是高階多項(xiàng)式回歸都具有外推風(fēng)險(xiǎn)。特別的,對于一元回歸,只要用一元n-1次多項(xiàng)式就可以把n對數(shù)據(jù)完全擬合,多項(xiàng)式曲線通過所有n-1個點(diǎn),殘差平方和為零,但是這種的回歸擬合卻沒有任何實(shí)際意義。因此,必須謹(jǐn)慎地使用高階多項(xiàng)式回歸模型,因?yàn)榈玫降幕貧w函數(shù)只是數(shù)據(jù)的良好擬合,而并不能如實(shí)地表明x與y之間回歸關(guān)系的基本特征,并會導(dǎo)致不規(guī)則的外推。所以在應(yīng)用多項(xiàng)式回歸時,階數(shù)一般不要超過三階。一般地說,當(dāng)非線性回歸模型選擇正確,回歸擬合效果好時,相關(guān)指數(shù)R2能夠如實(shí)反映回歸擬合效果;而當(dāng)回歸擬合效果差時,相關(guān)指數(shù)R2則不能夠如實(shí)反映回歸擬合效果,甚至可能取為負(fù)值。U10含定性變量的回歸模型一、自變量中含有定性變量的回歸模型在回歸分析中,對一些自變量是定性變量的情形先量化處理,引入只取0和1兩個值的虛擬自變量。一個定性變量有k類可能的取值時,只需要引入k-1個0-1型自變量。需要指出的是,雖然虛擬變量取某一數(shù)值,但這一數(shù)值沒有任何數(shù)量大小的意義,它僅僅用來說明觀察單位的性質(zhì)或?qū)傩?。二、自變量中含有定性變量的回歸模型的應(yīng)用1、分段回歸在實(shí)際問題中,會碰到某些變量在不同的影響因素范圍內(nèi)變化趨勢截然不同對于這種問題,有時用多種曲線擬合效果仍不能令人滿意。如果做殘差分析,會發(fā)現(xiàn)殘差不是隨機(jī)的,而具有一定的系統(tǒng)性。2、回歸系數(shù)相等的檢驗(yàn)三、因變量是定性變量的回歸模型1、定性因變量的回歸方程的意義設(shè)y是只取0,1的定性變量,考慮簡單線性回歸模型y二B+Px+8,在這i01ii種y只取0,1的情況下,因變量均值e(y)=B+px有著特殊的意義。由于y是i01ii0-1型貝努力隨機(jī)變量,則得如下概率分布p(y=1)=兀,根據(jù)離散型隨機(jī)變量ii期望的定義,可得E(y)二兀二p+pX,所以,作為由回歸函數(shù)給定的因變量ii01i均值E(Y)=B+pX是由自變量水平為x時Y的概率。對因變量均值的這種解i01iii釋既適應(yīng)于這里的簡單線性回歸函數(shù),也適用于復(fù)雜的多元回歸函數(shù)。當(dāng)因變量是0,1時,因變量均值總是代表給定自變量時y=1的概率。2、定性因變量回歸的特殊問題離散非正態(tài)誤差項(xiàng)對一個取值為0和1的因變量,誤差項(xiàng)8二y-B-Bx只能取兩個值:當(dāng)ii01iy=1時,8=1—p—px=1—兀當(dāng)y—0時,8=—B—px=—兀顯然,ii01iiii01ii誤差項(xiàng)8是兩點(diǎn)型離散分布,當(dāng)然正態(tài)誤差回歸模型的假定就不適用了。i零均值異方差當(dāng)因變量是定性變量時,誤差項(xiàng)8仍然保持零均值,這時出現(xiàn)的另一個問題i是誤差項(xiàng)8的方差不相等。0-1型隨機(jī)變量8的方差為:D(8)—D(y)iiii-兀(1-兀)-(p+pX)(1-p—pX),可以看到8的方差依賴于X,是異方差,ii01i01iii不滿足線性回歸方程的基本假定,最小二乘估計(jì)的效果也就不會好?;貧w方程的限制當(dāng)因變量為0,1虛擬變量時,回歸方程代表概率分布,所以因變量均值受到如下限制:0<E(y)-兀<1,對一般的回歸方程本身并不具有這種限制,線性ii回歸方程y=0+0x將會超出這個限制范圍。i01i四、logistic回歸模型1、分組數(shù)據(jù)的logistic回歸模型針對0-1型因變量產(chǎn)生的問題,應(yīng)該對回歸模型做兩個方面的改進(jìn)。第一,回歸函數(shù)應(yīng)該改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線,而不能再沿用直線回歸方程。限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,例如所有連續(xù)型隨機(jī)變量的分布函數(shù)都符合要求,常用的是Logistic函數(shù)與正態(tài)分布函數(shù)°Logistic函數(shù)的形式為:f(x)=上=—1+ex1+e-x第二,因變量y本身只取0,1兩個離散值,不適于直接作為回歸模型中的因i變量。由于回歸函數(shù)E(y)=兀=0+0x表示在自變量為x的條件下y的平均ii01iii值,而y是0-1型隨機(jī)變量,因而E(y)=兀就是在自變量為x的條件下y等于iiiii1的比例。這提示我們可以用y等于1的比例代替y本身作為因變量。ii分組數(shù)據(jù)的logistic回歸只適用于大樣本的分組數(shù)據(jù),對小樣本的未分組數(shù)據(jù)不適用。分組數(shù)據(jù)的logistic回歸首先要對頻率作logistic變換,變換公式為

p'=ln(]Pi),這個變換要求p[=2豐0或1,當(dāng)存在m=0或m=n時,可

以用如下白的修正公式計(jì)算樣本頻率pi=,分組數(shù)據(jù)的logistic回歸存in+1在異方差性,需要米取加權(quán)最小二乘估計(jì)。出來權(quán)函數(shù)w=np(1-p)之外,也iiii可以通過兩階段最小二乘法確定權(quán)函數(shù)。第一階段是用普通最小二乘擬合回歸模型。第二階段是從第一階段的結(jié)果估計(jì)出組比例p,用權(quán)數(shù)w=np(1-p)作iiiii加權(quán)最小二乘回歸。2、未分組數(shù)據(jù)的logistic回歸模型設(shè)y是0-1型變量,x1,x2,…,xp是與y相關(guān)的確定性變量,n組觀測數(shù)據(jù)為(xil,xi2,…,xip;yi),i=1,2,…,n,yi與xi1,xi2,…,xip的關(guān)系為:E(yi)二ni二f(B0+B1xi1+B2xi2+???+Bpxip)其中函數(shù)f(x)是值域在[0,1]區(qū)間內(nèi)的單調(diào)增函數(shù)。對于Logistic回歸.于是yi是均值為ni二f(B0+B1xi1+&2xi2+???+Bpxip)的0-1型分布,概率函數(shù)為:P(yi=1)=niP(yi=0)=1-ni可以把yi的概率函數(shù)合寫為:P(y)=兀(1-兀)r于是y1,y2,…,yn的似然函數(shù)為:L=HP(y)=岡兀yi(1—兀)1-yiiii五、多類別logistic回歸=iProbit回歸稱為單位概率回歸,與Logistic回歸相似,也是擬合0-1型因變量回歸的方法,其回歸函數(shù)是①-1(兀?)=00+01二1+…+0pxp用樣本比例代替概率,表示為樣本回歸模型①-i(p)=0+0x+…+0x+£i01i1pipi附課后習(xí)題解答(主要為簡答題)第2章一元線性回歸分析一元線性回歸有哪些基本假定?1.因變量y與自變量x具有線性關(guān)系2?解釋變量X是確定性變量,Y是隨機(jī)變量;3?隨機(jī)誤差項(xiàng)8具有零均值、同方差和不序列相關(guān)性:E(£)=0i=1,2,...,nVar(e)=O2i=1,2,...,nCov(j引=0iHji,j=1,2,.,n隨機(jī)誤差項(xiàng)8與解釋變量X之間不相關(guān):Cov(X,8.)=0i=1,2,...,n5.8服從零均值、同方差、零協(xié)方差的正態(tài)分布e~N(0,6)i=1,2,...,n第3章多元線性回歸3.2討論樣本容量n與自變量個數(shù)p的關(guān)系,它們對模型的參數(shù)估計(jì)有何影響?答:在多元線性回歸模型中,樣本容量n與自變量個數(shù)p的關(guān)系是:n>>p。如果n<=p對模型的參數(shù)估計(jì)會帶來很嚴(yán)重的影響。因?yàn)椋涸诙嘣€性回歸模型中,有p+1個待估參數(shù)B,所以樣本容量的個數(shù)應(yīng)該大于解釋變量的個數(shù),否則參數(shù)無法估計(jì)。解釋變量X是確定性變量,要求rank(X)=p+1<n,表明設(shè)計(jì)矩陣X中的自變量列之間不相關(guān),即矩陣X是一個滿秩矩陣。若rank(X)<p+1,則解釋變量之間線性相關(guān),(xX)-1是奇異陣,則卩的估計(jì)不穩(wěn)定。3.3證明CT2=SSE(n-p-1)隨機(jī)誤差項(xiàng)e的方差b2的無偏估計(jì)。T62=SSE=(e'e)=工e2,i=1TOC\o"1-5"\h\zn-p-1n-p-1n-p-1:i=1E(為e2)=藝D(e)=藝62(1-h)=62藝(1-h)=62(n一工h)=62(n-p-1)iiiiiiiii=1i=1i=1i=1i=1...E(62)=—1—E(Xe2)=62n-p-1ii=13.4一個回歸方程的復(fù)相關(guān)系數(shù)R=0?99,樣本決定系數(shù)R2=0.9801,我們能判斷這個回歸方程就很理想嗎?答:不能斷定這個回歸方程理想。因?yàn)椋?.在樣本容量較少,變量個數(shù)較大時,決定系數(shù)的值容易接近1,而此時可能F檢驗(yàn)或者關(guān)于回歸系數(shù)的t檢驗(yàn),所建立的回歸方程都沒能通過。樣本決定系數(shù)和復(fù)相關(guān)系數(shù)接近于1只能說明Y與自變量X1,X2,...,Xp整體上的線性關(guān)系成立,而不能判斷回歸方程和每個自變量是顯著的,還需進(jìn)行F檢驗(yàn)和t檢驗(yàn)。在應(yīng)用過程中發(fā)現(xiàn),在樣本容量一定的情況下,如果在模型中增加解釋變量必定使得自由度減少,使得R2往往增大,因此增加解釋變量(尤其是不顯著的解釋變量)個數(shù)引起的R2的增大與擬合好壞無關(guān)。第4章違背基本假設(shè)的情況試舉例說明產(chǎn)生異方差的原因。答:例4.1:截面資料下研究居民家庭的儲蓄行為Yi=^0+^1Xi+ei其中:Yi表示第i個家庭的儲蓄額,Xj表示第i個家庭的可支配收入。由于高收入家庭儲蓄額的差異較大,低收入家庭的儲蓄額則更有規(guī)律性,差異較小,所以£i的方差呈現(xiàn)單調(diào)遞增型變化。例4.2:以某一行業(yè)的企業(yè)為樣本建立企業(yè)生產(chǎn)函數(shù)模型Yi=Aib1Kib2Lib3e£i被解釋變量:產(chǎn)出量Y,解釋變量:資本K、勞動L、技術(shù)A,那么每個企業(yè)所處的外部環(huán)境對產(chǎn)出量的影響被包含在隨機(jī)誤差項(xiàng)中。由于每個企業(yè)所處的外部環(huán)境對產(chǎn)出量的影響程度不同,造成了隨機(jī)誤差項(xiàng)的異方差性。這時,隨機(jī)誤差項(xiàng)£的方差并不隨某一個解釋變量觀測值的變化而呈規(guī)律性變化,呈現(xiàn)復(fù)雜型。異方差帶來的后果有哪些?答:回歸模型一旦出現(xiàn)異方差性,如果仍采用OLS估計(jì)模型參數(shù),會產(chǎn)生下列不良后果:1、參數(shù)估計(jì)量非有效2、變量的顯著性檢驗(yàn)失去意義3、回歸方程的應(yīng)用效果極不理想總的來說,當(dāng)模型出現(xiàn)異方差性時,參數(shù)OLS估計(jì)值的變異程度增大,從而造成對Y的預(yù)測誤差變大,降低預(yù)測精度,預(yù)測功能失效。4.3簡述用加權(quán)最小二乘法消除一元線性回歸中異方差性的思想與方法。答:普通最小二乘估計(jì)就是尋找參數(shù)的估計(jì)值使離差平方和達(dá)極小。其中每個平方項(xiàng)的權(quán)數(shù)相同,是普通最小二乘回歸參數(shù)估計(jì)方法。在誤差項(xiàng)等方差不相關(guān)的條件下,普通最小二乘估計(jì)是回歸參數(shù)的最小方差線性無偏估計(jì)。然而在異方差的條件下,平方和中的每一項(xiàng)的地位是不相同的,誤差項(xiàng)的方差大的項(xiàng),在殘差平方和中的取值就偏大,作用就大,因而普通最小二乘估計(jì)的回歸線就被拉向方差大的項(xiàng),方差大的項(xiàng)的擬合程度就好,而方差小的項(xiàng)的擬合程度就差。由OLS求出的仍然是的無偏估計(jì),但不再是最小方差線性無偏估計(jì)。所以就是:對較大的殘差平方賦予較小的權(quán)數(shù),對較小的殘差平方賦予較大的權(quán)數(shù)。這樣對殘差所提供信息的重要程度作一番校正,以提高參數(shù)估計(jì)的精度。4.4簡述用加權(quán)最小二乘法消除多元線性回歸中異方差性的思想與方法。答:運(yùn)用加權(quán)最小二乘法消除多元線性回歸中異方差性的思想與一元線性回歸的類似。多元線性回歸加權(quán)最小二乘法是在平方和中加入一個適當(dāng)?shù)臋?quán)數(shù)w,i以調(diào)整各項(xiàng)在平方和中的作用,加權(quán)最小二乘的離差平方和為:Q(B,卩,…,卩)=£w(y—卩—卩x卩x)2(2)w01pii01i1pipi=1加權(quán)最小二乘估計(jì)就是尋找參數(shù)P,P,…,P的估計(jì)值(3,0,…,0使式(2)01p0w1wpw的離差平方和Q達(dá)極小。所得加權(quán)最小二乘經(jīng)驗(yàn)回歸方程記做wTOC\o"1-5"\h\zy=0+0xH0x(3)w0w1w1pwp多元回歸模型加權(quán)最小二乘法的方法:首先找到權(quán)數(shù)w.,理論上最優(yōu)的權(quán)數(shù)w為誤差項(xiàng)方差b2的倒數(shù),即iiiw=(4)ib2i誤差項(xiàng)方差大的項(xiàng)接受小的權(quán)數(shù),以降低其在式(2)平方和中的作用;誤差項(xiàng)方差小的項(xiàng)接受大的權(quán)數(shù),以提高其在平方和中的作用。由(2)式求出的加權(quán)最小二乘估計(jì)0,0,…,0就是參數(shù)0,0,…,0的最小方差線性無偏估0w1wpw01p計(jì)。一個需要解決的問題是誤差項(xiàng)的方差a2是未知的,因此無法真正按照式(4)i選取權(quán)數(shù)。在實(shí)際問題中誤差項(xiàng)方差a2通常與自變量的水平有關(guān)(如誤差項(xiàng)方差ia2隨著自變量的增大而增大),可以利用這種關(guān)系確定權(quán)數(shù)。例如a2與第丿個自TOC\o"1-5"\h\zii變量取值的平方成比例時,即a2二kx2時,這時取權(quán)數(shù)為ijw二(5)iX2ij更一般的情況是誤差項(xiàng)方差a2與某個自變量x(與|e.|的等級相關(guān)系數(shù)最ij1大的自變量)取值的冪函數(shù)xm成比例,即a2二kxm,其中m是待定的未知參數(shù)。jij此時權(quán)數(shù)為w二(6)ixm這時確定權(quán)數(shù)W的問題轉(zhuǎn)化為確定冪參數(shù)m的問題,可以借助SPSS軟件解決。i4.7有同學(xué)認(rèn)為當(dāng)數(shù)據(jù)存在異方差時,加權(quán)最小二乘回歸方程與普通最小二乘回歸方程之間必然有很大的差異,異方差越嚴(yán)重,兩者之間的差異就越大。你是否同意這位同學(xué)的觀點(diǎn)?說明原因。答:不同意。當(dāng)回歸模型存在異方差時,加權(quán)最小二乘估計(jì)(WLS)只是普通最小二乘估計(jì)(OLS)的改進(jìn),這種改進(jìn)可能是細(xì)微的,不能理解為WLS一定會得到與OLS截然不同的方程來,或者大幅度的改進(jìn)。實(shí)際上可以構(gòu)造這樣的數(shù)據(jù),回歸模型存在很強(qiáng)的異方差,但WLS與OLS的結(jié)果一樣。加權(quán)最小二乘法不會消除異方差,只是消除異方差的不良影響,從而對模型進(jìn)行一點(diǎn)改進(jìn)。第5章自變量選擇與逐步回歸自變量選擇對回歸參數(shù)的估計(jì)有何影響?答:回歸自變量的選擇是建立回歸模型得一個極為重要的問題。如果模型中丟掉了重要的自變量,出現(xiàn)模型的設(shè)定偏誤,這樣模型容易出現(xiàn)異方差或自相關(guān)性,影響回歸的效果;如果模型中增加了不必要的自變量,或者數(shù)據(jù)質(zhì)量很差的自變量,不僅使得建模計(jì)算量增大,自變量之間信息有重疊,而且得到的模型穩(wěn)定性較差,影響回歸模型的應(yīng)用。自變量選擇對回歸預(yù)測有何影響?答:當(dāng)全模型(m元)正確采用選模型(p元)時,我們舍棄了m-p個自變量,回歸系數(shù)的最小二乘估計(jì)是全模型相應(yīng)參數(shù)的有偏估計(jì),使得用選模型的預(yù)測是有偏的,但由于選模型的參數(shù)估計(jì)、預(yù)測殘差和預(yù)測均方誤差具有較小的方差,所以全模型正確而誤用選模型有利有弊。當(dāng)選模型(p元)正確采用全模型(m元)時,全模型回歸系數(shù)的最小二乘估計(jì)是相應(yīng)參數(shù)的有偏估計(jì),使得用模型的預(yù)測是有偏的,并且全模型的參數(shù)估計(jì)、預(yù)測殘差和預(yù)測均方誤差的方差都比選模型的大,所以回歸自變量的選擇應(yīng)少而精。如果所建模型主要用于預(yù)測,應(yīng)該用哪個準(zhǔn)則來衡量回歸方程的優(yōu)劣?答:如果所建模型主要用于預(yù)測,則應(yīng)使用CP統(tǒng)計(jì)量達(dá)到最小的準(zhǔn)則來衡量回歸方程的優(yōu)劣。(即使全模型正確,但仍有可能選模型有更小的預(yù)測誤差)試述前進(jìn)法的思想方法。答:前進(jìn)法的思想是變量由少到多,每次增加一個,直至沒有可引人的變量為止。在R中使用前進(jìn)法做變量選擇時,通常將初始模型設(shè)定為不包含任何變量,只含有常數(shù)項(xiàng)的回歸模型,此時回歸模型有相應(yīng)的AIC統(tǒng)計(jì)量的值,不妨記為Co。然后,將全部m個自變量分別對因變量y建立m個一元線性回歸方程,并分別計(jì)算這m個一元回歸方程的AIC統(tǒng)計(jì)量的值,選其中最小值記為:Cj1。因此,變量xj將首先被引人回歸模型,為了方便進(jìn)一步地說明前進(jìn)法,不妨將xj記作X1,此時回歸方程對應(yīng)的AIC值記為C1。接下來,因變量y分別對(x1,x2),(x1,x3)???(x1,xm)建立m-1個二元線性回歸方程,對這m-1個回歸方程分別計(jì)算其AIC統(tǒng)計(jì)量的值,選其中最小值記為Cj2則接著將變量xj引人回歸模型,此時模型中包含的變量為X1和Xj.依上述方法接著做下去,直至再次引人新變量時,所建立的新回歸方程的AIC值不會更小,此時得到的回歸方程即為最終確定的方程。試述后退法的思想方法。答:后退法與前進(jìn)法相反,通常先用全部m個變量建立二個回歸方程,然后計(jì)算在剔除任意一個變量后回歸方程所對應(yīng)的AIC統(tǒng)計(jì)量的值,選出最小的AIC值所對應(yīng)的需要剔除的變量,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論