版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
違背基本假設(shè)的情況一、 異方差產(chǎn)生的原因在建立實(shí)際問(wèn)題的回歸分析模型時(shí),經(jīng)常會(huì)出現(xiàn)某一因素或一些因素隨著解釋變量觀測(cè)值的變化而對(duì)被解釋變量產(chǎn)生不同的影響,導(dǎo)致隨機(jī)誤差項(xiàng)產(chǎn)生不同的方差。即:var(e.)。var(e.),當(dāng)i。,時(shí)。利用平均數(shù)作為樣本數(shù)據(jù),也容易出現(xiàn)異方差性。因?yàn)檎龖B(tài)分布的普遍性,許多經(jīng)濟(jì)變量之間的關(guān)系遵從正態(tài)分布。例如不同收入水平組的人數(shù)隨收入增加呈正態(tài)分布。如果在以不同收入組的人平均數(shù)據(jù)作為樣本時(shí),由于每組中人數(shù)不同,觀察誤差也不同。一般來(lái)說(shuō),人數(shù)多的收入組的人均數(shù)據(jù)較人數(shù)少的收入組人均數(shù)據(jù)具有較高的準(zhǔn)確性。這不同的觀察誤差也會(huì)引起異方差性,且var(ei)隨收入的增加呈先降后升的趨勢(shì)。樣本數(shù)據(jù)為截面數(shù)據(jù)時(shí)容易出現(xiàn)異方差性。二、 異方差性帶來(lái)的問(wèn)題當(dāng)存在異方差性時(shí),最小二乘估計(jì)量不在具有最小方差的優(yōu)良性,參數(shù)向量B的方差大于在同方差條件下的方差,如果用普通最小二乘法估計(jì)參數(shù),將出現(xiàn)低估B的真實(shí)方差的情況。將導(dǎo)致回歸系數(shù)的t檢驗(yàn)值高估,可能造成本來(lái)不顯著的某些回歸系數(shù)變成顯著。當(dāng)存在異方差時(shí),普通最小二乘法估計(jì)存在以下問(wèn)題:1、 參數(shù)估計(jì)值雖然是無(wú)偏的,但不是最小方差線性無(wú)偏估計(jì)。2、 參數(shù)的顯著性檢驗(yàn)失效。3、 回歸方程的應(yīng)用效果極不理想。三、 異方差性的檢驗(yàn)1、殘差圖分析法殘差圖分析法是一種只管、方便的分析方法。它以殘差匕為縱坐標(biāo),以其他適宜的變量為橫坐標(biāo)畫(huà)散點(diǎn)圖。常用的橫坐標(biāo)有三種選擇:(1)以擬合值寧為橫坐標(biāo);(2)以七(i=1,2,,p)為橫坐標(biāo);(3)以觀測(cè)時(shí)間或序號(hào)為橫坐標(biāo)。5.6兒種常格的錢(qián)分布不盤(pán)圖(a)線性關(guān)系成立;(b)x加入二次方項(xiàng);(c)存在異方差,需要改變x形式(d)殘差與時(shí)間t有關(guān)。可能遺漏變量或者存在序列相關(guān),需要引入變量。2、等級(jí)相關(guān)系數(shù)法等級(jí)相關(guān)系數(shù)又稱斯皮爾曼(Spearman)檢驗(yàn),是一種應(yīng)用較廣泛的方法。這種檢驗(yàn)方法既可用于大樣本,也可以用于小樣本。進(jìn)行等級(jí)相關(guān)系數(shù)檢驗(yàn)通常有三個(gè)步驟:第一步,做y關(guān)于x的普通最小二乘回歸,求出e,的估計(jì)值,即匕的值第二步,取e的絕對(duì)值,即|e|,把x和|e|按遞增或遞減的次序排列后分成等i i ii級(jí),按下式計(jì)算出等級(jí)相關(guān)系數(shù):氣=1—:_咒d;,其中,n為樣本容量,i=1d為對(duì)應(yīng)于x和|e|的等級(jí)的差數(shù)。i ii第三步,做等級(jí)相關(guān)系數(shù)的顯著性檢驗(yàn)。在n>8的情況下,用下式對(duì)樣本等級(jí)相關(guān)系數(shù)^進(jìn)行t檢驗(yàn),檢驗(yàn)統(tǒng)計(jì)量為:t=也登,如果t<危-2)可以認(rèn)為Y1-[2異方差性問(wèn)題不存在,如果t>t(n-2),說(shuō)明x與|e|之間存在系統(tǒng)關(guān)系,異a2 ii方差性問(wèn)題存在。(在這個(gè)檢驗(yàn)中,原假設(shè)為:不存在異方差性)3、實(shí)例1分析用普通最小二乘法建立儲(chǔ)蓄與居民收入的回歸方差,并畫(huà)出殘差散點(diǎn)圖;診斷該問(wèn)題是否存在異方差性。數(shù)據(jù)如下所示:儲(chǔ)蓄y居民收入乂七等級(jí)殘差ei|匕|殘差|匕|等級(jí)did226487771169.0169.016-1522510592102-26.626.63-119099543-104.6104.67-416131105084-110.5110.58-416122109795-159.4159.415-10100107119126-253.4253.423-17289406127477-25.125.125255031349988.28.21749431142699-129.0129.09005881552210-78.078.046368981673011129.7129.710119501766312102.7102.766367791857513-145.5145.514-118191963514-195.3195.319-5251222211631578.478.451010017022288016413.0413.028-1214415782412717183.4183.418-1116542560418134.4134.41174914002650019-195.5195.520-1118292767020134.4134.412864
22002830021452.1452.129-86420172743022342.8342.827-52521052956023250.4250.4221116002815024-135.2135.2131112122503210025180.4180.41786424203250026316.5316.5251125703525027233.7233.72163617203350028-468.2468.230-2419003600029-499.8499.831-2421003620030-316.7316.72641623003820031-286.1286.124749用SPSS軟件建立y對(duì)x的普通最小二乘回歸,決定系數(shù)r2=0.192,回歸標(biāo)準(zhǔn)差預(yù)=247.62,回歸方程為y=-648.124+0.0847尤,相關(guān)輸出表如下:ModelSummarybModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.955a.912.909247.623Predictors:(Constant),xDependentVariable:yANOVAbModelSumofSquaresdfMeanSquareFSig.1 Regression1.844E711.844E7300.732.000aResidual1778202.7352961317.336Total2.022E730Predictors:(Constant),xDependentVariable:yCoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1 (Constant)x-648.124.085118.163.005.955-5.48517.342.000.000a.DependentVariable:y
計(jì)算等級(jí)相關(guān)系數(shù),根據(jù)所給的數(shù)據(jù)表,可以通過(guò)等級(jí)相關(guān)系數(shù)步驟判斷誤差項(xiàng)是否存在異方差。實(shí)際操作當(dāng)中,可以用SPSS實(shí)現(xiàn),輸出結(jié)果如下所示:CorrelationsxabseSpearman'srhox CorrelationCoefficient1.000.685**Sig.(2-tailed)..000N3131abseCorrelationCoefficient.685**1.000Sig.(2-tailed).000.N3131**.Correlationissignificantatthe0.01level(2-tailed).可以看出等級(jí)相關(guān)系數(shù)r=0.685,p值=0.000,認(rèn)為殘差絕對(duì)值|e|與自變量x顯s i i著相關(guān),存在異方差。計(jì)算殘差絕對(duì)值|e.|與自變量x的相關(guān)性時(shí)采用Spearman等級(jí)相關(guān)系數(shù),而不采用Pearson簡(jiǎn)單相關(guān)系數(shù),這是由于等級(jí)相關(guān)系數(shù)可以反映非線性相關(guān)的情況,而簡(jiǎn)單相關(guān)系數(shù)不能如實(shí)反映非線性相關(guān)的情況。等級(jí)相關(guān)系數(shù)可以如實(shí)反映單調(diào)遞增或單調(diào)遞減趨勢(shì)的變量間的相關(guān)性,而簡(jiǎn)單相關(guān)系數(shù)值適宜衡量直線趨勢(shì)變量間的向關(guān)系。四、一元加權(quán)最小二乘估計(jì)當(dāng)研究的問(wèn)題存在異方差性時(shí),就不能用普通最小二乘法進(jìn)行參數(shù)估計(jì)了。消除異方差性的方法通常有加權(quán)最小二乘法、Box-Cox變換法、方差穩(wěn)定變換法。對(duì)于一元線性回歸方程來(lái)說(shuō),普通最小二乘法的離差平方和為:Q(P,P)=工(y-E(y))2=X(y-P-Px)2,其中每個(gè)觀測(cè)值的權(quán)數(shù)相同。0 1 i i i0 1ii=1 i=1在等方差的條件下,平方和的每一項(xiàng)的地位是相同的。然而,在異方差的條件下,平方和中的每一項(xiàng)的地位是不同的,誤差項(xiàng)方差七2大的項(xiàng),在平方和式子中的作用就偏大,因而普通最小二乘估計(jì)的回歸線就被拉向方差大的項(xiàng),而方差小的項(xiàng)的擬合程度就差。加權(quán)最小二乘估計(jì)的方法是在平方和中加入一個(gè)適當(dāng)?shù)臋?quán)數(shù).,以調(diào)整各項(xiàng)在平方和中的作用。一元線性回歸的加權(quán)最小二乘的離差平方和為:Q(P,P)=^^w(y一E(y))2=Xw(y-P-Px)2,其中w為0 1 ii i ii0 1i ii=1 i=1給定的權(quán)數(shù)。使用加權(quán)最小二乘法時(shí),為了消除異方差性的影響,為了使各項(xiàng)的地位相同,觀測(cè)值的權(quán)數(shù)應(yīng)該是觀測(cè)值誤差項(xiàng)方差的倒數(shù),即w,=-1-。誤差項(xiàng)i方差較大的觀測(cè)值接受較小的權(quán)數(shù),誤差項(xiàng)方差較小的觀測(cè)值接受較大的權(quán)數(shù)。在社會(huì)、經(jīng)濟(jì)研究中,經(jīng)常會(huì)遇到這種特色的權(quán)數(shù),即誤差項(xiàng)方差與x的幕函數(shù)xm成比例,其中,m為待定的未知參數(shù)。此時(shí)權(quán)函數(shù)為:w=上。IXmi利用一元加權(quán)最小二乘估計(jì)對(duì)實(shí)例1進(jìn)行改進(jìn),SPSS輸出結(jié)果如下:ModelSummaryMultipleR.967RSquare.936AdjustedRSquare.934Std.ErroroftheEstimate.125Log-likelihoodFunctionValue-209.316ANOVASumofSquaresdfMeanSquareFSig.Regression6.65516.655423.741.000Residual.45529.016Total7.11030改進(jìn)后的模型可決系數(shù),F(xiàn)值都較之前的有所提高。加權(quán)最小二乘估計(jì)照顧小殘差項(xiàng)是以犧牲大殘差項(xiàng)為代價(jià)的,當(dāng)回歸模型存在異方差時(shí),加權(quán)最小二乘估計(jì)只是對(duì)普通最小二乘法估計(jì)的改進(jìn),這種改進(jìn)有可能是細(xì)微的,不能理解為加權(quán)最小二乘估計(jì)一定會(huì)得到與普通最小二乘估計(jì)截然不同的回歸方程,或者一定有大幅度的改進(jìn)。另外,加權(quán)最小二乘以犧牲大方差項(xiàng)的擬合效果為代價(jià)改善了小方差項(xiàng)的擬合效果,這也并不總是研究者所需要的。在社會(huì)經(jīng)濟(jì)現(xiàn)象中,通常變量取值大時(shí)方差也大,在以經(jīng)濟(jì)總量為研究目標(biāo)時(shí),更關(guān)心的是變量取值大的項(xiàng),而普通最小二乘恰好能滿足這個(gè)要求。所以在這樣的一些特定場(chǎng)合下,即使數(shù)據(jù)存在異方差,也仍然可以選擇使用普通最小二乘估計(jì)。五、 多元加權(quán)最小二乘估計(jì)多元線性回歸有多個(gè)自變量,通常取權(quán)數(shù)w為某個(gè)自變量七(j=1,2,.../)的幕函數(shù),即W=Xm,在X,X,…,X這?個(gè)自變量中,應(yīng)該選取哪一個(gè)自變量,j 1 2P這只需計(jì)算每個(gè)自變量X與普通殘差的等級(jí)相關(guān)系數(shù),選取等級(jí)相關(guān)系數(shù)最大j的自變量構(gòu)造權(quán)函數(shù)。六、 自相關(guān)性如果一個(gè)回歸模型不滿足cov(6[,七)豐0,則稱為隨機(jī)誤差項(xiàng)之間存在自相關(guān)現(xiàn)象。這里的自相關(guān)現(xiàn)象不是指兩個(gè)或者兩個(gè)以上的變量之間的相關(guān)關(guān)系,而指的是一個(gè)變量前后期數(shù)值之間存在的相關(guān)關(guān)系。七、 自相關(guān)產(chǎn)生的背景和原因產(chǎn)生序列自相關(guān)的背景及原因通常有以下幾個(gè)方面。1、 遺漏關(guān)鍵變量時(shí)會(huì)產(chǎn)生序列的自相關(guān)性。2、 經(jīng)濟(jì)變量的滯后性會(huì)給序列帶來(lái)自相關(guān)性。3、 采用錯(cuò)誤的回歸函數(shù)形式也可能引起自相關(guān)性。例如,假定某實(shí)際問(wèn)題的正確回歸函數(shù)應(yīng)由指數(shù)形式y(tǒng)=P0exp(P1x+8)來(lái)表示,但無(wú)用了線性回歸模型y=P0+P1x+8,表示,這時(shí),誤差項(xiàng)"也會(huì)表現(xiàn)為自相關(guān)性。4、 蛛網(wǎng)現(xiàn)象可能帶來(lái)序列的自相關(guān)性。(經(jīng)濟(jì)學(xué)中的蛛網(wǎng)模型)5、 因?qū)?shù)據(jù)加工整理而導(dǎo)致誤差項(xiàng)之間產(chǎn)生自相關(guān)性。八、 自相關(guān)性帶來(lái)的問(wèn)題當(dāng)一個(gè)線性回歸模型的隨機(jī)誤差項(xiàng)存在序列相關(guān)時(shí),就違背了線性回歸方程的基本假設(shè),仍直接用普通最小二乘法估計(jì)未知參數(shù),序列相關(guān)性會(huì)帶來(lái)下列問(wèn)題:1、 參數(shù)估計(jì)值不再具有最小方差線性無(wú)偏性2、 均方誤差MSE可能?chē)?yán)重低估誤差項(xiàng)的方差。3、 容易導(dǎo)致對(duì)t值評(píng)價(jià)過(guò)高,常用的F檢驗(yàn)和t檢驗(yàn)失效。4、 當(dāng)存在序列相關(guān)性時(shí),B仍然是p的無(wú)偏估計(jì)量,但在任一特定的樣本中,B可能?chē)?yán)重歪曲p的真實(shí)情況,即最小二乘估計(jì)量對(duì)抽樣波動(dòng)變得非常敏感。5、如果不加處理地運(yùn)用普通最小二乘法估計(jì)模型參數(shù),用此模型進(jìn)行預(yù)測(cè)和進(jìn)行結(jié)構(gòu)分析將會(huì)帶來(lái)較大的方差甚至錯(cuò)誤的解釋。九、自相關(guān)性的診斷1、圖示法圖示法是一種直觀的診斷方法,它是把給定的回歸模型直接用普通最小二乘法估計(jì)參數(shù),求出殘差項(xiàng)e,e作為隨機(jī)項(xiàng)s的真實(shí)值的估計(jì)值,在描繪e的散點(diǎn)圖,tt t t根據(jù)et的相關(guān)性來(lái)判斷隨機(jī)項(xiàng)七的序列相關(guān)性。(1)繪制e,,eti的散點(diǎn)圖。圖文3圖a表明隨機(jī)擾動(dòng)項(xiàng)存在正的序列相關(guān),圖b表明隨機(jī)擾動(dòng)項(xiàng)存在負(fù)相關(guān)。(2)按照時(shí)間順序繪制回歸殘差項(xiàng)et的圖形,如果et隨著t的變化逐次有規(guī)律地變化,呈現(xiàn)鋸齒形或循環(huán)形狀的變化,可斷言et存在相關(guān),表明s,存在著序列相關(guān)。如果e隨著t的變化逐次變化并不斷地改變符號(hào),如下圖d所示,那么隨機(jī)擾t動(dòng)項(xiàng)st存在負(fù)的序列相關(guān),這種現(xiàn)象稱為蛛網(wǎng)現(xiàn)象;如果et隨著t的變化逐次變化并不頻繁地改變符號(hào),而是幾個(gè)正的e后面跟著幾個(gè)負(fù)的,則表明隨著擾動(dòng)項(xiàng)tst存在正的序列相關(guān),如下圖c所示。2、自相關(guān)函數(shù)法2、自相關(guān)函數(shù)法Eee自相關(guān)函數(shù)的估計(jì)值為d=tt—自相關(guān)函數(shù)的估計(jì)值為d=tt—1,。作為自相關(guān)系數(shù)p的估計(jì)值與樣本量有關(guān),需要做統(tǒng)計(jì)顯著性檢驗(yàn)才能確定自相關(guān)性的存在,通常采用DW檢驗(yàn)代替對(duì)p的檢驗(yàn)。3、DW檢驗(yàn)DW檢驗(yàn)是適用于小樣本的一種檢驗(yàn)方法,而且DW檢驗(yàn)只能用于檢驗(yàn)隨機(jī)擾動(dòng)項(xiàng)具有一階自回歸形式的序列相關(guān)問(wèn)題。DW=2(1-p),計(jì)算出DW值后,根據(jù)樣本容量n和解釋變量的數(shù)目k(包括常數(shù)項(xiàng))查DW分布表,得出臨界值有和氣。0<D.W<氣,誤差項(xiàng)£,£,???點(diǎn)間存在正相關(guān);1 2 n人<D.W<叮不能判定是否有自相關(guān);d^<D.W<4-d疽誤差項(xiàng)8,8,…,£間無(wú)自相關(guān);1 2 n4-du<D.W<4-dL,不能判定是否有自相關(guān);4-dL<D.W<4,誤差項(xiàng)8,8,…,8間存在負(fù)相關(guān)。1 2 n需要注意的是,DW檢驗(yàn)盡管有著廣泛的應(yīng)用,但也有明顯的缺點(diǎn)和局限性:(1) DW檢驗(yàn)有兩個(gè)不能確定的區(qū)域,一旦DW值落在這兩個(gè)區(qū)域,就無(wú)法判斷。這時(shí)只有增大樣本容量或選取其他方法;(2) DW統(tǒng)計(jì)量的上、下界表要求n>15,這是因?yàn)闃颖救绻傩?,利用殘差就很難對(duì)自相關(guān)的存在性做出比較正確的診斷;(3) DW檢驗(yàn)不適應(yīng)隨機(jī)項(xiàng)具有高階序列相關(guān)的檢驗(yàn)(只能判斷一階)。
十、自相關(guān)問(wèn)題的處理方法1、迭代法設(shè)一元線性回歸模型的誤差項(xiàng)存在一階自相關(guān)TOC\o"1-5"\h\z\o"CurrentDocument"y=。+Px+8 (1)t0 1t t\o"CurrentDocument"8=p8+四 (2)E(四)=0,t=1,2,…,n< 'L2,t=s…cov(目,目)=( (t,s=1,2,…,n)ts[0,t豐st本假設(shè)。所以回歸模型(1)有:y=Pt本假設(shè)。所以回歸模型(1)有:y=P+Px+8 (3)t-1 0 1t-1 t-1將(3)式兩端乘以p,在用(1)式減去乘以p的(3)式,則有(y-py)=(p-pp)+p(x-px)+(8-8) (4)t t-1 0 0 1t t-1 t t-1在(4)式中,令y'=y-py,x'=x-px,P'=P(1-p),P'=Pttt-1t tt-10 0 1 1于是(4)可以變?yōu)閥'=P'+px+四 (5)t0 1tt模型(5)式有獨(dú)立隨機(jī)誤差項(xiàng),滿足線性回歸模型的基本假設(shè),用普通最小二乘法估計(jì)的參數(shù)估計(jì)量具有通常的優(yōu)良性。由于自相關(guān)系數(shù)p是未知的,需要對(duì)p作估計(jì)。p-1-1DW,計(jì)算出p的估計(jì)值后,帶入計(jì)算變換因變量y'和變換2 t自變量x,,然后用(5)式做普通最小二乘回歸。一階自相關(guān)模型,通過(guò)上述變t換,已經(jīng)消除自相關(guān),迭代法到此結(jié)束。如果檢驗(yàn)表明誤差項(xiàng)日不存在自相關(guān),t迭代法結(jié)束,如果檢驗(yàn)表明誤差項(xiàng)日存在自相關(guān),那么對(duì)回歸模型(5)式重復(fù)t用迭代法,這個(gè)過(guò)程可能要重復(fù)幾次,直至最終消除誤差項(xiàng)自相關(guān)。2、差分法差分法就是用增量數(shù)據(jù)代替原來(lái)的樣本數(shù)據(jù),將原來(lái)的回歸模型變?yōu)椴罘中问降哪P?。一階差分法通常適用于原模型存在較高程度的一階自相關(guān)情況。(y—y)=(p-p)+p(x—x)+(8—8)用增量表示為:Ay=pAx+日tt-1 00 1tt-1 tt-1 t1tt以差分?jǐn)?shù)據(jù)Ayt和Axt為樣本的回歸方程。差分之后的模型,通常不帶有常數(shù)項(xiàng),它是回歸直線過(guò)原點(diǎn)的回歸方程。一階差分的應(yīng)用條件是自相關(guān)系數(shù)P=1,在實(shí)際應(yīng)用中,P接近1時(shí),就可以采用差分法而不用迭代法。有兩個(gè)原因:第一,迭代法需要用樣本估計(jì)自相關(guān)系數(shù)P,對(duì)P的估計(jì)誤差會(huì)影響迭代法的使用效率;第二,差分法比迭代法簡(jiǎn)單,在建立時(shí)序數(shù)據(jù)的回歸方程時(shí),更習(xí)慣于用差分法。3、 科克倫-澳特克(Cochrane-Orcutt)迭代法方法一中的迭代法近似取d-1--DW,可以使用其他迭代法給出P的更精確的2估計(jì),最常用的是科克倫-澳特克迭代法。以一元線性回歸為例,用方法一計(jì)算出的P和回歸系數(shù),由(1)式的回歸方程重新計(jì)算殘差,得到心得殘差序列后就可以計(jì)算出新的DW值,新的P值和回歸系數(shù),如果新的P與前一次迭代的P相差很小,低于給定的界限,就停止迭代,否則繼續(xù)下一步迭代。需要說(shuō)明的是,迭代的起始步驟認(rèn)為是從第0步開(kāi)始的,就是用(1)式做普通最小二乘回歸,想讓于認(rèn)為P=0。這樣方法一中的迭代實(shí)際上包括第0步和第1步共兩步迭代過(guò)程,也稱為科克倫-澳特克兩步法。4、 普萊斯-溫斯登(Prais-Winsten)迭代法當(dāng)樣本量較小時(shí)每一個(gè)樣本值都是寶貴的,為此可以使用普萊斯-溫斯登變換,對(duì)t=1,令y'=<T-T?y,x'=.,.‘?'巨誨x,經(jīng)過(guò)普萊斯-溫斯登變換的迭代法就1 11、 1稱為普萊斯-溫斯登變換迭代法。十一、異常值與強(qiáng)影響點(diǎn)異常值分為兩種情況,一種是關(guān)于因變量y異常,另一種是關(guān)于自變量x異常。1、關(guān)于因變量y的異常值在殘差分析中,認(rèn)為超過(guò)土3£的殘差為異常值。標(biāo)準(zhǔn)化殘差:ZRE==,1b學(xué)生化殘差:SRE=日〒。標(biāo)準(zhǔn)化殘差使殘差具有可比性,|ZRE.|>3的相V ::II應(yīng)觀測(cè)值即判定為異常值,這簡(jiǎn)化了判斷工作,但是沒(méi)有解決方差不等的問(wèn)題。學(xué)生化殘差則進(jìn)一步解決了方差不等的問(wèn)題,比標(biāo)準(zhǔn)化殘差又有所改進(jìn)。但是當(dāng)觀測(cè)數(shù)據(jù)中存在關(guān)于y的異常觀測(cè)值時(shí),普通殘差、標(biāo)準(zhǔn)化殘差、學(xué)生化殘差這三種殘差都不再適用,這是由于異常值把回歸線拉向自身,使異常值本身的殘差減少,而其余觀測(cè)值的殘差增大,這時(shí)回歸標(biāo)準(zhǔn)差預(yù)也會(huì)增大,因而用鱷準(zhǔn)則不能正確分辨出異常值。解決這個(gè)問(wèn)題的方法是改用刪除誤差。刪除誤差的構(gòu)造思想是:在計(jì)算第i個(gè)觀測(cè)值的殘差時(shí),用刪除掉這個(gè)第i個(gè)觀測(cè)值的其余n-1個(gè)觀測(cè)值擬合回歸方程,計(jì)算出第i個(gè)觀測(cè)值的刪除擬合值y(,),這個(gè)刪除擬合值與第i個(gè)值無(wú)關(guān),不受第i個(gè)值是否為異常值的影響,定義第i個(gè)觀測(cè)值的刪除殘差為:e=y-y,刪除殘差e較普通殘差更能如實(shí)反映第1(i) i(i) (i)個(gè)觀測(cè)值的異常性??梢宰C明,%.)=匚、,進(jìn)一步可以給出第i個(gè)觀測(cè)值的刪ii除學(xué)生化殘差,記為SRE=SRE(―—)2,在實(shí)際應(yīng)用當(dāng)中,可以(I) (i)n—p—1一SRE2i直接使用軟件計(jì)算出刪除學(xué)生化殘差SRE(,)的數(shù)值,|SRE(,)|>3的觀測(cè)值即判定為異常值。2、關(guān)于自變量x的異常值有D(e,)=(1—七力2,其中杠桿值七表示自變量的第i次觀測(cè)值與自變量平均值之間的遠(yuǎn)近。較大的杠桿值的殘差偏小,這是因?yàn)榇蟾軛U值的觀測(cè)點(diǎn)遠(yuǎn)離樣本中心,能夠把回歸方程拉向自身,因而把杠桿值大的樣本點(diǎn)稱為強(qiáng)影響點(diǎn)。強(qiáng)影響點(diǎn)并不一定是y值的異常值點(diǎn),因而強(qiáng)影響點(diǎn)并不總會(huì)對(duì)回歸方程造成不良影響。但是強(qiáng)影響點(diǎn)對(duì)回歸效果通常有較強(qiáng)的影響,這是由于一下兩個(gè)原因:第一,在實(shí)際問(wèn)題中,因變量與自變量的線性關(guān)系只是在一定的范圍內(nèi)成立,強(qiáng)影響點(diǎn)原來(lái)樣本中心,因變量與自變量之間可能已不再是線性函數(shù)關(guān)系,因而在選擇回歸函數(shù)的形式時(shí),需側(cè)重于強(qiáng)影響點(diǎn);第二,即使線性回歸形式成立,但是強(qiáng)影響點(diǎn)遠(yuǎn)離樣本中心,能夠把回歸方程拉向自身,使回歸方程產(chǎn)生偏移。由于強(qiáng)影響點(diǎn)并不總是y的異常值點(diǎn),所以不能單純根據(jù)杠桿值的大小判斷強(qiáng)影響點(diǎn)是否異常,為此,引入庫(kù)克距離,用來(lái)判斷強(qiáng)影響點(diǎn)是否為y的異常值點(diǎn)。庫(kù)克距離的計(jì)算公式為:D)=32?(1-£)2,庫(kù)克距離反映了杠桿ii值h與殘差e.大小的一個(gè)綜合效應(yīng)。杠桿值h的平均值為h=-乎h=P^1,ii I ii niin一個(gè)杠桿值大于2倍或者3倍的h就認(rèn)為是大的。中心化的杠桿值叫=h"n,
因此有中心化杠桿值chii的平均值是Ch=上chn iii=1-p ,n對(duì)于庫(kù)克聚類(lèi)大小標(biāo)準(zhǔn)的初略判斷是:D<0.5時(shí),認(rèn)為不是異常值點(diǎn);i當(dāng)Di>1時(shí),認(rèn)為是異常值點(diǎn)。十二、異常值實(shí)例分析序號(hào)x1x2yeiSREie(i)SRE(i)chHDi1253547.79553.96-832-2.340-1490-3.0380.3751.445220896.34208.55750.167840.1600.0430.00136750.323.1-34-0.075-38-0.0720.0540.000410012087.052815.41270.3762530.3630.4320.04755251639.311052.12-458-1.034-529-1.0370.0680.05568253357.734275021.3057681.3480.2800.3027120808.47442.821470.3261640.3130.0360.004828520.2770.12960.2181120.2090.0700.00397671.13122.241210.2711380.2610.0600.004105322863.321400-697-1.606-837-1.7350.1000.17211751160464950.2091040.2010.0210.0011240862.757.5-151-0.336-169-0.3230.0400.00513187672.99224.18-145-0.324-164-0.3120.0520.00514122901.76538.941950.4312160.4160.0290.00715743546.182442.799582.61316133.8100.3391.555x,y是原始數(shù)據(jù),其他的列可以通過(guò)SPSS得到。從表中可以金0,絕對(duì)值最大的刪除學(xué)生化殘差為SRE〈I/.810,因而根據(jù)學(xué)生化殘差診斷認(rèn)為第15個(gè)數(shù)據(jù)為異常值。其中心化杠桿值叫〔=0.339位于第三大,庫(kù)克距離D=1.555位于第一大。由于Ch=己=—=0.13333,第15個(gè)數(shù)據(jù)ch=0.339>2Ch,因而從杠桿值看第15個(gè)n15數(shù)據(jù)是自變量的異常值,同時(shí)庫(kù)克距離大于1,這樣第15個(gè)數(shù)據(jù)為異常值的原因是由自變量異常與因變量異常兩個(gè)原因共同引起的。(刪除學(xué)生化殘差診斷了由于因變量異常引起的異常值,杠桿值和庫(kù)克距離診斷了由于自變量異常引起的異常值)診斷出異常值后,進(jìn)一步判斷引起異常值的原因,通常由以下幾種。異常值原因異常值消除方法1.數(shù)據(jù)登記誤差,存在抄寫(xiě)或錄入的錯(cuò)誤重新核實(shí)數(shù)據(jù)2.數(shù)據(jù)測(cè)量誤差重新測(cè)量數(shù)據(jù)3.數(shù)據(jù)隨機(jī)誤差刪除或重新觀測(cè)異常值數(shù)據(jù)4.缺少重要自變量增加必要的自變量5.缺少觀測(cè)數(shù)據(jù)增加觀測(cè)數(shù)據(jù),適當(dāng)擴(kuò)大自變量取值范圍6.存在異方差采用加權(quán)線性回歸7.模型選用錯(cuò)誤,線性模型不適用改用非線性回歸模型對(duì)引起異常值的不同原因,需要采取不同的處理方法。對(duì)本例數(shù)據(jù)通過(guò)核實(shí)認(rèn)為不存在登記誤差和測(cè)量誤差。刪除第15組數(shù)據(jù),用其余14組數(shù)據(jù)擬合回歸方程,發(fā)現(xiàn)第6組數(shù)據(jù)的三處學(xué)生化殘差增加為4.418,仍然存在異常值現(xiàn)象,因而認(rèn)為異常值的原因不是由于數(shù)據(jù)的隨機(jī)誤差。本例數(shù)據(jù)存在的是異方差,應(yīng)該采用加權(quán)最小二乘回歸。用SPSS計(jì)算出加權(quán)最小二乘回歸的有關(guān)變量值如下所示。序號(hào)X1X2yeiSREie(i)SRE(i)chiiDi1253547.79553.96-890-1.149-1165-1.16580.23410.1360220896.34208.55200.135230.12930.06040.000936750.323.1-93-0.795-110-0.78240.05010.0385410012087.052815.44031.1757161.19630.42940.358155251639.311052.12-343-1.135-429-1.14980.18640.108168253357.734277150.9378410.93200.14710.05157120808.47442.821260.9491390.94480.00930.0318828520.2770.12450.717740.70150.13390.111597671.13122.24620.617760.60080.04630.0287105322863.321400-582-0.926-677-0.91990.13660.046611751160464580.281650.27020.07480.00331240862.757.5-199-1.391-223-1.45440.03240.076413187672.99224.18-143-1.611-224-1.74240.22720.495114122901.76538.941751.1371891.15280.01120.036015743546.182442.799161.17311791.19390.22090.1317采用最小二乘回歸后,刪除學(xué)生化殘差的絕對(duì)值最大者為1.7424,庫(kù)克距離都小于0.5,說(shuō)明數(shù)據(jù)沒(méi)有異常值。說(shuō)明用加權(quán)最小二乘法處理異方差性問(wèn)題的有效性。十三、異方差問(wèn)題檢驗(yàn)異方差的方法盡管不同,但都有一個(gè)共同的思路。各種檢驗(yàn)是設(shè)法檢驗(yàn)七的方差與解釋變量七的相關(guān)性,一般是通過(guò)七的估計(jì)量匕來(lái)實(shí)現(xiàn)這些檢驗(yàn)。如果七.與某一七之間存在相關(guān)性,則模型存在異方差。需要注意的是,加權(quán)最小二乘估計(jì)并不能消除異方差,只是能夠消除異方差的不良影響。當(dāng)存在異方差時(shí),普通最小二乘估計(jì)不再具有最小方差線性無(wú)偏估計(jì)等好的性質(zhì),而加權(quán)最小二乘估計(jì)則可以改進(jìn)估計(jì)的性質(zhì)。加權(quán)最小二乘估計(jì)對(duì)誤差項(xiàng)方差小的項(xiàng)加一個(gè)大的權(quán)數(shù),對(duì)誤差項(xiàng)方差大的項(xiàng)加一個(gè)小的權(quán)數(shù),因此加強(qiáng)了小方差項(xiàng)的地位,使離差平方和中各項(xiàng)的作用相同。如果把誤差項(xiàng)加權(quán),那么加權(quán)的誤差項(xiàng)是等方差的。從殘差圖來(lái)看,普通最小二乘估計(jì)只II能照顧到殘差大的項(xiàng),而小殘差項(xiàng)往往有整體的正偏或負(fù)偏。加權(quán)最小二乘估計(jì)的殘差圖,對(duì)大殘差和小殘差擬合得都好,大殘差和小殘差都沒(méi)有整體的正偏或負(fù)偏。當(dāng)模型存在異方差性時(shí)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版信息安全保密協(xié)議合同5篇
- 二零二五年房地產(chǎn)項(xiàng)目配套基礎(chǔ)設(shè)施建設(shè)合同3篇
- 二零二五年度智能交通管理系統(tǒng)免責(zé)協(xié)議范本4篇
- 2025版鋁材回收利用項(xiàng)目合作協(xié)議4篇
- 2025年度殘疾人勞動(dòng)合同簽訂中的殘疾人權(quán)益保障與就業(yè)促進(jìn)2篇
- 2025餐飲企業(yè)員工勞動(dòng)合同15篇
- 2025年度商業(yè)廣場(chǎng)墻面LED廣告屏租賃合同標(biāo)的協(xié)議4篇
- 2024食用油倉(cāng)儲(chǔ)物流服務(wù)合作合同3篇
- 標(biāo)識(shí)標(biāo)牌施工質(zhì)量保障合同(2025年度)3篇
- 2025年銷(xiāo)售部勞動(dòng)合同薪資福利范本
- 2025年浙江省湖州市湖州職業(yè)技術(shù)學(xué)院招聘5人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- ZK24600型平旋盤(pán)使用說(shuō)明書(shū)(環(huán)球)
- 城市基礎(chǔ)設(shè)施維修計(jì)劃
- 2024山西廣播電視臺(tái)招聘專業(yè)技術(shù)崗位編制人員20人歷年高頻500題難、易錯(cuò)點(diǎn)模擬試題附帶答案詳解
- 新材料行業(yè)系列深度報(bào)告一:新材料行業(yè)研究框架
- 人教版小學(xué)英語(yǔ)各冊(cè)單詞表(帶英標(biāo))
- 廣東省潮州市潮安區(qū)2023-2024學(xué)年六年級(jí)上學(xué)期期末考試數(shù)學(xué)試題
- 鄉(xiāng)村治理中正式制度與非正式制度的關(guān)系解析
- 智能護(hù)理:人工智能助力的醫(yī)療創(chuàng)新
- 國(guó)家中小學(xué)智慧教育平臺(tái)培訓(xùn)專題講座
- 5G+教育5G技術(shù)在智慧校園教育專網(wǎng)系統(tǒng)的應(yīng)用
評(píng)論
0/150
提交評(píng)論