多重共線性的情形及其處理_第1頁(yè)
多重共線性的情形及其處理_第2頁(yè)
多重共線性的情形及其處理_第3頁(yè)
多重共線性的情形及其處理_第4頁(yè)
多重共線性的情形及其處理_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多重共線性的情形及其處理一、多重共線性對(duì)回歸模型的影響設(shè)回歸模型y=飛「必“「:2X2…「pxp?;存在完全的多重共線性,即對(duì)設(shè)計(jì)矩陣X的列向量存在不全為零的一組數(shù)Co,Ci,C2,…,Cp,使得:Co?CiXil?C2&川…川-CpXip=0(i=1,2,,n),此時(shí)設(shè)計(jì)矩陣X的秩Rank(X)vp+1,此時(shí)|XX|=0,正規(guī)方程組XX?=Xy的解不唯一,(XX)」不存在,回歸參數(shù)的最小二乘估計(jì)表達(dá)式?=(XX)JXy不成立。在實(shí)際問(wèn)題研究當(dāng)中, c0-C1x1-C2xi^'-Cpxip:、0,雖然Rank(X)=p+1成立,但是IXX|0,(XX)」的對(duì)角線元素很大,?的方差陣D(?)「「2(XX),的對(duì)角線元素很大,而D(色的對(duì)角線元素即為var(^0),var(0?),…,var(f?p),因而or…「p的估計(jì)精度很低,這樣,雖然OLSE能得到]的無(wú)偏估計(jì),但估計(jì)量?的方差很大,不能正確判斷解釋變量對(duì)被解釋變量的影響程度。例如在二元回歸中,假定y與&,X2都已經(jīng)中心化,此時(shí)回歸常數(shù)項(xiàng)為零,2TOC\o"1-5"\h\z回歸方程為?=(?為+碼乂2,由此可以得到 var(f?)= -~2 ,(1-r12)Ln◎2 n n nvar("2) 2,其中 L〔1 二、、召,L12 二' x^Xj? , L22 = Xi2 貝U, X2之(1—「12)L22 7 i# 7間的相關(guān)系數(shù)「12=/S。隨著自變量X1與X2的相關(guān)性增強(qiáng),網(wǎng)和場(chǎng)的方差?-L11L22將逐漸增大。當(dāng)X1與X2完全相關(guān)時(shí),r=1,方差將變?yōu)闊o(wú)窮大。當(dāng)給定不同的「12值時(shí),從下表可以看出方差增大的速度。表6.1「120.00.20.500.700.800.900.950.991.00var(?1)1.01.041.331.962.785.2610.2650.25_2_2為了方便,假設(shè)1,相關(guān)系數(shù)從0.5變?yōu)?.9時(shí),回歸系數(shù)的方差增加了Ln295%相關(guān)系數(shù)從0.5變?yōu)?.95時(shí),回歸系數(shù)的方差增加了670%當(dāng)回歸自變量為與X2相關(guān)程度越高,多重共線性越嚴(yán)重,那么回歸系數(shù)的估計(jì)值方差就越大,回歸系數(shù)的置信區(qū)間就變得很寬,估計(jì)的精確性就大幅度降低,使估計(jì)值穩(wěn)定性變得很差,進(jìn)一步致使在回歸方程整體高度顯著時(shí),一些回歸系數(shù)則通不過(guò)顯著性檢驗(yàn),回歸系數(shù)的正負(fù)號(hào)也可能出現(xiàn)倒置,使得無(wú)法對(duì)回歸方程得到合理的經(jīng)濟(jì)解釋,直接影響到最小二乘法的應(yīng)用效果,降低回歸方程的價(jià)值。如果利用模型去作經(jīng)濟(jì)結(jié)構(gòu)分析,要盡可能避免多重共線性;如果是利用模

型去作經(jīng)濟(jì)預(yù)測(cè),只要保證自變量的相關(guān)類型在未來(lái)時(shí)期中保持不變, 即未來(lái)時(shí)期自變量間仍具有當(dāng)初建模時(shí)數(shù)據(jù)的聯(lián)系特征,即使回歸模型中包含有嚴(yán)重多重共線性的變量也可以得到較好的預(yù)測(cè)結(jié)果; 如果不能保證自變量的相關(guān)類型在未來(lái)時(shí)期中保持繼續(xù)不變,那么多重共線性就會(huì)對(duì)回歸預(yù)測(cè)產(chǎn)生嚴(yán)重的影響。二、多重共線性的診斷1、方差擴(kuò)大因子法對(duì)自變量作中心標(biāo)準(zhǔn)化,則X"X"二(rj)為自變量的相關(guān)陣,記C=(Cj)=(X"X“)二稱其主對(duì)角線元素VIFj二c為自變量X的方差擴(kuò)大因子。var£)=5嚴(yán)2/Lj(j=1,2,…,p),其中L”為Xj的離差平方和。記R:為自變1量Xj對(duì)其余p-1個(gè)自變量的復(fù)決定系數(shù),則有Cjj -2,該式子同樣也可以1-Rj作為方差擴(kuò)大因子VIFj的定義。由于r2度量了自變量Xj與其余p-1個(gè)自變量的線性相關(guān)程度,這種相關(guān)程度越強(qiáng),說(shuō)明自變量之間的多重共線性越嚴(yán)重, R:也就越接近于1,VIFj也就越大。由此可見VIFj的大小反映了自變量之間是否存在多重共線性, 因此可以由它來(lái)度量多重共線性的嚴(yán)重程度。經(jīng)驗(yàn)表明,當(dāng)VIFj-10時(shí),就說(shuō)明自變量Xj與其余自變量之間有嚴(yán)重的多重共線性,且這種多重共線性可能會(huì)過(guò)度地影響最小二乘估計(jì)值。也可以用p個(gè)自變量所對(duì)應(yīng)的方差擴(kuò)大因子的平均數(shù)來(lái)度量多重共線性, 當(dāng)——1pVIF VIFj遠(yuǎn)遠(yuǎn)大于1時(shí)就表示存在嚴(yán)重的多重共線性問(wèn)題。pj—對(duì)于只含兩個(gè)解釋變量洛和X2的回歸方程,判斷它們是否存在多重共線性,實(shí)際上就是計(jì)算Xi和X2的樣本決定系數(shù),如果很大,則認(rèn)為Xi和X2可能存在嚴(yán)重的多重共線性。為什么說(shuō)可能存在多重共線性?因?yàn)镽2和樣本容量n有關(guān),當(dāng)樣本容量較小時(shí),R2容易接近與1,就像當(dāng)n=2時(shí),兩點(diǎn)總能連成一條直線,r2=i。所以我們認(rèn)為當(dāng)樣本容量還不算小,而R2接近于1時(shí),可以肯定存在多重共線性。當(dāng)某自變量Xj對(duì)其余p-1個(gè)自變量的復(fù)決定系數(shù)R2超過(guò)一定界限時(shí),SPSS軟件將拒絕這個(gè)自變量X進(jìn)入回歸模型。稱Tolj=1-Rj2為自變量Xj的容忍度。F面看一個(gè)民航客運(yùn)實(shí)例分析的結(jié)果:UnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF(Constant)450.909178.0782.5320.030x10.3540.0852.4474.1520.0020.0011963.000x2-0.5610.125-2.485-4.4780.0010.0011741.000x3-0.0070.002-0.083-3.5100.0060.3153.171x421.5784.030.5315.3540.0000.01855.488x50.4350.0520.5648.4400.0000.04025.193a.DependentVariable:y從上面共線性診斷的分析結(jié)果可以看到X1,X2的方差擴(kuò)大因子很大,分別為VIR=1963,VIF“=1741,遠(yuǎn)遠(yuǎn)超過(guò)10,說(shuō)明民航客運(yùn)量回歸方程也存在這嚴(yán)重的多重共線性。X1和X2的簡(jiǎn)單相關(guān)系數(shù)為0.9989,高度相關(guān)。一般情況下,當(dāng)一個(gè)回歸方程存在嚴(yán)重的多重共線性時(shí),有若干個(gè)自變量所對(duì)應(yīng)的方差擴(kuò)大因子大于10,這個(gè)回歸方程多重共線性的存在就是方差擴(kuò)大因子超過(guò)10的這幾個(gè)變量引起的,說(shuō)明這幾個(gè)自變量間有一定的多重共線性關(guān)系存在。2、特征根判定法當(dāng)矩陣XX有一個(gè)特征根近似為零時(shí),設(shè)計(jì)矩陣X的列向量間必存在多重共線性,并且XX有多少個(gè)特征根接近于零,X就有多少個(gè)多重共線性關(guān)系。記XXr- 的最大特征根為總,稱ki=,(i=0,1,2,…,p)為特征根丸i的條件數(shù)。在V人一些書籍中,條件數(shù)定位為k^-m'i,沒(méi)有開平方根,SPS軟件是采用開平方根的,使用軟件時(shí)要注意這一點(diǎn)。條件數(shù)度量了矩陣XX的特征根散步程度,可以用它來(lái)判斷多重共線性是否存在以及多重共線性的嚴(yán)重程度。通常認(rèn)為OvkvIO時(shí),設(shè)計(jì)矩陣X沒(méi)有多重共線性;10乞k<100時(shí),認(rèn)為X存在較強(qiáng)的多重共線性;當(dāng)k_100時(shí),則認(rèn)為存在嚴(yán)重的多重共線性。在看上面的例子,用SPS軟件計(jì)算出特征根與條件數(shù)結(jié)果如下所示。DimensionEigenvalu Conditioe nIndexVarianeeProportions(Constant)x1x2x3x4x51234565.5780.3780.0370.0040.0020.000080813.84212.20536.43153.643262.762000.010.170.720.1000000.990000.010.010.990000.090.660.25000.030.50.150.31000.190.040.710.06a.DependentVariable:y從條件數(shù)看到,最大的條件數(shù)k6=262.762,這與方差擴(kuò)大因子法結(jié)果是一致。輸入結(jié)果中特征根是按照從大到小的順序排列的,不是按自變量的順序排列的,這與方差擴(kuò)大因子法不同。如何判定究竟是哪幾個(gè)自變量間存在共線性呢?可以由條件數(shù)表中右邊的方差比例粗略判斷。如果有某幾個(gè)自變量的方差比例值在某一行同時(shí)較大(接近1),則這幾個(gè)自變量間就存在多重共線性。表中第6行乂!和X2的系數(shù)都為0.99,說(shuō)明禺和X2之間存在強(qiáng)的多重共線性;表中第5行X0(常數(shù)項(xiàng)),X3,X5的系數(shù)分別為0.72,0.66,0.71說(shuō)明X。(常數(shù)項(xiàng)),X3,X5之間存在多重共線性。由于設(shè)計(jì)矩陣X的第一列有一列1,代表常數(shù)項(xiàng),X共有P+1列,XX是P+1階方陣。當(dāng)一個(gè)自變量的取值范圍很小,接近常數(shù)時(shí),這個(gè)自變量就與常數(shù)項(xiàng)存在多重共線性。如在多重共線性的定義式中,如果 c2=c3二…二cp=0,而c=0,?=0,這時(shí)自變量X1就與常數(shù)項(xiàng)存在多重共線性。3、直觀判定法(1) 當(dāng)增加或剔除一個(gè)自變量,或者改變一個(gè)觀測(cè)值時(shí),回歸系數(shù)的估計(jì)值發(fā)生(2) 從定性分析認(rèn)為,一些重要的自變量在回歸方程中沒(méi)有通過(guò)顯著性檢驗(yàn)。(3(4) 自變量的相關(guān)矩陣中,自變量間的相關(guān)系數(shù)較大。(5) —些重要的自變量的回歸系數(shù)的標(biāo)準(zhǔn)誤差較大。

三、消除共線性的方法1、 刪除一些不重要的解釋變量在選擇回歸模型時(shí),可以將回歸系數(shù)的顯著性檢驗(yàn)、方差擴(kuò)大因子 VIF的多重共線性檢驗(yàn)與自變量的經(jīng)濟(jì)含義結(jié)合起來(lái)考慮,以引進(jìn)或剔除變量。2、 增大樣本容量建立一個(gè)實(shí)際經(jīng)濟(jì)問(wèn)題的回歸模型,如果所手機(jī)的樣本數(shù)據(jù)太少,也容易產(chǎn)生多重共線性。例如,在建立二元回歸模型時(shí),假設(shè)數(shù)據(jù)都已經(jīng)中心化,有var(?)=2(J(1-ri2)L11,Var(var(?)=2(J(1-ri2)L11,Var(?2)〒-ri2)L22n其中Ln?x2i,i=!L12二、Xi1Xi2nL22=7Xi;則X1,X2之間的相關(guān)系數(shù)i4o,可以看到,在「12固定不變時(shí),當(dāng)樣本容量n增大時(shí),Ln和L22都會(huì)增大,兩個(gè)方差均可減小,從而減弱了多重共線性對(duì)回歸方程的影響。因此,增大樣本容量也是消除多重共線性的一個(gè)途徑。在實(shí)踐中,當(dāng)所選的變量個(gè)數(shù)接近樣本容量n時(shí),自變量間就容易產(chǎn)生共線性。所以在運(yùn)用回歸分析研究經(jīng)濟(jì)問(wèn)題時(shí),要盡可能使樣本容量 n遠(yuǎn)大于自變量個(gè)數(shù)p。但是,增加了樣本數(shù)據(jù),可能新的數(shù)據(jù)距離原來(lái)樣本數(shù)據(jù)的平均值較大,會(huì)產(chǎn)生一些新的問(wèn)題,使模型擬合變差,沒(méi)有收到增加樣本數(shù)據(jù)期望的效果。四、 回歸系數(shù)的有偏估計(jì)為了消除多重共線性對(duì)回歸模型的影響,還可以采取有偏估計(jì)為代價(jià)來(lái)提高估計(jì)量穩(wěn)定性的方法,如嶺回歸,主成份回歸法,偏最小二乘法等。五、 主成份回歸主成分分析是多元統(tǒng)計(jì)分析的一個(gè)基本方法,是對(duì)數(shù)據(jù)做一個(gè)正交旋轉(zhuǎn)變換,就是對(duì)原有變量做一些線性變換,變換后的變量都是正交的。為了避免變量的量綱不同所產(chǎn)生的影響,要先把數(shù)據(jù)做中心標(biāo)準(zhǔn)化,中心標(biāo)準(zhǔn)化后的自變量樣本觀測(cè)數(shù)據(jù)矩陣X”就是n行p列的矩陣,r=(X)X”就是相關(guān)陣。六、一些問(wèn)題在建立經(jīng)濟(jì)問(wèn)題的回歸模型時(shí),當(dāng)發(fā)現(xiàn)解釋變量之間的簡(jiǎn)單相關(guān)系數(shù)很大時(shí),可以斷定自變量間存在著嚴(yán)重的多重共線性,但是,一個(gè)回歸方程存在嚴(yán)重的多元共線性時(shí),并不能完全肯定解釋變量之間的簡(jiǎn)單相關(guān)系數(shù)就一定很大。例如對(duì)含有三個(gè)自變量的回歸模型:y=2。「X「2x2「3x3?;,假定三個(gè)變量之間有完全確定的關(guān)系:X^X2X3,因?yàn)閄1可以由X2和X3線性表示,所以變量X1與X2和X3的復(fù)決定系數(shù)R:23=1,回歸方程存在完全的多重共線性。再假定X2與X3的簡(jiǎn)單相關(guān)系數(shù)「23=0.5,X2與X3的離差平方和L22=L33=1,此時(shí)L23=%.L22L33 =-0.5, L11 = (X1 -XJ2二》(X2 X3 -區(qū) X3))2='化- X?)'+'(X3臨)2+、(X2-X2)(X3譏)=1+1+2(-0.5)=

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論