版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、多重共線性,Multi-Collinearity,一、多重共線性的概念 二、多重共線性的來源 三、多重共線性的后果 四、多重共線性的檢驗 五、克服多重共線性的方法 六、案例 *七、分步回歸與多重共線性,回顧6項基本假定,(1)解釋變量間不相關(guān)(無多重共線性) (2)E(ui)=0 (隨機(jī)項均值為零) (3)Var(ui)=2 (同方差) (4)Cov(ui, uj)=0(隨機(jī)項無自相關(guān)) (5)Cov(X, ui)=0(隨機(jī)項與解釋變量X不相關(guān)) (6)隨機(jī)擾動服從正態(tài)分布。,一、多重共線性的概念,對于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n 其基本假設(shè)之一是解釋變量是
2、互相獨立的。,如果某兩個或多個解釋變量之間出現(xiàn)了相關(guān)性,則稱為多重共線性(Multicollinearity)。,如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中: ci不全為0,則稱為解釋變量間存在完全共線性(perfect multicollinearity)。,如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中ci不全為0,vi為隨機(jī)誤差項,則稱為 近似共線性(approximate multicollinearity)或交互相關(guān)(intercorrelated)。,完全共線性的情況并不多見,一般出現(xiàn)的是在一定程度上的共線性,即近似共線性。
3、,在矩陣表示的線性回歸模型 Y=X+中,完全共線性指:秩(X)k+1,即,中,至少有一列向量可由其他列向量(不包括第一列)線性表出。,如:X2= X1,則X2對Y的作用可由X1代替。,二、實際經(jīng)濟(jì)問題中的多重共線性,一般地,產(chǎn)生多重共線性的主要原因有以下三個方面: (1)經(jīng)濟(jì)變量相關(guān)的共同趨勢 時間序列樣本:經(jīng)濟(jì)繁榮時期,各基本經(jīng)濟(jì)變量(收入、消費、投資、價格)都趨于增長;衰退時期,又同時趨于下降。 橫截面數(shù)據(jù):生產(chǎn)函數(shù)中,資本投入與勞動力投入往往出現(xiàn)高度相關(guān)情況,大企業(yè)二者都大,小企業(yè)都小。,(2)滯后變量的引入,在經(jīng)濟(jì)計量模型中,往往需要引入滯后經(jīng)濟(jì)變量來反映真實的經(jīng)濟(jì)關(guān)系。 例如,消費=
4、f(當(dāng)期收入, 前期收入) 顯然,兩期收入間有較強(qiáng)的線性相關(guān)性。,(3)樣本資料的限制,由于完全符合理論模型所要求的樣本數(shù)據(jù)較難收集,特定樣本可能存在某種程度的多重共線性。 一般經(jīng)驗: 時間序列數(shù)據(jù)樣本:簡單線性模型,往往存在多重共線性。 截面數(shù)據(jù)樣本:問題不那么嚴(yán)重,但多重共線性仍然是存在的。,三、多重共線性的后果,1、完全共線性下參數(shù)估計量不存在,如果存在完全共線性,則(XX)-1不存在,無法得到參數(shù)的估計量。,的OLS估計量為:,例:對離差形式的二元回歸模型,如果兩個解釋變量完全相關(guān),如x2= x1,則,這時,只能確定綜合參數(shù)1+2的估計值:,2、近似共線性下OLS估計量非有效,近似共線
5、性下,可以得到OLS參數(shù)估計量, 但參數(shù)估計量方差的表達(dá)式為,由于|XX|0,引起(XX) -1主對角線元素較大,使參數(shù)估計值的方差增大,OLS參數(shù)估計量非有效。,以二元線性模型 y=1x1+2x2+ 為例:,恰為X1與X2的線性相關(guān)系數(shù)的平方r2,由于 r2 1,故 1/(1- r2 )1,當(dāng)完全不共線時, r2 =0,當(dāng)近似共線時, 0 r2 1,當(dāng)完全共線時, r2=1,,多重共線性使參數(shù)估計值的方差增大,1/(1-r2)為方差膨脹因子(Variance Inflation Factor, VIF),3、參數(shù)估計量經(jīng)濟(jì)含義不合理,如果模型中兩個解釋變量具有線性相關(guān)性,例如 X2= X1
6、, 這時,X1和X2前的參數(shù)1、2并不反映各自與被解釋變量之間的結(jié)構(gòu)關(guān)系,而是反映它們對被解釋變量的共同影響。 1、2已經(jīng)失去了應(yīng)有的經(jīng)濟(jì)含義,于是經(jīng)常表現(xiàn)出似乎反常的現(xiàn)象:例如1本來應(yīng)該是正的,結(jié)果恰是負(fù)的。,4、變量的顯著性檢驗失去意義,存在多重共線性時,參數(shù)估計值的方差與標(biāo)準(zhǔn)差變大,容易使通過樣本計算的t值小于臨界值, 誤導(dǎo)作出參數(shù)為0的推斷,可能將重要的解釋變量排除在模型之外,5、模型的預(yù)測功能失效,變大的方差容易使區(qū)間預(yù)測的“區(qū)間”變大,使預(yù)測失去意義。,注意:,除非是完全共線性,多重共線性并不意味著任何基本假設(shè)的違背; 因此,即使出現(xiàn)較高程度的多重共線性,OLS估計量仍具有線性性等
7、良好的統(tǒng)計性質(zhì)。 問題在于,即使OLS法仍是最好的估計方法,它卻不是“完美的”,尤其是在統(tǒng)計推斷上無法給出真正有用的信息。,多重共線性檢驗的任務(wù)是: (1)檢驗多重共線性是否存在; (2)估計多重共線性的范圍,即判斷哪些變量之間存在共線性。,多重共線性表現(xiàn)為解釋變量之間具有相關(guān)關(guān)系,所以用于多重共線性的檢驗方法主要是統(tǒng)計方法:如判定系數(shù)檢驗法、逐步回歸檢驗法等。,四、多重共線性的檢驗,1、檢驗多重共線性是否存在,(1)對兩個解釋變量的模型,采用簡單相關(guān)系數(shù)法 求出X1與X2的簡單相關(guān)系數(shù)r,若|r|接近1,則說明兩變量存在較強(qiáng)的多重共線性。,(2)對多個解釋變量的模型,采用綜合統(tǒng)計檢驗法,若
8、在OLS法下:R2與F值較大,但t檢驗值較小,說明各解釋變量對Y的聯(lián)合線性作用顯著,但各解釋變量間存在共線性而使得它們對Y的獨立作用不能分辨,故t檢驗不顯著。,2、判明存在多重共線性的范圍,如果存在多重共線性,需進(jìn)一步確定究竟由哪些變量引起。 (1) 判定系數(shù)檢驗法 使模型中每一個解釋變量分別以其余解釋變量為解釋變量進(jìn)行回歸,并計算相應(yīng)的擬合優(yōu)度。 如果某一種回歸 Xji=1X1i+2X2i+LXLi 的判定系數(shù)較大,說明Xj與其他X間存在共線性。,具體可進(jìn)一步對上述回歸方程作F檢驗:,式中:Rj2為第j個解釋變量對其他解釋變量的回歸方程的決定系數(shù), 若存在較強(qiáng)的共線性,則Rj2較大且接近于1
9、,這時(1- Rj2 )較小,從而Fj的值較大。 因此,給定顯著性水平,計算F值,并與相應(yīng)的臨界值比較,來判定是否存在相關(guān)性。,構(gòu)造如下F統(tǒng)計量,在模型中排除某一個解釋變量Xj,估計模型; 如果擬合優(yōu)度與包含Xj時十分接近,則說明Xj與其它解釋變量之間存在共線性。,另一等價的檢驗是:,(2)逐步回歸法,以Y為被解釋變量,逐個引入解釋變量,構(gòu)成回歸模型,進(jìn)行模型估計。 根據(jù)擬合優(yōu)度的變化決定新引入的變量是否獨立。 如果擬合優(yōu)度變化顯著,則說明新引入的變量是一個獨立解釋變量; 如果擬合優(yōu)度變化很不顯著,則說明新引入的變量與其它變量之間存在共線性關(guān)系。,找出引起多重共線性的解釋變量,將它排除出去。
10、以逐步回歸法得到最廣泛的應(yīng)用。 注意: 這時,剩余解釋變量參數(shù)的經(jīng)濟(jì)含義和數(shù)值都發(fā)生了變化。,如果模型被檢驗證明存在多重共線性,則需要發(fā)展新的方法估計模型,最常用的方法有三類。,五、克服多重共線性的方法,1、第一類方法:排除引起共線性的變量,2、第二類方法:差分法,時間序列數(shù)據(jù)、線性模型:將原模型變換為差分模型: Yi=1 X1i+2 X2i+k Xki+ i 可以有效地消除原模型中的多重共線性。,一般講,增量之間的線性關(guān)系遠(yuǎn)比總量之間的線性關(guān)系弱得多。,例如:,由表中的比值可以直觀地看到,增量的線性關(guān)系弱于總量之間的線性關(guān)系。,進(jìn)一步分析: Y與C(-1)之間的判定系數(shù)為0.9988, Y與
11、C(-1)之間的判定系數(shù)為0.9567,3、第三類方法:減小參數(shù)估計量的方差,多重共線性的主要后果是參數(shù)估計量具有較大的方差,所以 采取適當(dāng)方法減小參數(shù)估計量的方差,雖然沒有消除模型中的多重共線性,但確能消除多重共線性造成的后果。 例如: 增加樣本容量,可使參數(shù)估計量的方差減小。,*嶺回歸法(Ridge Regression),70年代發(fā)展的嶺回歸法,以引入偏誤為代價減小參數(shù)估計量的方差,受到人們的重視。 具體方法是:引入矩陣D,使參數(shù)估計量為,其中矩陣D一般選擇為主對角陣,即 D=aI a為大于0的常數(shù)。,(*),顯然,與未含D的參數(shù)B的估計量相比,(*)式的估計量有較小的方差。,銷量,出廠
12、價格,市場價格,高度相關(guān),市場總供應(yīng)量,相對價格,4、第四類方法:變量變換法,個人消費,現(xiàn)期收入,前期收入,高度相關(guān),線性關(guān)系較弱,5、第五類方法:用被解釋變量的滯后值代替解釋變量的滯后值,先驗信息:在此之前的研究成果所提供的信息。 利用某些先驗信息,可以把有共線性的變量組合成新的變量,從而消除共線性。 如 其中Y消費,X2收入 X3財富。因為收入與財富有高度共線的趨勢,如果先驗認(rèn)為 則代入消去,6、第六類方法:利用先驗信息改變約束形式,利用先驗信息改變約束形式,高度相關(guān),已知+ =1,即規(guī)模報酬不變,則將 =1- 代入,有時在時間序列數(shù)據(jù)中多重共線性嚴(yán)重的變量,在截面數(shù)據(jù)中不一定有嚴(yán)重的共線
13、性。 在假定截面數(shù)據(jù)估計出的參數(shù)在時間序列數(shù)據(jù)中變化不大的前提下,可先用截面數(shù)據(jù)估計出一些變量的參數(shù),再代入原模型估計另一些變量的參數(shù)。 例:銷量與商品價格、消費者收入。,7、第七類方法:截面數(shù)據(jù)和時序數(shù)據(jù)結(jié)合,主成分分析是一種常用的降維方法,它在信息損失最小的原則下,往往可以將變量數(shù)大大減少,而且可以在理論上保證所獲得的新變量(主成分)之間不相關(guān),8、第八類方法:主成分回歸,基本思想,主成分分析過程的實質(zhì)就是對原坐標(biāo)系進(jìn)行平移和旋轉(zhuǎn)變換,2、主成分回歸,第一主成分就對應(yīng)數(shù)據(jù)變異的第一大方向,對原始數(shù)據(jù)的變異最具解釋力; 第二主成分就對應(yīng)數(shù)據(jù)變異的第二大方向; 不同主成分之間不相關(guān) 主成分是自
14、變量的線性組合,判斷應(yīng)選擇幾個主成分,主要依據(jù)貢獻(xiàn)率:,主成分回歸的基本步驟 1)進(jìn)行主成分分析,得到主成分 2)以主成分為自變量進(jìn)行建模,六、案例,根據(jù)理論和經(jīng)驗分析,影響糧食生產(chǎn)(Y)的主要因素有: 農(nóng)業(yè)化肥施用量(X1);糧食播種面積(X2) 成災(zāi)面積(X3); 農(nóng)業(yè)機(jī)械總動力(X4); 農(nóng)業(yè)勞動力(X5),已知中國糧食生產(chǎn)的相關(guān)數(shù)據(jù),建立中國糧食生產(chǎn)函數(shù): Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +,案例1:中國糧食生產(chǎn)函數(shù),1、用OLS法估計上述模型:,R2接近于1; 給定=5%,得F臨界值 F0.05(5,12)=3.11 F=638.4 15.19, 故
15、認(rèn)上述糧食生產(chǎn)的總體線性關(guān)系顯著成立。 但X4 、X5 的參數(shù)未通過t檢驗,且符號不正確,故解釋變量間可能存在多重共線性。,(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14),2、檢驗簡單相關(guān)系數(shù),發(fā)現(xiàn): X1與X4間存在高度相關(guān)性。,列出X1,X2,X3,X4,X5的相關(guān)系數(shù)矩陣:,3、找出最簡單的回歸形式,可見,應(yīng)選第1個式子為初始的回歸模型。,分別作Y與X1,X2,X4,X5間的回歸:,(25.58) (11.49) R2=0.8919 F=132.1 DW=1.56,(-0.49) (1.14) R2=0.075 F=1.30 DW=0.12,(
16、17.45) (6.68) R2=0.7527 F=48.7 DW=1.11,(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36,4、逐步回歸,將其他解釋變量分別導(dǎo)入上述初始回歸模型,尋找最佳回歸方程。,回歸方程以Y=f(X1,X2,X3)為最優(yōu):,5、結(jié)論,案例2:1998年農(nóng)村居民食品支出,1998年31省市自治區(qū)農(nóng)村居民人均年食品支出(food,元)、人均年總支出(EX,元)和人均年可支配收入(IN,元)。見散點圖,food與EX 和IN都是正相關(guān)的,,建立2元回歸模型:,估計結(jié)果IN回歸系數(shù)是負(fù)的。顯然與事實不符、與經(jīng)濟(jì)理論不符。原因是EX和IN之間的多重共
17、線性(高度相關(guān))。,r(EX, IN) = 0.9537大于可決系數(shù)0.9482。按Klein判別準(zhǔn)則模型存在嚴(yán)重的多重共線性。,另外,如果用food只對IN回歸,回歸系數(shù)是正的。這也說明上述二元回歸結(jié)果中存在多重共線性。 Foodt = 285.5945 + 0.2571 Int (4.7) (10.5) R2 = 0.79, F = 110, T = 31 處理方法是用food只對EX回歸。效果很好。,案例3:中國私轎車擁有量決定因素分析,1985-2002年中國私人轎車擁有量以年增長率23%,年均增長55萬輛的速度飛速增長。 考慮到目前農(nóng)村家庭購買私人轎車的現(xiàn)象還很少,在建立中國私人轎車擁有量模型時,主要考慮如下因素:(1)城鎮(zhèn)居民家庭人均可支配收入;(2)城鎮(zhèn)總?cè)丝冢唬?)轎車產(chǎn)量;(4)公路交通完善程度;(5)轎車價格。,定義變量名如下: Y:中國私人轎車擁有量(萬輛) X1:城鎮(zhèn)居
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024成都裝修合同
- 央視《中國詩詞大會》里的11首經(jīng)典古詩詞賞析
- 2025年春季學(xué)期學(xué)校德育工作計劃
- 2025年度海洋工程鉆井平臺安全協(xié)議3篇
- 2024影院裝修工程合同書
- 《煤礦電氣系統(tǒng)的安全檢查》培訓(xùn)課件2025
- 2024年魚塘場地租賃及漁業(yè)資源保護(hù)合作協(xié)議3篇
- 2024年高端住宅區(qū)聯(lián)合開發(fā)合同3篇
- 《名人傳記史玉柱》課件
- 2024房地產(chǎn)開發(fā)商與承建商建設(shè)合同
- 人教版九年級上冊化學(xué)默寫總復(fù)習(xí)
- 無人機(jī)地形匹配導(dǎo)航
- 2023-餐飲公司章程范本
- 我國地方政府債務(wù)風(fēng)險及其防范研究的開題報告
- 靜脈治療護(hù)理質(zhì)量考核評價標(biāo)準(zhǔn)
- 老年肌肉衰減綜合征(肌少癥)-課件
- 九防突發(fā)事件應(yīng)急預(yù)案
- 神經(jīng)內(nèi)科應(yīng)急預(yù)案完整版
- 2023零售藥店醫(yī)保培訓(xùn)試題及答案篇
- UCC3895芯片內(nèi)部原理解析
- 航空航天技術(shù)概論
評論
0/150
提交評論