應(yīng)用回歸分析(R語(yǔ)言版)(第2版) 課件 第6章 多重共線性的情形及其處理_第1頁(yè)
應(yīng)用回歸分析(R語(yǔ)言版)(第2版) 課件 第6章 多重共線性的情形及其處理_第2頁(yè)
應(yīng)用回歸分析(R語(yǔ)言版)(第2版) 課件 第6章 多重共線性的情形及其處理_第3頁(yè)
應(yīng)用回歸分析(R語(yǔ)言版)(第2版) 課件 第6章 多重共線性的情形及其處理_第4頁(yè)
應(yīng)用回歸分析(R語(yǔ)言版)(第2版) 課件 第6章 多重共線性的情形及其處理_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第6章多重共線性的情形及其處理6.1多重共線性產(chǎn)生的背景和原因6.2多重共線性對(duì)回歸建模的影響6.3多重共線性的診斷6.4消除多重共線性的方法6.5本章小結(jié)與評(píng)注2024/3/51中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/3/52中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心

如果存在不全為0的p+1個(gè)數(shù),使得則稱自變量之間存在著完全多重共線性。在實(shí)際經(jīng)濟(jì)問(wèn)題中完全的多重共線性并不多見(jiàn),常見(jiàn)的是(6.1)式近似成立的情況,即存在不全為0的p+1個(gè)數(shù),使得稱自變量之間存在著多重共線性(Multi-collinearity),也稱為復(fù)共線性。第6章多重共線性的情形及其處理6.1多重共線性產(chǎn)生的背景和原因

2024/3/53

當(dāng)我們所研究的經(jīng)濟(jì)問(wèn)題涉及到時(shí)間序列資料時(shí),由于經(jīng)濟(jì)變量隨時(shí)間往往存在共同的變化趨勢(shì),它們之間就容易出現(xiàn)共線性。例如,我們要研究我國(guó)居民消費(fèi)狀況,影響居民消費(fèi)的因素很多,一般有職工平均工資、農(nóng)民平均收入、銀行利率、全國(guó)零售物價(jià)指數(shù)、國(guó)債利率、貨幣發(fā)行量、儲(chǔ)蓄額、前期消費(fèi)額等,這些因素顯然既對(duì)居民消費(fèi)產(chǎn)生重要影響,它們之間又有著很強(qiáng)的相關(guān)性。

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/3/54

許多利用截面數(shù)據(jù)建立回歸方程的問(wèn)題常常也存在自變量高度相關(guān)的情形。例如,我們以企業(yè)的截面數(shù)據(jù)為樣本估計(jì)生產(chǎn)函數(shù),由于投入要素資本K,勞動(dòng)力投入L,科技投入S,能源供應(yīng)E等都與企業(yè)的生產(chǎn)規(guī)模有關(guān),所以它們之間存在較強(qiáng)的相關(guān)性。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.1多重共線性產(chǎn)生的背景和原因

6.2多重共線性對(duì)回歸建模的影響

2024/3/55

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心

設(shè)回歸模型存在完全的多重共線性,即對(duì)設(shè)計(jì)矩陣X的列向量存在不全為零的一組數(shù),使得

設(shè)計(jì)矩陣X的秩此時(shí),正規(guī)方程組的解不唯一,不存在,回歸參數(shù)的最小二乘估計(jì)表達(dá)式不成立。2024/3/56中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.2多重共線性對(duì)回歸建模的影響

對(duì)非完全共線性,存在不全為零的一組數(shù),使得此時(shí)設(shè)計(jì)矩陣X的秩雖然成立,但是

的對(duì)角線元素很大,的方差陣

的對(duì)角線元素很大,而的對(duì)角線元素即

,因而

的估計(jì)精度很低。這樣,雖然用普通最小二乘估計(jì)能得到的無(wú)偏估計(jì),但估計(jì)量的方差很大,不能正確判斷解釋變量對(duì)被解釋變量的影響程度,甚至導(dǎo)致估計(jì)量的經(jīng)濟(jì)意義無(wú)法解釋。2024/3/57中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.2多重共線性對(duì)回歸建模的影響

做y對(duì)兩個(gè)自變量

的線性回歸,假定y與都已經(jīng)中心化,此時(shí)回歸常數(shù)項(xiàng)為零,回歸方程為記則之間的相關(guān)系數(shù)為2024/3/58中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.2多重共線性對(duì)回歸建模的影響

的協(xié)方差陣為2024/3/59中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.2多重共線性對(duì)回歸建模的影響

由此可得可知,隨著自變量

的相關(guān)性增強(qiáng),的方差將逐漸增大。當(dāng)

完全相關(guān)時(shí),r=1,方差將變?yōu)闊o(wú)窮大。2024/3/510

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.2多重共線性對(duì)回歸建模的影響

當(dāng)給不同的r12值時(shí),由表6-1可看出方差增大的速度。為了方便,我們假設(shè),相關(guān)系數(shù)從0.5變?yōu)?.9時(shí),回歸系數(shù)的方差增加了295%,相關(guān)系數(shù)從0.5變?yōu)?.95時(shí),回歸系數(shù)的方差增加了671%。2024/3/511

在例3-3中,我們建立的中國(guó)民航客運(yùn)量回歸方程為:

=450.9+0.354x1-0.561x2-0.0073x3+21.578x4+0.435x5其中:y—民航客運(yùn)量(萬(wàn)人),

x1—國(guó)民收入(億元),x2—消費(fèi)額(億元),

x3—鐵路客運(yùn)量(萬(wàn)人),x4—民航航線里程(萬(wàn)公里),

x5—來(lái)華旅游入境人數(shù)(萬(wàn)人)。

5個(gè)自變量都通過(guò)了t檢驗(yàn),但是x2的回歸系數(shù)是負(fù)值,x2是消費(fèi)額,從經(jīng)濟(jì)學(xué)的定性分析看,消費(fèi)額與民航客運(yùn)量應(yīng)該是正相關(guān),負(fù)的回歸系數(shù)無(wú)法解釋。問(wèn)題出在哪里?這正是自變量之間的復(fù)共線性造成的。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.2多重共線性對(duì)回歸建模的影響

6.3多重共線性的診斷

2024/3/5126.3.1方差擴(kuò)大因子法

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心

對(duì)自變量做中心標(biāo)準(zhǔn)化,則為自變量的相關(guān)陣。記 (6.5)稱其主對(duì)角線元素為自變量的方差擴(kuò)大因子(VarianceInflationFactor,簡(jiǎn)記為VIF)。由(3.31)式可知,其中是的離差平方和,由(6.6)式可知用作為衡量自變量的方差擴(kuò)大程度的因子是恰如其分的。(6.6)2024/3/513中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

記為以

作因變量對(duì)其余p-1個(gè)自變量進(jìn)行回歸得到的復(fù)決定系數(shù),可以證明(6.7)式(6.7)也可以作為方差擴(kuò)大因子

的定義,由此式可知。2024/3/514中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

經(jīng)驗(yàn)表明,當(dāng)時(shí),就說(shuō)明自變量與其余自變量之間有嚴(yán)重的多重共線性,且這種多重共線性可能會(huì)過(guò)度地影響最小二乘估計(jì)值。還可用p個(gè)自變量所對(duì)應(yīng)的方差擴(kuò)大因子的平均數(shù)來(lái)度量多重共線性。當(dāng)遠(yuǎn)遠(yuǎn)大于1時(shí)就表示存在嚴(yán)重的多重共線性問(wèn)題。

2024/3/515

以下用R軟件診斷例3-3中國(guó)民航客運(yùn)量一例中的多重共線性問(wèn)題。由于計(jì)算方差擴(kuò)大因子VIF的函數(shù)vif()在car包中,而該包不是基本包,所以首先要安裝并加載car包,以下是計(jì)算代碼及其運(yùn)行結(jié)果。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

2024/3/516中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

6.3.2特征根判定法1、特征根分析

根據(jù)矩陣行列式的性質(zhì),矩陣的行列式等于其特征根的連乘積。因而,當(dāng)行列式時(shí),矩陣

至少有一個(gè)特征根近似為零。反之可以證明,當(dāng)矩陣至少有一個(gè)特征根近似為零時(shí),X的列向量間必存在復(fù)共線性,證明見(jiàn)158頁(yè)。證明如下:記,其中為X

的列向量,

是元素全為1的n維列向量。是矩陣

的一個(gè)近似為零的特征根,是對(duì)應(yīng)于特征根的單位特征向量,則上式兩邊左乘

,得。從而有,即。寫(xiě)成分量形式即為這正是(6.2)式定義的多重共線性關(guān)系。2024/3/517中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

如果矩陣

有多個(gè)特征根近似為零,在上面的證明中,取每個(gè)特征根的特征向量為標(biāo)準(zhǔn)化正交向量,即可證明:有多少個(gè)特征根接近于零,設(shè)計(jì)矩陣X就有多少個(gè)多重共線性關(guān)系,并且這些多重共線性關(guān)系的系數(shù)向量就等于接近于零的那些特征根對(duì)應(yīng)的特征向量。2024/3/518中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

2024/3/519中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

2、條件數(shù)

特征根分析表明,當(dāng)矩陣

有一個(gè)特征根近似為零時(shí),設(shè)計(jì)矩陣X的列向量間必存在復(fù)共線性。那么特征根近似為零的標(biāo)準(zhǔn)如何確定呢?可以用下面介紹的條件數(shù)確定。記的最大和最小特征根分別為,稱為矩陣的條件數(shù)(ConditionIndex)。2024/3/520中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

k<100時(shí),設(shè)計(jì)矩陣X多重共線性程度較?。?00≤k≤

1000時(shí),認(rèn)為X存在較強(qiáng)的多重共線性;當(dāng)k>1000時(shí),認(rèn)為存在嚴(yán)重的多重共線性。

用條件數(shù)判斷多重共線性的準(zhǔn)則:在R軟件中,通常用kappa()函數(shù)計(jì)算矩陣的條件數(shù),其使用方法為:kappa(z,exact=FALSE,…),其中,z為矩陣,exact是邏輯變量,當(dāng)exact=TRUE時(shí),精確計(jì)算條件數(shù),否則近似計(jì)算條件數(shù)。2024/3/521

對(duì)例3-3中國(guó)民航客運(yùn)量的例子,用R軟件計(jì)算矩陣的條件數(shù),計(jì)算代碼及結(jié)果如下:

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

2024/3/522中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

根據(jù)條件數(shù)k=14694.56>1000,說(shuō)明自變量之間存在嚴(yán)重的多重共線性。進(jìn)一步,為找出哪些變量是多重共線的,需要計(jì)算矩陣的特征值和相應(yīng)的特征向量,在R命令窗口輸入代碼eigen(XX),得到其最小的特征值和相應(yīng)的特征向量為即由于的系數(shù)近似為0,故之間存在著多重共線性。2024/3/523

6.3.3直觀判定法1.當(dāng)增加或剔除一個(gè)自變量,或者改變一個(gè)觀測(cè)值時(shí),回歸系數(shù)的估計(jì)值發(fā)生較大變化。2.從定性分析角度看來(lái),一些重要的自變量在回歸方程中沒(méi)有通過(guò)顯著性檢驗(yàn)。3.有些自變量的回歸系數(shù)所帶正負(fù)號(hào)與定性分析結(jié)果違背。4.自變量的相關(guān)矩陣中,自變量間的相關(guān)系數(shù)較大。5.一些重要的自變量的回歸系數(shù)的標(biāo)準(zhǔn)誤差較大。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.3多重共線性的診斷

6.4消除多重共線性的方法

2024/3/524

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.4.1剔除不重要的解釋變量

在剔除自變量時(shí),可以將回歸系數(shù)的顯著性檢驗(yàn)、方差擴(kuò)大因子VIF以及自變量的經(jīng)濟(jì)含義結(jié)合起來(lái)考慮,以引進(jìn)或剔除變量。民航客運(yùn)量一例中,5個(gè)自變量都通過(guò)了回歸系數(shù)的顯著性檢驗(yàn),但仍存在著嚴(yán)重的多重共線性,的方差擴(kuò)大因子為1963.337最大,因此剔除,建立y對(duì)其余四個(gè)自變量的回歸方程,相關(guān)計(jì)算結(jié)果如下所示:2024/3/525

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.4消除多重共線性的方法

2024/3/526

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.4消除多重共線性的方法

從輸出結(jié)果看到,的方差擴(kuò)大因子為77.546最大,遠(yuǎn)大于10,且其回歸系數(shù)仍為負(fù)值,因此剔除,建立y對(duì)其余三個(gè)自變量的回歸方程,相關(guān)計(jì)算結(jié)果如下所示:2024/3/527

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.4消除多重共線性的方法

2024/3/528中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6.4消除多重共線性的方法

6.4.2增大樣本容量例如,由(6.3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論