版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注回歸分析之緒論應(yīng)用回歸分析李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院1
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注目錄多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院2
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院3
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響多重共線性在回歸分析中,
由變量間強(qiáng)相關(guān)性引發(fā)的問題被稱為多重共線性,
該問題用數(shù)學(xué)語言也可以表示為,
存在一組不全為零的常數(shù)a0,a1,·
·
·
,ap
,使得a0
+
a1xi
1
+
a2xi
2
+
·
·
·
+
apxip
≈
0, i
=
1,
2,
·
·
·
,
n成立,或者有a0
+
a1xi
1
+
a2xi
2
+
·
·
·
+
apxip
=
0, i
=
1,
2,
·
·
·
,
n李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院4
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響多重共線性例5.1:
美國新客車出售量的相關(guān)數(shù)據(jù)下表。試建立新客車出售量(Y,單位:十萬輛)與新車消費(fèi)價(jià)格指數(shù)(X1,未經(jīng)季節(jié)調(diào)整,1967年為100%)、消費(fèi)者價(jià)格指數(shù)(X2,全部項(xiàng)目,1967年為100%)、個(gè)人可支配收入(X3,單位:百億美元)、利率(X4)和民間就業(yè)勞動(dòng)人數(shù)(X5,單位:百萬人)的線性回歸方程,并簡要分析結(jié)果。(數(shù)據(jù)來源于Gujarati(2009))李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院5
/
57年份YX1X2X3X4X51971102.27112.0121.377.684.8979.3671972108.72111.0125.383.964.5582.1531973113.50111.1133.194.987.3885.064197487.75117.5147.7103.848.6186.794197585.39127.6161.2114.286.1685.846197699.94135.7170.5125.265.2288.7521977110.46142.9181.5137.935.5092.0171978111.64153.8195.3155.127.7896.0481979105.59166.0217.7172.9310.2598.824198089.79179.3247.0191.8011.2899.303198185.35190.2272.3212.7613.73100.397198279.80197.6286.6226.1411.2099.526198391.79202.6297.4242.818.69100.8341984103.94208.5307.6267.069.65105.0051985110.39215.2318.5284.117.75107.1501986114.50224.4323.4302.216.31109.597診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響多重共線性表
1:新車銷量數(shù)據(jù)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院6
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響多重共線性圖
1:各變量矩陣散點(diǎn)圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院7
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響多重共線性在此基礎(chǔ)上,利用軟件R建立回歸方程,得到:Y?
=
26.526
+
0.482X1
?
1.012X2
+
0.603X3
?
1.090X4
+
1.288X5.表
2:系數(shù)檢驗(yàn)a變量名稱系數(shù)的估計(jì)量標(biāo)準(zhǔn)誤差t
值P
值截距x1
x2
x326.5260.482-1.0120.60383.6320.7070.5200.3750.3170.681-1.9601.6070.7580.5110.0780.139x4
x5-1.0901.2881.5331.265-0.7121.0190.4930.332n=16R2=0.755R2=0.632F
=
6.161P=0.007李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院8
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響多重共線性模型整體通過了F檢驗(yàn),但是五個(gè)自變量的系數(shù)卻未通過t檢驗(yàn)(α
=0.05)。從解釋的角度看,新車消費(fèi)者價(jià)格指數(shù)(X1)系數(shù)為0.482, 意味著當(dāng)其他三個(gè)自變量不變時(shí),
新車消費(fèi)者價(jià)格指數(shù)每 增加1單位,新客車銷售量Y
會(huì)平均增加0.482個(gè)單位。這似乎 與散點(diǎn)圖顯示的內(nèi)容并不相符,與經(jīng)濟(jì)學(xué)解釋也存在著矛盾。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院9
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院10
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注來源抽樣方法使用不當(dāng)可能引起多重共線性。比如,在研究變量X1、X2對(duì)Y的影響時(shí),圖2中顯示兩個(gè)自變量間存在較強(qiáng)的正相關(guān)關(guān)系。但是假如由于抽樣方法使用不當(dāng),獲取的樣本只是來自總體中滿足公式(1)或者(2)的一個(gè)子空間,該圖左上、右下部分對(duì)應(yīng)的樣本有可能未被抽到,
即數(shù)據(jù)缺少了X1較低X2較高(或X1較高X2較低)
的信息,才導(dǎo)致兩者間呈現(xiàn)出這樣的關(guān)系。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院11
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注來源a0
+
a1xi
1
+
a2xi
2
+
·
·
·
+
apxip
≈
0,a0
+
a1xi
1
+
a2xi
2
+
·
·
·
+
apxip
=
0,i
=
1,
2,
·
·
·
,
n
(1)i
=
1,
2,
·
·
·
,
n
(2)但是事實(shí)上,只有信息完整、樣本分布與總體相一致的情況下,才能得出自變量間的真實(shí)關(guān)系以及它們對(duì)因變量的真實(shí)效應(yīng)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院12
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注來源?2?1012?2?1120x1x2圖
2:變量間散點(diǎn)圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院13
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注來源對(duì)模型或者研究總體的約束可能導(dǎo)致多重共線性。比如,
研究人的身高、體重對(duì)其血壓的影響時(shí),
一般來講身高越高,
人體重的取值也會(huì)越大,
這是變量間自然存在的關(guān)系,只要引入這兩項(xiàng)變量,無論使用什么抽樣方法都不能避免多重共線性。特別是在一些帶有滯后變量的時(shí)間序列數(shù)據(jù)、或者關(guān)系密切的經(jīng)濟(jì)類截面數(shù)據(jù)中,這種現(xiàn)象更為普遍。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院14
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)估計(jì)的影響多重共線性的存在使得系數(shù)的估計(jì)量的方差急劇增大,有效性降低。記λ1
≥λ2
≥·
·
·≥λp
>0
為矩陣X
?X
的特征根,則有當(dāng)存在多重共線性時(shí),必有某些特征根λi
很接近于0,從而使1
變得非常大。此時(shí)如果繼續(xù)使用最小二乘法估計(jì)回歸系λi數(shù),容易造成系數(shù)的估計(jì)量的方差之和急劇增大。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院15
/
57
診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)估計(jì)的影響李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院16
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)估計(jì)的影響李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院17
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)估計(jì)的影響由此可得,?1var
(β
)
=σ2(1
?
r
)L12
11?2var
(β
)
=σ2(1
?
r
)L12
22即隨著兩個(gè)自變量間的相關(guān)性增強(qiáng),系數(shù)估計(jì)量β?1與β?2的方差將逐漸增大。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院18
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)估計(jì)的影響多重共線性容易導(dǎo)致系數(shù)的估計(jì)量的符號(hào)與現(xiàn)實(shí)相悖。假定有四個(gè)自變量X1、X2、X3、X4,研究者試圖建立因變量Y
與這四個(gè)自變量間的線性回歸模型,估計(jì)方程為Y?
=
β?1X1
+
β?2X2
+
β?3X3
+
β?4X4.不失一般性,不妨令β?i
>0,i
=1,2,3,4,如果X2、X3兩個(gè)自變量間存在完全多重共線性,有等式X2
=?3X3
成立,則在利用最小二乘法對(duì)系數(shù)進(jìn)行估計(jì)時(shí),有李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院19
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)估計(jì)的影響Y?
=
β?1X1
+
β?2X2
+
β?3X3
+
β?4X4=
β?1X1
+
(β?3
?
3β?2)X3
+
β?4X4=
β?1X1
+
(β?2
?
1/3β?3)X2
+
β?4X4.顯然X2、X3對(duì)應(yīng)系數(shù)估計(jì)量的符號(hào)可能發(fā)生變化,與實(shí)際情況不符。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院20
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)估計(jì)的影響多重共線性容易使回歸系數(shù)難以通過t檢驗(yàn)。對(duì)系數(shù)的估計(jì)量進(jìn)行顯著性檢驗(yàn)時(shí),檢驗(yàn)統(tǒng)計(jì)量具有如下形式:多重共線性的存在導(dǎo)致檢驗(yàn)統(tǒng)計(jì)量中分母較大,容易使得系數(shù)難以通過顯著性檢驗(yàn)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院21
/
57
診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)預(yù)測的影響李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院22
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)預(yù)測的影響分別在R2取值(0.1,0.9)時(shí)按照ρ
=0.2、ρ
=0.5生成數(shù)據(jù),樣本量為n=1000,其中70%的樣本作為訓(xùn)練集,30%
的樣本作為測試集。在訓(xùn)練集上建立回歸模型,測試集上按照公式(3)計(jì)算平均預(yù)測誤差。重復(fù)該過程200次。(3)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院23
/
57
診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)預(yù)測的影響比較在變量間相關(guān)性較弱(ρ
=0.2)與相關(guān)性較強(qiáng)(ρ
= 0.5)的情況下,如果保持變量間相關(guān)性不變,預(yù)測效果的 差異;當(dāng)變量間相關(guān)性較強(qiáng)(ρ
=0.5)時(shí),令測試集數(shù)據(jù)n0
=300, 改變X1、X2相關(guān)性為0.7,比較其預(yù)測結(jié)果與相關(guān)性保持不 變時(shí)有何不同。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院24
/
57診斷方法處理方法
嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)預(yù)測的影響01020300.250.750.50SNRPEmethodrho=0.2rho=0.5rho=0.7圖
3:預(yù)測誤差圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院25
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響對(duì)預(yù)測的影響與X1、X2相關(guān)性較弱(ρ
=0.2)時(shí)相比,即使X1、X2相關(guān) 性為ρ
=0.5的情況下,只要保證預(yù)測時(shí)變量間相關(guān)性與建模 時(shí)期一致,就可以利用該模型進(jìn)行預(yù)測,但是預(yù)測效果會(huì)受 到一定程度的影響;同樣的,如果在預(yù)測時(shí),變量X1、X2相關(guān)性由建模時(shí)期的0.5轉(zhuǎn) 變?yōu)?.7(或者相關(guān)類型發(fā)生變化),預(yù)測誤差也會(huì)因此有所 上升;隨著擬合優(yōu)度R2的提升,這種預(yù)測效果的差異會(huì)逐漸減小。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院26
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院27
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注診斷方法以下幾類方法可以用來對(duì)多重共線性進(jìn)行診斷:方差膨脹因子診斷法特征根診斷法其他診斷法李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院28
/
57處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響
診斷方法診斷方法:方差膨脹因子診斷法該診斷方法的主要思想是,
當(dāng)回歸系數(shù)估計(jì)量的方差“膨脹”的幅度較大時(shí),模型中就可能存在多重共線性。所謂方差膨脹因子,是指用來度量由于自變量間高度相關(guān)導(dǎo)致的β?方差增加幅度的一種工具。假定現(xiàn)對(duì)自變量X
進(jìn)行標(biāo)準(zhǔn)化得到X?,則R
=X??X?表示自變量的協(xié)方差矩陣(也是相關(guān)陣)。令L
=
(lij
)
=
(X??X?)?1那么矩陣L主對(duì)角線上的元素就被稱為各個(gè)自變量的方差膨脹因子(Variance
Inflation
Factor,VIF)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院29
/
57處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響
診斷方法診斷方法:方差膨脹因子診斷法根據(jù)上述公式,有Var
(β?i
)
=
lii
σ2,i
=
1,
2,
·
·
·,
p第i
個(gè)自變量Xi
的方差膨脹因子為iil
=11
?
R2i2i式中R
表示自變量iX
對(duì)其余p
?1
個(gè)自變量的復(fù)決定系數(shù),反映了第i
個(gè)自變量對(duì)其余p
?1個(gè)自變量的線性相關(guān)程度。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院30
/
57處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響
診斷方法診斷方法:方差膨脹因子診斷法經(jīng)驗(yàn)表明,當(dāng)某個(gè)自變量的VIF超過5
或10時(shí),可認(rèn)為與其他自變量間存在多重共線性。此外,當(dāng)p個(gè)自變量的VIF
遠(yuǎn)遠(yuǎn)大于1時(shí),也可以說明存在嚴(yán)重的多重共線性。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院31
/
57
處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響
診斷方法診斷方法:方差膨脹因子診斷法以例5.1為例,分別計(jì)算四個(gè)自變量的方差膨脹因子VIF,見表表
3:方差膨脹因子變量名稱
X1
X2
X3
X4
X5VIF
250.000
434.783
232.558
4.941
40.984四個(gè)自變量方差膨脹因子的平均值VIF
≈192.653。由此可以作出判斷,模型中確實(shí)存在多重共線性。該模型的多重共線性可能是由X1,X2,X3,X5這幾個(gè)自變量引起的。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院32
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響診斷方法:特征根診斷法李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院33
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響診斷方法:特征根診斷法但是在什么情況下可以認(rèn)為特征值近似為0
呢?為此,首先引入條件數(shù)的概念。令λm表示矩陣X?X的最大特征值,則
一般地,ki
小于100時(shí),認(rèn)為X沒有明顯的多重共線性;當(dāng)ki
在100到時(shí),認(rèn)為X
具有較強(qiáng)的多重共線性;而當(dāng)ki
超過1000時(shí),說明存在嚴(yán)重的多重共線性。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院34
/
57
診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響診斷方法:特征根診斷法但是需要注意的是,與方差膨脹因子不同,僅僅根據(jù)條件數(shù) 無法確定在哪幾個(gè)變量間存在多重共線性。令c
=(c1,c2,·
·
·
,cp
)表示矩陣X?X
特征值,對(duì)應(yīng)的特征向
量可以用λ
=(λ1,λ2,·
·
·
,λp
)表示,在多重共線性下有X?Xc
= λc
≈0(或者=0),進(jìn)而可以得出Xc≈0(或者=0),故根 據(jù)特征向量研究者可以判斷多重共線性發(fā)生在哪些變量。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院35
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響診斷方法:特征根診斷法??i將p維特征向量c,i
=1,2,·
·
·
,p按照特征值大小排列成一個(gè)p
×p的矩陣,矩陣中每一個(gè)元素平方后除以其對(duì)應(yīng)的特征值,然后按照列進(jìn)行歸一化可得每個(gè)特征值下,各個(gè)自變量對(duì)應(yīng)的方差比例。若有幾個(gè)自變量的方差比例值在某一行同時(shí)較大,則可以認(rèn)為這幾個(gè)自變量存在多重共線性。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院36
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響診斷方法:其他自變量的協(xié)方差矩陣中包含較大元素時(shí)需要警惕多重共線性 問題。但是協(xié)方差矩陣只是用來初步探測兩兩自變量間的相 關(guān)程度,元素取值較小并不意味著多重共線性一定不存在。 詳見書中舉例。回歸系數(shù)估計(jì)量的正負(fù)號(hào)以及意義解釋。當(dāng)方程中某些系數(shù) 估計(jì)量的符號(hào)、意義解釋與實(shí)際相違背時(shí),警惕多重共線性 問題。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院37
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響診斷方法:其他系數(shù)估計(jì)量的標(biāo)準(zhǔn)誤差與t檢驗(yàn)。當(dāng)系數(shù)估計(jì)量的標(biāo)準(zhǔn)誤差 較大時(shí),或者一些在實(shí)際意義中重要的自變量在方程中卻并 不顯著,可能存在多重共線性?;貧w系數(shù)的估計(jì)量對(duì)數(shù)據(jù)的敏感程度。比如,當(dāng)在方程中增 加、剔除自變量或者改變觀測值時(shí),回歸系數(shù)估計(jì)量的取值 發(fā)生較大變化,也需要注意回歸方程的多重共線性問題。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院38
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院39
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注處理方法以下三類方法有助于處理回歸分析中的多重共線性問題:重新設(shè)定模型。由于模型引入的自變量間本身可能就具有相關(guān)性,對(duì)模型進(jìn)行重設(shè)可以降低其帶來的影響。重新定義回歸變量。比如在例5.1
中,可以設(shè)法找到一個(gè)關(guān)于X1,
X2,
X3這三個(gè)變量的函數(shù),
如X
=X1
×X2
×X3、X
=(X1
+X2)/X3
等,使得既能保留變量原有的大部分信息,又能降低多重共線性的影響。進(jìn)行變量剔除。可以根據(jù)方差膨脹因子VIF大小依次對(duì)變量進(jìn)行剔除,直到消除多重共線性為止。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院40
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注處理方法增加樣本數(shù)量。當(dāng)多重共線性是由抽樣方法使用不當(dāng)引起時(shí) ,通過增大樣本數(shù)量更加容易避免只在總體的某個(gè)子空間中 抽樣,從而獲取到與總體分布相一致的樣本,消除多重共線 性。使用回歸系數(shù)的有偏估計(jì)。這類方法是以犧牲估計(jì)量的無偏 性為代價(jià)來達(dá)到提高其有效性的目的,常見的方法有主成分 法、偏最小二乘法、嶺回歸法等。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院41
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院42
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注嶺估計(jì)嶺估計(jì)最早由霍爾(A.E.Hoerl)在1962年提出,是一種對(duì)普通最小二乘法的改進(jìn)。其解決多重共線性問題的思路是,
既然多重共線性帶來的 估計(jì)問題源于|X?X|
=0
(或者|X?X|≈0),
那么給矩 陣X?X添加一項(xiàng)正常數(shù)矩陣,kI(k>0),使得|X?X
+kI| 接近0的程度與|X?X|相比更小。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院43
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注嶺估計(jì)此時(shí),得到的估計(jì)β?(k)
=
(X?X
+
kI)?1X?Y就是回歸系數(shù)β的嶺回歸估計(jì),這顯然是個(gè)有偏估計(jì)。并且參數(shù)k決定了其偏差的大小,研究者稱其為嶺參數(shù)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院44
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注嶺估計(jì)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院45
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注嶺估計(jì)為什么使用有偏估計(jì)?令Y
、X1、X2、X3、X4分別表示因變量和四個(gè)自變量,X1從 均值為1,方差為2的正態(tài)分布中生成,X2
從(?0.5,0.5)的均 勻分布中生成,其余兩個(gè)變量X3
=0.9X1
+0.3X2
+e1、X4
=
0.5X2
+e2因變量Y
=X1
+X2
+X3
+X4
+e3,其中e1、e2是兩個(gè)與X1同分布的隨機(jī)干擾項(xiàng),e3服從均值為2,方差為4的正態(tài)分布。然后分別利用最小二乘法、嶺回歸法對(duì)生成的模擬數(shù)據(jù)擬合 回歸模型。重復(fù)上述過程1000次,觀察自變量X2對(duì)應(yīng)系數(shù)的 最小二乘估計(jì)、嶺回歸估計(jì)的近似抽樣分布。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院46
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注嶺估計(jì)為什么使用有偏估計(jì)?圖
4:嶺回歸估計(jì)與最小二乘估計(jì)抽樣分布圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院47
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注性質(zhì)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院48
/
57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注性質(zhì)性質(zhì)3:當(dāng)k>0時(shí),隨著k增加,β?(k)的偏差會(huì)增加,但是
方差會(huì)隨之減小。并且當(dāng)β?β有界時(shí),存在非零的k值使得嶺 回歸估計(jì)量β?(k)的均方誤差MSE小于最小二乘估計(jì)的MSE。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院49
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響嶺參數(shù)的選擇原則上希望k可以使估計(jì)量的均方誤差達(dá)到最小,但這種最 優(yōu)的k值往往依賴于未知參數(shù)β和σ2,
并且這種依賴關(guān)系具 體有怎樣的函數(shù)形式還尚未清楚。常用的有以下三種方法:嶺跡法方差膨脹因子法殘差平方和法李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院50
/
57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性
來源與影響嶺參數(shù)的選擇:嶺跡法嶺回歸估計(jì)隨著嶺參數(shù)的變化而變化的曲線,稱為嶺跡。當(dāng)模型中存在著嚴(yán)重的多重共線性時(shí),回歸系數(shù)的不穩(wěn)定性 將通過嶺跡明顯表現(xiàn)出來。研究者的目的就是找到一個(gè)合理 的較小k值,在該取值處,嶺回歸估計(jì)量β?(k)是穩(wěn)定的。同 時(shí),也可以結(jié)合系數(shù)估計(jì)量的符號(hào)、解釋、殘差平方和的變 化等信息進(jìn)行選擇。通過審
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建師范大學(xué)《數(shù)字化教育資源設(shè)計(jì)與制作》2023-2024學(xué)年第一學(xué)期期末試卷
- 福建師范大學(xué)《設(shè)計(jì)基礎(chǔ)一》2021-2022學(xué)年第一學(xué)期期末試卷
- 福建師范大學(xué)《環(huán)境工程原理》2023-2024學(xué)年第一學(xué)期期末試卷
- 業(yè)務(wù)職責(zé)分工表(油田作業(yè)許可管理規(guī)定 )
- 河北會(huì)計(jì)職業(yè)發(fā)展現(xiàn)狀及未來趨勢分析
- 小說的美學(xué)特征課件
- 小學(xué)作文第一課教學(xué)課件教學(xué)
- 2024年平?jīng)隹瓦\(yùn)從業(yè)資格證考試模板
- 帕特農(nóng)神廟課件
- 2024年肇慶客運(yùn)從業(yè)資格考試
- 幼兒園說課概述-課件
- 35導(dǎo)數(shù)在經(jīng)濟(jì)中的應(yīng)用
- 蘇科版(2024新版)七年級(jí)上冊數(shù)學(xué)期中學(xué)情評(píng)估測試卷(含答案)
- 2024-2030年中國污泥處理行業(yè)發(fā)展分析及發(fā)展前景與趨勢預(yù)測研究報(bào)告
- 氣管插管操作規(guī)范(完整版)
- 2024-2025學(xué)年外研版英語八年級(jí)上冊期末作文范文
- 形勢與政策(吉林大學(xué))智慧樹知到答案2024年吉林大學(xué)
- 行長招聘面試題與參考回答(某大型集團(tuán)公司)
- 河南省洛陽市2023-2024學(xué)年七年級(jí)上學(xué)期期中考試數(shù)學(xué)試卷(含答案)
- Unit 5 A healthy lifestyle教學(xué)設(shè)計(jì)-2024-2025學(xué)年譯林版七年級(jí)英語上冊(南通地區(qū))
- 《軸對(duì)稱圖形》(教學(xué)設(shè)計(jì))-2023-2024學(xué)年四年級(jí)下冊數(shù)學(xué)青島版(五四學(xué)制)
評(píng)論
0/150
提交評(píng)論