




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、一、引言回歸分析是一種比較成熟的預(yù)測模型,也是在預(yù)測過程中使用較多的模型,在自然科學(xué)管理科學(xué)和社會經(jīng)濟中有著非常廣泛的應(yīng)用,但是經(jīng)典的最小二乘估計,必需滿足一些假設(shè)條件,多重共線性就是其中的一種。實際上,解釋變量間完全不相關(guān)的情形是非常少見的,大多數(shù)變量都在某種程度上存在著一定的共線性,而存在著共線性會給模型帶來許多不確定性的結(jié)果。二、認識多重共線性(一)多重共線性的定義設(shè)回歸模型y=P0+口洛+02X2+PpXp+w如果矩陣X的列向量存在一組不全為零的數(shù)出,年*2kp使彳#ko+kiXi+k2X2十十Xp=0,i=1,2,n,則稱其存在完全共線性,如果k0+k1Xi1+k2Xi2+kpXip
2、定0,i=1,2,n,則稱其存在近似的多重共線性。(二)多重共線性的后果1 .理論后果對于多元線性回歸來講,大多數(shù)學(xué)者都關(guān)注其估計精度不高,但是多重共線性不可能完全消除,而是要用一定的方法來減少變量之間的相關(guān)程度。多重共線性其實是由樣本容量太小所造成的后果,在理論上稱作“微數(shù)缺測性”,所以當樣本容量n很小的時候,多重共線性才是非常嚴重的。多重共線性的理論后果有以下幾點:(1)保持OLS(古計量的BLU勝質(zhì);(2)戈德伯格提出了近似多重共線性其實是樣本觀測數(shù)剛好超過待估參數(shù)個數(shù)時出現(xiàn)的情況。所以多重共線性并不是簡單的自變量之間存在的相關(guān)性,也包括樣本容量的大小問題。(3)近似的多重共線性中,OL
3、S古計仍然是無偏估計。無偏性是一種多維樣本或重復(fù)抽樣的性質(zhì);如果X變量的取值固定情況下,反復(fù)對樣本進行取樣,并對每個樣本計算OLS估計量,隨著樣本個數(shù)的增加,估計量的樣本值的均值將收斂于真實值。(4)多重共線性是由于樣本引起的。即使總體中每一個X之間都沒有線性關(guān)系,但在具體取樣時仍存在樣本間的共線性。2 .現(xiàn)實后果(1)雖然存在多重共線性的情況下,得到的OLS古計是BLUE勺,但有較大的方差和協(xié)方差,估計精度不高;(2)置信區(qū)間比原本寬,使得接受H0假設(shè)的概率更大;(3)t統(tǒng)計量不顯著;(4)擬合優(yōu)度R2的平方會很大;(5) OLS古計量及其標準誤對數(shù)據(jù)微小的變化也會很敏感。(三)多重共線性產(chǎn)
4、生的原因1,模型參數(shù)的選用不當,在我們建立模型時如果變量之間存在著高度的相關(guān)性,我們又沒有進行處理建立的模型就有可能存在著共線性。2 .由于研究的經(jīng)濟變量隨時間往往有共同的變化趨勢,他們之間存在著共線性。例如當經(jīng)濟繁榮時,反映經(jīng)濟情況的指標有可能按著某種比例關(guān)系增長3 .滯后變量。滯后變量的引入也會產(chǎn)生多重共線行,例如本期的消費水平除了受本期的收入影響之外,還有可能受前期的收入影響,建立模型時,本期的收入水平就有可能和前期的收入水平存在著共線性。(四)多重共線性的識別1 .直觀的判斷方法(1)在自變量的相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)系數(shù)值比較大。(2)回歸系數(shù)的符號與專業(yè)知識或一般經(jīng)驗相反
5、(3)對重要的自變量的回歸系數(shù)進行t檢驗,其結(jié)果不顯著,但是F檢驗確得到了顯著的通過(4)如果增加一個變量或刪除一個變量,回歸系數(shù)的估計值發(fā)生了很大的變化(5)重要變量的回歸系數(shù)置信區(qū)間明顯過大2,方差擴大因子法(VIF)定義VIFj=(1-Rj),其中Rj是以Xj為因變量時對其他自變量的復(fù)測定系數(shù)。一般認為如果最大的VIFj超過10,常常表示存在多重共線性。事實上VIFj=(1-R:)-1"。這說明2 21-Rj<0,1即Rj>0,9。3 .特征根判定法根據(jù)矩陣行列式的性質(zhì),矩陣行列式的值等于其特征根的連乘積。因此,當行列式_»_一一-.、一.一|XX|=0時
6、,至少有一個特征根為零,反過來,可以證明矩陣至少有一個特征根近似為.一-,'-零時,X的列向量必存在多重共線性,同樣也可證明XX有多少個特征根近似為零矩陣,X就有多少個多重共線性。根據(jù)條件數(shù),K,=!tm其中Km為最大的特征根,%為其他的特寸,i征根,通常認為0<k<10,沒有多重共線性,k>10存在著多重共線性。(五)多重共線性的處理方法1 .增加樣本容量當線性重合是由于測量誤差引起的以及他僅是偶然存在于原始樣本,而不存在于總體時,通過增加樣本容量可以減少或是避免線性重合,但是在現(xiàn)實的生活中,由于受到各種條件的限制增加樣本容量有時又是不現(xiàn)實的。2 .剔除法對于一些不
7、重要的解釋變量進行剔除,主要有向前法和后退法,逐步回歸法。理論上這三種方法都是針對不相關(guān)的的數(shù)據(jù)而言的,在多重共線性很嚴重的情況下,結(jié)論的可靠性受到影響,在一些經(jīng)濟模型中,要求一些很重要變量必須包含在里面,這時如果貿(mào)然的刪除就不符合現(xiàn)實的經(jīng)濟意義。3 .主成分法當自變量間有較強的線性相關(guān)性時,利用p個變量的主成分,所具有的性質(zhì),如果他們是互不相關(guān)的,可由前m個主成Zi,Z2,Zm來建立回歸模型。由原始變量的觀測數(shù)據(jù)計算前m個主成分的得分值,將其作為主成分的觀測值,建立Y與主成分的回歸模型即得回歸方程。這日p元降為m元,這樣既簡化了回歸方程的結(jié)構(gòu),且消除了變量間相關(guān)性帶來的影響4 .PLS(偏最
8、小二乘法)H.Wold在1975年提出的偏最小二乘法近年來引起廣泛的關(guān)注,在解決多重共線性方面,它與主成分回歸法,嶺回歸法一樣都能很好的達到目的,但偏最小二乘又與前者又有較大的區(qū)別,偏最小二乘法集中了最小二乘法、主成分分析法和典型相關(guān)分析的的優(yōu)點克服了兩種方法的缺點。偏最小二乘法吸取了主成分回歸提取主成分的思想,但不同的是主成分回歸只是從自變量中去尋找主成分與因變量無關(guān),因而主成分與因變量在算法上關(guān)系不密切,從而導(dǎo)致最后主成分在實際應(yīng)用中無法更好的進一步擬合因變量,偏最小二乘法則是從因變量出發(fā),選擇與因變量相關(guān)性較強而又能方便運算的自變量的線性組合。5 .嶺回歸法.嶺回歸分析是1962年由He
9、er首先提出的,1970年后他與肯納德合作,進一步發(fā)展了該方法,在多元線性回歸模型的矩陣形式Y(jié)=XP十名,參數(shù)P的普通最小二乘估計為P=(X'X)XY,嶺回歸當自變量存在多重共線性|x'x1"0時,給矩陣加上一個正常系數(shù)矩陣kl,那么P=(X'X+kl),X'Y,當時就是普通最小二乘估計。三、實際的應(yīng)用我們對于重慶市1987至2010年的統(tǒng)計數(shù)據(jù)做一個回歸預(yù)測模型,選取工業(yè)總產(chǎn)值為因變量,固定投資總額、貨物周轉(zhuǎn)量、財政支出、能源消耗總量四個變量為自變量。設(shè)模型為Y=一:01X12X23X34X4(3.1)(一)普通的最小二乘法對模型進行最小二乘估計得到
10、如下的結(jié)果:表3.1:模型總結(jié)ModelRRSquareAdjustedRSquareStd.ErroroftheEstimateChangeStatisticsRSquareChangeFChangedf1df2Sig.FChange1_a.998.996.995161.9431718.9961198.108419.000表3.2:方差分析表ModelSumofSquaresdfMeanSquareFSig.Regression1.257E843.142E71.198E3a.000Residual498286.2271926225.591Total1.262E823表3.3:系數(shù)矩陣表Mod
11、elBStd.ErrorBetatSigToleranceVIF1-193.968311.594-.623.541Xi.622.393.4871.582.130.002455.510X2.025.016.1881.570.133.01568.694X31.202.743.3491.617.122.004224.271X4-.030.117-.023-.261.797.02737.372調(diào)整的可決系數(shù)R2為0.995,F=1198,在置信水平為95%自由度4,方程通過了顯著性的檢驗,從這里我們可以看出從整體上來說方程得到了很好的擬合,但是各個系數(shù)的檢驗卻并沒有通過,而且能源消費的系數(shù)為負,這于經(jīng)
12、濟學(xué)的原理相反,我們初步斷定回歸的方程可能存在著多重共線性。根據(jù)方差擴大因子VIFi=455.510,VIF2=68.694,VIF3=224.271,VIF4=37.372.均大于10說明存在多重共線性。此外我們還可以根據(jù)共線性的診斷,來判斷多重共線性的存在。為此,利用SPS歌件進行相關(guān)處理可以得到下表:表3.4:多重共線性診斷表ModelDimensionEigenvalueConditionIndexVarianceProportions(Constant)XiX2X3X4114.4121.000.00.00.00.00.002.5682.788.01.00.00.00.003.0171
13、6.264.13.00.00.05.224.00339.288.25.00.80.07.395.00171.989.611.00.20.88.39從特征值我們可以看到有兩個接近于零,條件數(shù)我們可以看到最大條件數(shù)為71.989,說明存在著共線性,以上的分析說明因變量間存在著多重共線性。(二)運用嶺回歸解決多重共線性用SPSS欠件的嶺回歸功能的語法實現(xiàn)嶺回歸,做出的結(jié)果如下:表3.5:嶺參數(shù)K值表KRSQX1X2X3X4.00000.99605.486610.187544.349141-.022974.05000.99450.298761.231025.351029.109212.10000.99
14、286.279395.234139.315824.148780.15000.99135.268288.234093.295846.168122.20000.98984.260456.232912.282446.178951.25000.98824.254302.231210.272489.185418.30000.98652.249140.229240.264570.189368.35000.98466.244625.227127.257967.191744.40000.98265.240562.224938.252270.193079.45000.98050.236833.222713.24
15、7230.193695.50000.97822.233363.220477.242684.193798.55000.97581.230101.218244.238524.193528.60000.97327.227009.216026.234672.192980.65000.97062.224062.213829.231075.192222.70000.96786.221240.211658.227690.191305.75000.96501.218527.209517.224485.190265.80000.96206.215912.207406.221437.189132.85000.95
16、903.213385.205328.218526.187927.90000.95591.210938.203284.215736.186667.95000.95273.208564.201273.213056.1853661.0000.94948.206258.199296.210473.184034RIDGETRACE0.500000-0.40000003000000.200000-O1ooooo-O.DOODOO-0.1GOOOO-XIK*X2*K»X3,K,于0000000.200000400000.600000.80000100000圖3.1嶺跡圖從嶺跡圖上看,最小二乘的穩(wěn)定
17、性很差,當k稍微增大時,系數(shù)有較大的變化。對各個變量分別來看,當k=0,X1、*2和*3對于變量有顯著,f史E的影響,X4對于變量有負的影響,從嶺回歸的角度來看,變量X1和X3隨著k的增大其系數(shù)值迅速減小最終趨于穩(wěn)定,X2隨著k的增加變化不大,對于X4講,當k逐漸增大時,由負的影響變?yōu)檎挠绊憽S捎赬1和X4的嶺參數(shù)都迅速減少,兩者之和比較穩(wěn)定。從嶺回歸的角度看,X1和X4只要保留一個就可以了。*2和X3的嶺回歸系數(shù)相對穩(wěn)定。通過分析,決定剔除X4,對剩下的三個變量進行嶺回歸。把嶺參數(shù)步長改為0.02,范圍縮小到0.2,在SPS汕用命令生成得到如下結(jié)果:表3.6:步長為0.02時的嶺參數(shù)值表K
18、RSQX1X2X3.00000.99604.436166.179183.385799.02000.99584.351867.262568.380494.04000.99560.342222.282832.363342.06000.99531.336854.291961.353101.08000.99497.332900.296644.345962.10000.99457.329612.299105.340458.12000.99410.326701.300300.335921.14000.99357.324028.300709.332010.16000.99297.321521.300600.
19、328527.18000.99231.319135.300137.325355.20000.99159.316844.299420.322417由上表可以看到,剔除了X4后嶺回歸系數(shù)變化幅度減小,從嶺跡圖看嶺參數(shù)在0.12到0.20之間時,嶺參數(shù)已基本穩(wěn)定,當k=0.16時,R2=0.99297仍然很大,因而可以選取k=0.16嶺參數(shù)。然后給定,重新作嶺回歸,計算結(jié)果如下:表3.7:k=0.16時的嶺回歸MultR.9964780RSquare.9929685AdjRSqu.9919137SE210.6252025:表3.8:方差分析表dfSSMSFvalueSinFRegress3.0001
20、2529541741765139941.44.000000Residual20.000887259.5244362.976表3.9:方程中的變量BSE(B)BetaB/SE(B)X1.4110191.0098800.321520841.6010169X2.0399873.0017557.300600422.7755604X31.1311326.0405681.328527227.8823490Constant-451.706605569.6480613.0000000-6.4855589得到對Y對*1,*2和*3的標準化嶺回歸方程為:=0.3215X10.3006X20.3285X3(3.2)
21、(41.601)(22.776)(27.882)2R=0.993F=941.44普通最小二乘法得到的回歸方程為Y?=0.487X10.188X20.349X3-0.023X4(3.3)(1.582)(1.570)(1.617)(-0.261)標準化嶺回歸得到的T統(tǒng)計量都比OLS估計顯著,因此嶺回歸得到預(yù)期的效果。(三)主成分分析法同樣利用SPSS軟件中的Analyze下拉菜單進行主成分分析??梢缘玫饺缦陆Y(jié)果:表3.10:總的解釋方差表ComponentTotalInitialEigenvalues%ofVarianceCumulative%ExtractionSumsofSquaredLoad
22、ingsTotal%ofVarianceCumulative%13.92798.16698.1663.92798.16698.1662.0601.49199.657.0601.49199.6573.012.30699.964.012.30699.9644.001.036100.000.001.036100.000表3.10:總的解釋方差表ComponentTotalInitialEigenvalues%ofVarianceCumulative%ExtractionSumsofSquaredLoadingsTotal%ofVarianceCumulative%13.92798.16698.166
23、3.92798.16698.1662.0601.49199.657.0601.49199.6573.012.30699.964.012.30699.9644.001.036100.000.001.036100.000由上表可以知道,四個主成分的特征值的最大值為3.927,最小彳1為0.001;前兩個因子的累積貢獻率已經(jīng)達到99.657%,故只需要保留前兩個主成分。利用SPSS的主成分分析進入變量計算。對前兩主成分作普通最小二乘法:第一主成分T1=0.254X10.253X20.252X30.250X4(3.4)第二主成分T2二1.014Xi0.315X2-2.408X33.137X4(3.5)
24、用Y又T2做普通最小二乘法,得如下回歸方程為Y?=0.995T;-0.08T2(3.6)因此,可以得出主成分回歸方程為Y?=0.3339X10.2769X20.4434X3-0.012X4(3.7)回歸方程的的修正的可決系數(shù)為0.996。由上面的分析我們看到嶺回歸和主成分的所得到的結(jié)果比較接近,各個系數(shù)解釋也更加的合理,符合現(xiàn)實意義。五、結(jié)論主成分法和嶺回歸所估計的參數(shù),都已經(jīng)不是無偏的估計,主成分分析法作為多元統(tǒng)計分析的一種常用方法在處理多變量問題時具有其一定的優(yōu)越性,其降維的優(yōu)勢是明顯的,主成分回歸方法對于一般的多重共線性問題還是適用的,尤其是對共線性較強的變量之間.嶺回歸估計是通過最小二乘法的改進允許回歸系數(shù)的有偏估計量存在而補救多重共線性的方法,采用它可以通過允許小的誤差而換取高于無偏估計量的精度,因此它接近真實值的可能性較大。靈活運用嶺回歸法,可以對分析各變量之間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 資產(chǎn)證券化在農(nóng)業(yè)金融的應(yīng)用前景
- 延安職業(yè)技術(shù)學(xué)院《藥學(xué)基礎(chǔ)理論(Ⅱ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025屆福建省三明市永安市三年級數(shù)學(xué)第二學(xué)期期末質(zhì)量檢測模擬試題含解析
- 南京大學(xué)《MATLAB及應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼寧石化職業(yè)技術(shù)學(xué)院《現(xiàn)代儀器分析技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 三門峽職業(yè)技術(shù)學(xué)院《品牌戰(zhàn)略與品牌形象》2023-2024學(xué)年第二學(xué)期期末試卷
- 重慶對外經(jīng)貿(mào)學(xué)院《高級編程語言(python)》2023-2024學(xué)年第二學(xué)期期末試卷
- 西安音樂學(xué)院《創(chuàng)新設(shè)計思維》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東海事職業(yè)學(xué)院《設(shè)計文案寫作》2023-2024學(xué)年第二學(xué)期期末試卷
- 皖北衛(wèi)生職業(yè)學(xué)院《績效考核與薪酬管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 人教A版(2019)高中數(shù)學(xué)選擇性必修第二冊 《數(shù)列的相關(guān)概念》教學(xué)設(shè)計
- 醫(yī)療信息共享與互聯(lián)網(wǎng)醫(yī)療管理制度
- 2024新版有限空間作業(yè)安全大培訓(xùn)
- 九年級語文下冊-【《孔乙己》課后習(xí)題參考答案】
- 人教版高中英語必修二詞匯表(默寫版)
- 2024年浙江省寧波市外事服務(wù)中心招聘2人歷年(高頻重點復(fù)習(xí)提升訓(xùn)練)共500題附帶答案詳解
- 【基于上市公司數(shù)據(jù)的康芝藥業(yè)盈利能力探析(定量論文)11000字】
- DL-T5161.17-2018電氣裝置安裝工程質(zhì)量檢驗及評定規(guī)程第17部分:電氣照明裝置施工質(zhì)量檢驗
- 2024年共青團入團積極分子結(jié)業(yè)考試題庫及答案
- 2024年社區(qū)工作者考試題庫及答案
- (正式版)JBT 14449-2024 起重機械焊接工藝評定
評論
0/150
提交評論