多重共線性和非線性回歸及解決方法_第1頁
多重共線性和非線性回歸及解決方法_第2頁
多重共線性和非線性回歸及解決方法_第3頁
多重共線性和非線性回歸及解決方法_第4頁
多重共線性和非線性回歸及解決方法_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——多重共線性和非線性回歸及解決方法

多重共線性和非線性回歸的問題(1)多重共線性問題

我們都知道在進行多元回歸的時候,特別是進行經(jīng)濟上指標回歸的時候,好多變量存在共同趨勢相關(guān)性,讓我們得不到希望的回歸模型。這里經(jīng)常用到的有三種方法,而不同的方法有不同的目的,我們分別來看看:

第一個,是最熟悉也是最便利的——逐步回歸法。

逐步回歸法是根據(jù)自變量與因變量相關(guān)性的大小,將自變量一個一個選入方法中,并且每選入一個自變量都進行一次檢驗。最終留在模型里的自變量是對因變量有最大顯著性的,而剔除的自變量是與因變量無顯著線性相關(guān)性的,以及與其他自變量存在共線性的。用逐步回歸法做的多元回歸分析,尋常自變量不宜太多,一般十幾個以下,而且你的數(shù)據(jù)量要是變量個數(shù)3倍以上才可以,不然做出來的回歸模型誤差較大。譬如說你有10個變量,數(shù)據(jù)只有15組,然后做擬合回歸,得到9個自變量的系數(shù),雖然可以得到,但是精度不高。這個方法我們不僅可以找到對因變量影響顯著的幾個自變量,還可以得到一個確切的預計模型,進行預計,這個十分重要的。而往往通過逐步回歸只能得到幾個自變量進入方程中,有時甚至只有一兩個,令我們十分失望,這是由于自變量好多都存在共線性,被剔除了,這時可以通過其次個方法來做回歸。

其次個,通過因子分析(或主成分分析)再進行回歸。

這種方法用的也好多,而且可以很好的解決自變量間的多重共線性。首先通過因子分析將幾個存在共線性的自變量合為一個因子,再用因子分析得到的幾個因子和因變量做回歸分析,這里的因子之間沒有顯著的線性相關(guān)性,根本談不上共線性的問題。通過這種方法可以得到哪個因子對因變量存在顯著的相關(guān)性,哪個因子沒有顯著的相關(guān)性,再從因子中的變量對因子的載荷來看,得知哪個變量對因變量的影響大小關(guān)系。而這個方法只能得到這些信息,第一它不是得到一個確切的,可以預計的回歸模型;其次這種方法不知道有顯著影響的因子中每個變量是不是都對因變量有顯著的影響,譬如說因子分析得到三個因子,用這三個因子和因變量做回歸分析,得到第一和其次個因子對因變量有顯著的影響,而在第一個因子中有4個變量組成,其次個因子有3個變量組成,這里就不知道這7個變量是否都對因變量存在顯著的影響;第三它不能得到每個變量對因變量確鑿的影響大小關(guān)系,而我們可以通過逐步回歸法直觀的看到自變量前面的系數(shù)大小,從而判斷自變量對因變量影響的大小。第三個,嶺回歸。

通過逐步回歸時,我們可能得到幾個自變量進入方程中,但是有時會出現(xiàn)自變量影響的方向出現(xiàn)錯誤,譬如第一產(chǎn)業(yè)的產(chǎn)值對國民收入是正效應,而可能方程中的系數(shù)為負的,這種確定是由于共線性導致出現(xiàn)了擬合失真的結(jié)果,而這樣的結(jié)果我們只能通過自己的經(jīng)驗去判斷。尋常我們在做影響因素判斷的時候,不僅希望得到各個因素對因變量真實的影響關(guān)系,還希望知道確鑿的影響大小,就是每個自變量系數(shù)的大小,這個時候,我們就可以通過嶺回歸的方法。

嶺回歸是在自變量信息矩陣的主對角線元素上人為地參與一個非負因子k,從而使回歸系數(shù)的估計稍有偏差、而估計的穩(wěn)定性卻可能明顯提高的一種回歸分析方法,它是最小二乘法的一種補充,嶺回歸可以修復病態(tài)矩陣,達到較好的效果。在SPSS中沒有提供嶺回歸的模塊,可以直接點擊使用,只能通過編程來實現(xiàn),當然在SAS、Matlab中也可以實現(xiàn)。做嶺回歸的時候,需要進行屢屢調(diào)試,選擇適當?shù)膋值,才能得到比較滿意的方程,現(xiàn)在這個方法應用

越來越普遍。在07年的時候,我的一個老師還覺得這個方法是他的看家才干,但是現(xiàn)在好多人都會這個方法,而且用的越來越多了,得到的結(jié)果也十分合理。

特別提醒的是:多重共線性說的是變量之間線性關(guān)系,和非線性不要混淆了。多組變量之間兩種極端的關(guān)系是完全多重共線性關(guān)系和完全非線性關(guān)系,即完全是平行直線的關(guān)系和完全無規(guī)則的曲線關(guān)系(是什么形狀,還真不好形容,自己悟去吧^_^)。當然解決多重共線性問題的方法還有,譬如差分微分模型,應用的很少,我估計是十分專業(yè)的人才會用的吧,呵呵,反正我不會這個方法。接下來說說非線性回歸。(2)非線性回歸的問題。

非線性回歸,顧名思義自變量和因變量是非線性的關(guān)系,譬如平方、次方等等,但是大多數(shù)的非線性方程都可以轉(zhuǎn)換成線性的方程,譬如我們尋常知道的二次函數(shù):

y=a0+a1*x+a2*x^2,這里就可以轉(zhuǎn)換成線性方程,首先將x^2計算得到x1,方程就變成

y=a0+a1*x+a2*x1,而這個方程就是我們一般見到的多元線性回歸,直接進行線性擬合就可以了。

這里需要特別提醒的是:我說的可以轉(zhuǎn)換成線性的非線性方程,是一元非線性方程,而不是多元非線性方程。我們知道在SPSS回歸分析中有單獨一個模塊叫曲線估計,它里面提供的11個非線性模型都是可以轉(zhuǎn)換成線性模型的,而且在進行系數(shù)擬合的時候都是通過轉(zhuǎn)換成線性方程進行擬合的,這就是為什么同樣是非線性方程,在曲線估計里面不需要輸入系數(shù)的初始值,而在非線性回歸中卻要輸入。

將非線性方程轉(zhuǎn)換成線性方程再進行擬合,不是由于我們不會做非線性擬合,而改成線性擬合我就會做了,主要原因不是由于這個。而是由于同樣的非線性方程擬合比轉(zhuǎn)換成的線性方程擬合誤差更大一些,而且由于迭代次數(shù)的增多,計算時間會更長,由于我們平日計算的數(shù)據(jù)不是好多,這種感覺不是十明顯顯,但是當我們做實際問題的時候,特別是規(guī)劃問題中,我們將非線性方程轉(zhuǎn)換成線性方程時,計算速度會明顯加快。還有一個原因是,做非線性回歸的時候,我們要在擬合之前設置初始值,而初始值的選擇直接影響后面系數(shù)的確定,你改變初始值,擬合出來的系數(shù)都會發(fā)生變化,這樣也會增加非線性回歸產(chǎn)生的誤差,前面說的誤差是計算上產(chǎn)生的誤差,而這里是人為經(jīng)驗上產(chǎn)生的誤差。因此在做非線性回歸時,假使能轉(zhuǎn)換成線性回歸,一定轉(zhuǎn)換成線性的來做。

說到那個人,他在留言中說,這樣我沒有考慮到轉(zhuǎn)換之后自變量之間的多重共線性,不能這樣做,還聲嘶力竭的喊我誤人子弟。這里我要詳細說明是怎么回事,要不要考慮這里的多重共線的問題,假使他也能看到更好。一般我們做回歸分析的時候,尋常第一步看自變量和因變量之間的散點圖,通過散點圖我們大致判斷兩者之間存在怎么的關(guān)系,再來選擇適當?shù)哪P?。而尋常我們不知道具體選擇哪個模型,可以選擇幾個可能相像的模型比較一下,選擇一個擬合效果最好的。這里譬如說兩個變量之間知道是非線性的,但是不知道是二次的、三次的還是四次及以上的關(guān)系(尋常次方數(shù)越低越好),你可以同時考慮,然后根據(jù)擬合的結(jié)果來判斷。如將方程設置為:y=a0+a1*x+a2*x^2+a3*x^3+a4*x^4,轉(zhuǎn)換成線性方程就是:

y=a0+a1*x+a2*x2+a3*x3+a4*x4,而這里需不需要考慮這四個自變量之間的共線性呢,上面說過,多重共線性指的是變量之間的線性關(guān)系,而這里的四個自變量他們是非線性的關(guān)系(x、x^2、x^3、x^4),即使他們的線性相關(guān)系數(shù)很高(這是由于二次或者三次曲線用直線擬合得到效果也不錯,但是我們知道他們之間的確是非線性的關(guān)系,而不是線性關(guān)系),因此,我們可以他們的多重共線性,在擬合的時候,選擇逐步回歸法,也可以不考慮,選擇直接進入法,兩者得到的結(jié)果幾乎一樣,我親自試驗了。假使得到的結(jié)果的確有四次方的關(guān)系,那么x4自變量就會通過檢驗,我們可以通過檢驗來判斷兩個變量終究存在什么樣的曲線關(guān)系。

這樣還需要簡單說下多元非線性回歸,多元非線性回歸也可以進行轉(zhuǎn)換,但是轉(zhuǎn)換完之后就必需要考慮變量之間的多重共線性了,由于我們不能明確的知道轉(zhuǎn)換之后的自變量是否不存在線性的關(guān)系。上次有個人在百度里提問說,我有十幾個自變量,想做非線性回歸,我們一般不推薦這么多自變量做多元非線性回歸,除非你發(fā)現(xiàn)十幾個自變量都和因變量存在非線性的關(guān)系。由于多元非線性回歸計算十分繁雜,迭代次數(shù)十分巨大,而得到的結(jié)果也不盡如人意。

好了,這些都是根據(jù)我自己的理解和經(jīng)驗來寫的,假使一不防備被統(tǒng)計高手或者老師看到,如發(fā)現(xiàn)說的不對的地方,請一定要在下面指正出來,十分感謝。

第4節(jié)回歸診斷方法檢驗所選模型中的各變量之間共線性(即某些自變量之間有線性關(guān)系)狀況;根據(jù)模型推算出與自變量取各樣本值時對應的因變量的估計值y^,反過來檢驗所測得的Y是否可靠,脹是回歸診斷的2項-

第4節(jié)回歸診斷方法

檢驗所選模型中的各變量之間共線性(即某些自變量之間有線性關(guān)系)狀況;根據(jù)模型推算出與自變量取各樣本值時對應的因變量的估計值y^,反過來檢驗所測得的Y是否可靠,脹是回歸診斷的2項主要任務。

下面就SAS系統(tǒng)的REG過程運行后不同輸出結(jié)果,僅從回歸診斷方面理解和分析說明如下:1.用條件數(shù)和方差分量來進行共線性診斷

各入選變量的共線性診斷借助SAS的MODEL語句的選擇項COLLIN或COLLINOINT來完成。二者都給出信息矩陣的特征根和條件數(shù)(ConditionNumber),還給出各變量的方差在各主成分上的分解(Decomposition),以百分數(shù)的形式給出,每個入選變量上的方差分量之和為1。COLLIN和COLLINOINT的區(qū)別在于后者對模型中截距項作了校正。當截距項無顯著性時,看由COLLIN輸出的結(jié)果;反之,應看由COLLINOINT輸出的結(jié)果。(1)條件數(shù)

先求出信息矩陣杸X'X枈的各特征根,條件指數(shù)(conditionindices)定義為:最大特征根與每個特征根比值的平根,其中最大條件指數(shù)k稱為矩陣杸X'X枈的條件數(shù)。

條件數(shù)大,說明設計矩陣有較強的共線性,使結(jié)果不穩(wěn)定,甚至使離開試驗點的各估計值或預計值毫無意義。

直觀上,條件數(shù)度量了信息矩陣X'X的特征根散布程度,可用來判斷多重共線性是否存在以及多重共線性嚴重程度。在應用經(jīng)驗中,若0<k<10,則認為沒有多重共線性;10≤k≤30,則認為存在中等程度或較強的多重共線性;k>30,則認為存在嚴重的多重共線性。(2)方差分量

強的多重共線性同時還會表現(xiàn)在變量的方差分量上∶對大的條件數(shù)同時有2個以上變量的方差分量超過50%,就意味這些變量間有一定程度的相關(guān)。

2.用方差膨脹因子來進行共線性診斷

(1)容許度(Tolerance,在Model語句中的選擇項為TOL)

對一個入選變量而言,該統(tǒng)計量等于1-R2,這里R2是把該自變量當作因變量對模型中所有其余回歸變量的決定系數(shù),R2大(趨于1),則1-R2=TOL小(趨于0),容許度差,該變量不由其他變量說明的部分相對很小。(2)方差膨脹因子(VIF)

VIF=1/TOL,該統(tǒng)計量有人譯為“方差膨脹因子〞(VarianceInflationFactor),對于不好的試驗設計,VIF的取值可能趨于無限大。VIF達到什么數(shù)值就可認為自變量間存在共線性?尚

無正規(guī)的臨界值。[陳希孺、王松桂,1987]根據(jù)經(jīng)驗得出∶VIF>5或10時,就有嚴重的多重共線性存在。

3.用學生化殘差對觀測點中的強影響點進行診斷

對因變量的預計值影響特別大,甚至簡單導致相反結(jié)論的觀測點,被稱為強影響點(In-fluenceCase)或稱為異常點(Outlier)。有若干個統(tǒng)計量(如∶Cook'D統(tǒng)計量、hi統(tǒng)計量、

STUDENT統(tǒng)計量、RSTUDENT統(tǒng)計量等,這些統(tǒng)計量的定義參見本章第6節(jié))可用于診斷哪些點對因變量的預計值影響大,其中最便于判斷的是學生化殘差STUDENT統(tǒng)計量。當該統(tǒng)計量的值大于2時,所對應的觀測點可能是異常點,此時,需認真核對原始數(shù)據(jù)。若屬抄寫或輸入數(shù)據(jù)時人為造成的錯誤,應當予以改正;若屬非過失誤差所致,可將異常點剔除后再作回歸分析。假使有可能,最好在此點上補做試驗,以便進一步確認可疑的“異常點〞是否確屬異常點。

第5節(jié)用各種篩選變量方法編程的技巧

從本章第3節(jié)可知,有多種篩選變量的方法,這些方法中畢竟哪一種最好?沒有確定的答復。最為可行的做法是對同一批資料多用幾種篩選變量的方法,并結(jié)合專業(yè)知識從中選出相對優(yōu)化的回歸模型。

判斷一個回歸模型是否較優(yōu),可從以下兩個方面考慮∶其一,整個回歸模型及模型中各回歸參數(shù)在統(tǒng)計學上有顯著性意義、在專業(yè)上(特別是因變量的預計值及回歸方程的精度)有實際意義;其二,在包含一致或相近信息的前提下,回歸方程中所包含的變量越少越好。下面利用一個小樣本資料,通過一個較繁雜的SAS程序,展示如何用各種篩選變量的方法實現(xiàn)回歸分析、如何用已求得的回歸方程對資料作進一步的分析的技巧。

[例4.2.3]α-甲酰門冬酰苯丙氨酸甲酯(FAPM)是合成APM的關(guān)鍵中間體之一。試驗說明,影響FAPM收率的主要因素有∶原料配比(r)、溶劑用量(p1)、催化劑用量(p2)及反應時間(t)等4個因素,現(xiàn)將各因素及其具體水平的取值列在下面。影響FAPM合成收率的因素和水平∶

因素各水平的代碼1234567r原料配比0.800.870.941.011.081.151.22

p1溶劑用量(ml)10152025303540p2催化劑用量(g)1.01.52.02.53.03.54.0t反應時間(h)1234567

研究者按某種試驗設計方法選定的因素各水平的組合及其試驗結(jié)果如下,試用回歸分析方法分析此資料(注∶權(quán)重僅為一致試驗條件下重復試驗運行的次數(shù))。編號rp1p2tY(收率,%)權(quán)重10.80152.0671.5320.87253.5571.2230.94351.5472.8341.01103.0369.7251.08201.0267.5361.15302.5167.3371.22404.0771.83

[SAS程序]──[D4P17.PRG]OPTIONSPS=70;DATAex3;

INPUTrp1p2tyw;rp1=r*p1;rt=r*t;p1t=p1*t;

r2=r*r;t2=t*t;p12=p1*p1;p22=p2*p2;*這里產(chǎn)生的7個新變量代表因素之間的交互作用;CARDS;

0.80152.0671.530.87253.5571.220.94351.5472.831.01103.0369.721.08201.0267.531.15302.5167.331.22404.0771.83;RUN;PROCREG;

*用以下模型語句選擇喝較回歸模型;

MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=FORWARD;*模型1用向前選擇法篩選變量;

MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=BACKWARD;*模型2用向后消去法篩選變量;

MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=STEPWISE;*模型3用逐步篩選法篩選變量;

MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=MAXRSTART=1STOP=5;*模型4用最大R2增量法篩選變量;

MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=MINRSTART=1STOP=5;*模型5用最小R2增量法篩選變量;

MODELy=tt2p12rrp1/SELECTION=RSQUAREBEST=30STOP=5;*模型6用R2增量法篩選變量;

MODELy=tt2p12rrp1/SELECTION=ADJRSQBEST=30STO

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論