多重共線性和非線性回歸及解決方法_第1頁
多重共線性和非線性回歸及解決方法_第2頁
多重共線性和非線性回歸及解決方法_第3頁
多重共線性和非線性回歸及解決方法_第4頁
多重共線性和非線性回歸及解決方法_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——多重共線性和非線性回歸及解決方法

多重共線性和非線性回歸的問題(1)多重共線性問題

我們都知道在進(jìn)行多元回歸的時(shí)候,特別是進(jìn)行經(jīng)濟(jì)上指標(biāo)回歸的時(shí)候,好多變量存在共同趨勢相關(guān)性,讓我們得不到希望的回歸模型。這里經(jīng)常用到的有三種方法,而不同的方法有不同的目的,我們分別來看看:

第一個(gè),是最熟悉也是最便利的——逐步回歸法。

逐步回歸法是根據(jù)自變量與因變量相關(guān)性的大小,將自變量一個(gè)一個(gè)選入方法中,并且每選入一個(gè)自變量都進(jìn)行一次檢驗(yàn)。最終留在模型里的自變量是對(duì)因變量有最大顯著性的,而剔除的自變量是與因變量無顯著線性相關(guān)性的,以及與其他自變量存在共線性的。用逐步回歸法做的多元回歸分析,尋常自變量不宜太多,一般十幾個(gè)以下,而且你的數(shù)據(jù)量要是變量個(gè)數(shù)3倍以上才可以,不然做出來的回歸模型誤差較大。譬如說你有10個(gè)變量,數(shù)據(jù)只有15組,然后做擬合回歸,得到9個(gè)自變量的系數(shù),雖然可以得到,但是精度不高。這個(gè)方法我們不僅可以找到對(duì)因變量影響顯著的幾個(gè)自變量,還可以得到一個(gè)確切的預(yù)計(jì)模型,進(jìn)行預(yù)計(jì),這個(gè)十分重要的。而往往通過逐步回歸只能得到幾個(gè)自變量進(jìn)入方程中,有時(shí)甚至只有一兩個(gè),令我們十分失望,這是由于自變量好多都存在共線性,被剔除了,這時(shí)可以通過其次個(gè)方法來做回歸。

其次個(gè),通過因子分析(或主成分分析)再進(jìn)行回歸。

這種方法用的也好多,而且可以很好的解決自變量間的多重共線性。首先通過因子分析將幾個(gè)存在共線性的自變量合為一個(gè)因子,再用因子分析得到的幾個(gè)因子和因變量做回歸分析,這里的因子之間沒有顯著的線性相關(guān)性,根本談不上共線性的問題。通過這種方法可以得到哪個(gè)因子對(duì)因變量存在顯著的相關(guān)性,哪個(gè)因子沒有顯著的相關(guān)性,再從因子中的變量對(duì)因子的載荷來看,得知哪個(gè)變量對(duì)因變量的影響大小關(guān)系。而這個(gè)方法只能得到這些信息,第一它不是得到一個(gè)確切的,可以預(yù)計(jì)的回歸模型;其次這種方法不知道有顯著影響的因子中每個(gè)變量是不是都對(duì)因變量有顯著的影響,譬如說因子分析得到三個(gè)因子,用這三個(gè)因子和因變量做回歸分析,得到第一和其次個(gè)因子對(duì)因變量有顯著的影響,而在第一個(gè)因子中有4個(gè)變量組成,其次個(gè)因子有3個(gè)變量組成,這里就不知道這7個(gè)變量是否都對(duì)因變量存在顯著的影響;第三它不能得到每個(gè)變量對(duì)因變量確鑿的影響大小關(guān)系,而我們可以通過逐步回歸法直觀的看到自變量前面的系數(shù)大小,從而判斷自變量對(duì)因變量影響的大小。第三個(gè),嶺回歸。

通過逐步回歸時(shí),我們可能得到幾個(gè)自變量進(jìn)入方程中,但是有時(shí)會(huì)出現(xiàn)自變量影響的方向出現(xiàn)錯(cuò)誤,譬如第一產(chǎn)業(yè)的產(chǎn)值對(duì)國民收入是正效應(yīng),而可能方程中的系數(shù)為負(fù)的,這種確定是由于共線性導(dǎo)致出現(xiàn)了擬合失真的結(jié)果,而這樣的結(jié)果我們只能通過自己的經(jīng)驗(yàn)去判斷。尋常我們在做影響因素判斷的時(shí)候,不僅希望得到各個(gè)因素對(duì)因變量真實(shí)的影響關(guān)系,還希望知道確鑿的影響大小,就是每個(gè)自變量系數(shù)的大小,這個(gè)時(shí)候,我們就可以通過嶺回歸的方法。

嶺回歸是在自變量信息矩陣的主對(duì)角線元素上人為地參與一個(gè)非負(fù)因子k,從而使回歸系數(shù)的估計(jì)稍有偏差、而估計(jì)的穩(wěn)定性卻可能明顯提高的一種回歸分析方法,它是最小二乘法的一種補(bǔ)充,嶺回歸可以修復(fù)病態(tài)矩陣,達(dá)到較好的效果。在SPSS中沒有提供嶺回歸的模塊,可以直接點(diǎn)擊使用,只能通過編程來實(shí)現(xiàn),當(dāng)然在SAS、Matlab中也可以實(shí)現(xiàn)。做嶺回歸的時(shí)候,需要進(jìn)行屢屢調(diào)試,選擇適當(dāng)?shù)膋值,才能得到比較滿意的方程,現(xiàn)在這個(gè)方法應(yīng)用

越來越普遍。在07年的時(shí)候,我的一個(gè)老師還覺得這個(gè)方法是他的看家才干,但是現(xiàn)在好多人都會(huì)這個(gè)方法,而且用的越來越多了,得到的結(jié)果也十分合理。

特別提醒的是:多重共線性說的是變量之間線性關(guān)系,和非線性不要混淆了。多組變量之間兩種極端的關(guān)系是完全多重共線性關(guān)系和完全非線性關(guān)系,即完全是平行直線的關(guān)系和完全無規(guī)則的曲線關(guān)系(是什么形狀,還真不好形容,自己悟去吧^_^)。當(dāng)然解決多重共線性問題的方法還有,譬如差分微分模型,應(yīng)用的很少,我估計(jì)是十分專業(yè)的人才會(huì)用的吧,呵呵,反正我不會(huì)這個(gè)方法。接下來說說非線性回歸。(2)非線性回歸的問題。

非線性回歸,顧名思義自變量和因變量是非線性的關(guān)系,譬如平方、次方等等,但是大多數(shù)的非線性方程都可以轉(zhuǎn)換成線性的方程,譬如我們尋常知道的二次函數(shù):

y=a0+a1*x+a2*x^2,這里就可以轉(zhuǎn)換成線性方程,首先將x^2計(jì)算得到x1,方程就變成

y=a0+a1*x+a2*x1,而這個(gè)方程就是我們一般見到的多元線性回歸,直接進(jìn)行線性擬合就可以了。

這里需要特別提醒的是:我說的可以轉(zhuǎn)換成線性的非線性方程,是一元非線性方程,而不是多元非線性方程。我們知道在SPSS回歸分析中有單獨(dú)一個(gè)模塊叫曲線估計(jì),它里面提供的11個(gè)非線性模型都是可以轉(zhuǎn)換成線性模型的,而且在進(jìn)行系數(shù)擬合的時(shí)候都是通過轉(zhuǎn)換成線性方程進(jìn)行擬合的,這就是為什么同樣是非線性方程,在曲線估計(jì)里面不需要輸入系數(shù)的初始值,而在非線性回歸中卻要輸入。

將非線性方程轉(zhuǎn)換成線性方程再進(jìn)行擬合,不是由于我們不會(huì)做非線性擬合,而改成線性擬合我就會(huì)做了,主要原因不是由于這個(gè)。而是由于同樣的非線性方程擬合比轉(zhuǎn)換成的線性方程擬合誤差更大一些,而且由于迭代次數(shù)的增多,計(jì)算時(shí)間會(huì)更長,由于我們平日計(jì)算的數(shù)據(jù)不是好多,這種感覺不是十明顯顯,但是當(dāng)我們做實(shí)際問題的時(shí)候,特別是規(guī)劃問題中,我們將非線性方程轉(zhuǎn)換成線性方程時(shí),計(jì)算速度會(huì)明顯加快。還有一個(gè)原因是,做非線性回歸的時(shí)候,我們要在擬合之前設(shè)置初始值,而初始值的選擇直接影響后面系數(shù)的確定,你改變初始值,擬合出來的系數(shù)都會(huì)發(fā)生變化,這樣也會(huì)增加非線性回歸產(chǎn)生的誤差,前面說的誤差是計(jì)算上產(chǎn)生的誤差,而這里是人為經(jīng)驗(yàn)上產(chǎn)生的誤差。因此在做非線性回歸時(shí),假使能轉(zhuǎn)換成線性回歸,一定轉(zhuǎn)換成線性的來做。

說到那個(gè)人,他在留言中說,這樣我沒有考慮到轉(zhuǎn)換之后自變量之間的多重共線性,不能這樣做,還聲嘶力竭的喊我誤人子弟。這里我要詳細(xì)說明是怎么回事,要不要考慮這里的多重共線的問題,假使他也能看到更好。一般我們做回歸分析的時(shí)候,尋常第一步看自變量和因變量之間的散點(diǎn)圖,通過散點(diǎn)圖我們大致判斷兩者之間存在怎么的關(guān)系,再來選擇適當(dāng)?shù)哪P?。而尋常我們不知道具體選擇哪個(gè)模型,可以選擇幾個(gè)可能相像的模型比較一下,選擇一個(gè)擬合效果最好的。這里譬如說兩個(gè)變量之間知道是非線性的,但是不知道是二次的、三次的還是四次及以上的關(guān)系(尋常次方數(shù)越低越好),你可以同時(shí)考慮,然后根據(jù)擬合的結(jié)果來判斷。如將方程設(shè)置為:y=a0+a1*x+a2*x^2+a3*x^3+a4*x^4,轉(zhuǎn)換成線性方程就是:

y=a0+a1*x+a2*x2+a3*x3+a4*x4,而這里需不需要考慮這四個(gè)自變量之間的共線性呢,上面說過,多重共線性指的是變量之間的線性關(guān)系,而這里的四個(gè)自變量他們是非線性的關(guān)系(x、x^2、x^3、x^4),即使他們的線性相關(guān)系數(shù)很高(這是由于二次或者三次曲線用直線擬合得到效果也不錯(cuò),但是我們知道他們之間的確是非線性的關(guān)系,而不是線性關(guān)系),因此,我們可以他們的多重共線性,在擬合的時(shí)候,選擇逐步回歸法,也可以不考慮,選擇直接進(jìn)入法,兩者得到的結(jié)果幾乎一樣,我親自試驗(yàn)了。假使得到的結(jié)果的確有四次方的關(guān)系,那么x4自變量就會(huì)通過檢驗(yàn),我們可以通過檢驗(yàn)來判斷兩個(gè)變量終究存在什么樣的曲線關(guān)系。

這樣還需要簡單說下多元非線性回歸,多元非線性回歸也可以進(jìn)行轉(zhuǎn)換,但是轉(zhuǎn)換完之后就必需要考慮變量之間的多重共線性了,由于我們不能明確的知道轉(zhuǎn)換之后的自變量是否不存在線性的關(guān)系。上次有個(gè)人在百度里提問說,我有十幾個(gè)自變量,想做非線性回歸,我們一般不推薦這么多自變量做多元非線性回歸,除非你發(fā)現(xiàn)十幾個(gè)自變量都和因變量存在非線性的關(guān)系。由于多元非線性回歸計(jì)算十分繁雜,迭代次數(shù)十分巨大,而得到的結(jié)果也不盡如人意。

好了,這些都是根據(jù)我自己的理解和經(jīng)驗(yàn)來寫的,假使一不防備被統(tǒng)計(jì)高手或者老師看到,如發(fā)現(xiàn)說的不對(duì)的地方,請一定要在下面指正出來,十分感謝。

第4節(jié)回歸診斷方法檢驗(yàn)所選模型中的各變量之間共線性(即某些自變量之間有線性關(guān)系)狀況;根據(jù)模型推算出與自變量取各樣本值時(shí)對(duì)應(yīng)的因變量的估計(jì)值y^,反過來檢驗(yàn)所測得的Y是否可靠,脹是回歸診斷的2項(xiàng)-

第4節(jié)回歸診斷方法

檢驗(yàn)所選模型中的各變量之間共線性(即某些自變量之間有線性關(guān)系)狀況;根據(jù)模型推算出與自變量取各樣本值時(shí)對(duì)應(yīng)的因變量的估計(jì)值y^,反過來檢驗(yàn)所測得的Y是否可靠,脹是回歸診斷的2項(xiàng)主要任務(wù)。

下面就SAS系統(tǒng)的REG過程運(yùn)行后不同輸出結(jié)果,僅從回歸診斷方面理解和分析說明如下:1.用條件數(shù)和方差分量來進(jìn)行共線性診斷

各入選變量的共線性診斷借助SAS的MODEL語句的選擇項(xiàng)COLLIN或COLLINOINT來完成。二者都給出信息矩陣的特征根和條件數(shù)(ConditionNumber),還給出各變量的方差在各主成分上的分解(Decomposition),以百分?jǐn)?shù)的形式給出,每個(gè)入選變量上的方差分量之和為1。COLLIN和COLLINOINT的區(qū)別在于后者對(duì)模型中截距項(xiàng)作了校正。當(dāng)截距項(xiàng)無顯著性時(shí),看由COLLIN輸出的結(jié)果;反之,應(yīng)看由COLLINOINT輸出的結(jié)果。(1)條件數(shù)

先求出信息矩陣杸X'X枈的各特征根,條件指數(shù)(conditionindices)定義為:最大特征根與每個(gè)特征根比值的平根,其中最大條件指數(shù)k稱為矩陣杸X'X枈的條件數(shù)。

條件數(shù)大,說明設(shè)計(jì)矩陣有較強(qiáng)的共線性,使結(jié)果不穩(wěn)定,甚至使離開試驗(yàn)點(diǎn)的各估計(jì)值或預(yù)計(jì)值毫無意義。

直觀上,條件數(shù)度量了信息矩陣X'X的特征根散布程度,可用來判斷多重共線性是否存在以及多重共線性嚴(yán)重程度。在應(yīng)用經(jīng)驗(yàn)中,若0<k<10,則認(rèn)為沒有多重共線性;10≤k≤30,則認(rèn)為存在中等程度或較強(qiáng)的多重共線性;k>30,則認(rèn)為存在嚴(yán)重的多重共線性。(2)方差分量

強(qiáng)的多重共線性同時(shí)還會(huì)表現(xiàn)在變量的方差分量上∶對(duì)大的條件數(shù)同時(shí)有2個(gè)以上變量的方差分量超過50%,就意味這些變量間有一定程度的相關(guān)。

2.用方差膨脹因子來進(jìn)行共線性診斷

(1)容許度(Tolerance,在Model語句中的選擇項(xiàng)為TOL)

對(duì)一個(gè)入選變量而言,該統(tǒng)計(jì)量等于1-R2,這里R2是把該自變量當(dāng)作因變量對(duì)模型中所有其余回歸變量的決定系數(shù),R2大(趨于1),則1-R2=TOL小(趨于0),容許度差,該變量不由其他變量說明的部分相對(duì)很小。(2)方差膨脹因子(VIF)

VIF=1/TOL,該統(tǒng)計(jì)量有人譯為“方差膨脹因子〞(VarianceInflationFactor),對(duì)于不好的試驗(yàn)設(shè)計(jì),VIF的取值可能趨于無限大。VIF達(dá)到什么數(shù)值就可認(rèn)為自變量間存在共線性?尚

無正規(guī)的臨界值。[陳希孺、王松桂,1987]根據(jù)經(jīng)驗(yàn)得出∶VIF>5或10時(shí),就有嚴(yán)重的多重共線性存在。

3.用學(xué)生化殘差對(duì)觀測點(diǎn)中的強(qiáng)影響點(diǎn)進(jìn)行診斷

對(duì)因變量的預(yù)計(jì)值影響特別大,甚至簡單導(dǎo)致相反結(jié)論的觀測點(diǎn),被稱為強(qiáng)影響點(diǎn)(In-fluenceCase)或稱為異常點(diǎn)(Outlier)。有若干個(gè)統(tǒng)計(jì)量(如∶Cook'D統(tǒng)計(jì)量、hi統(tǒng)計(jì)量、

STUDENT統(tǒng)計(jì)量、RSTUDENT統(tǒng)計(jì)量等,這些統(tǒng)計(jì)量的定義參見本章第6節(jié))可用于診斷哪些點(diǎn)對(duì)因變量的預(yù)計(jì)值影響大,其中最便于判斷的是學(xué)生化殘差STUDENT統(tǒng)計(jì)量。當(dāng)該統(tǒng)計(jì)量的值大于2時(shí),所對(duì)應(yīng)的觀測點(diǎn)可能是異常點(diǎn),此時(shí),需認(rèn)真核對(duì)原始數(shù)據(jù)。若屬抄寫或輸入數(shù)據(jù)時(shí)人為造成的錯(cuò)誤,應(yīng)當(dāng)予以改正;若屬非過失誤差所致,可將異常點(diǎn)剔除后再作回歸分析。假使有可能,最好在此點(diǎn)上補(bǔ)做試驗(yàn),以便進(jìn)一步確認(rèn)可疑的“異常點(diǎn)〞是否確屬異常點(diǎn)。

第5節(jié)用各種篩選變量方法編程的技巧

從本章第3節(jié)可知,有多種篩選變量的方法,這些方法中畢竟哪一種最好?沒有確定的答復(fù)。最為可行的做法是對(duì)同一批資料多用幾種篩選變量的方法,并結(jié)合專業(yè)知識(shí)從中選出相對(duì)優(yōu)化的回歸模型。

判斷一個(gè)回歸模型是否較優(yōu),可從以下兩個(gè)方面考慮∶其一,整個(gè)回歸模型及模型中各回歸參數(shù)在統(tǒng)計(jì)學(xué)上有顯著性意義、在專業(yè)上(特別是因變量的預(yù)計(jì)值及回歸方程的精度)有實(shí)際意義;其二,在包含一致或相近信息的前提下,回歸方程中所包含的變量越少越好。下面利用一個(gè)小樣本資料,通過一個(gè)較繁雜的SAS程序,展示如何用各種篩選變量的方法實(shí)現(xiàn)回歸分析、如何用已求得的回歸方程對(duì)資料作進(jìn)一步的分析的技巧。

[例4.2.3]α-甲酰門冬酰苯丙氨酸甲酯(FAPM)是合成APM的關(guān)鍵中間體之一。試驗(yàn)說明,影響FAPM收率的主要因素有∶原料配比(r)、溶劑用量(p1)、催化劑用量(p2)及反應(yīng)時(shí)間(t)等4個(gè)因素,現(xiàn)將各因素及其具體水平的取值列在下面。影響FAPM合成收率的因素和水平∶

因素各水平的代碼1234567r原料配比0.800.870.941.011.081.151.22

p1溶劑用量(ml)10152025303540p2催化劑用量(g)1.01.52.02.53.03.54.0t反應(yīng)時(shí)間(h)1234567

研究者按某種試驗(yàn)設(shè)計(jì)方法選定的因素各水平的組合及其試驗(yàn)結(jié)果如下,試用回歸分析方法分析此資料(注∶權(quán)重僅為一致試驗(yàn)條件下重復(fù)試驗(yàn)運(yùn)行的次數(shù))。編號(hào)rp1p2tY(收率,%)權(quán)重10.80152.0671.5320.87253.5571.2230.94351.5472.8341.01103.0369.7251.08201.0267.5361.15302.5167.3371.22404.0771.83

[SAS程序]──[D4P17.PRG]OPTIONSPS=70;DATAex3;

INPUTrp1p2tyw;rp1=r*p1;rt=r*t;p1t=p1*t;

r2=r*r;t2=t*t;p12=p1*p1;p22=p2*p2;*這里產(chǎn)生的7個(gè)新變量代表因素之間的交互作用;CARDS;

0.80152.0671.530.87253.5571.220.94351.5472.831.01103.0369.721.08201.0267.531.15302.5167.331.22404.0771.83;RUN;PROCREG;

*用以下模型語句選擇喝較回歸模型;

MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=FORWARD;*模型1用向前選擇法篩選變量;

MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=BACKWARD;*模型2用向后消去法篩選變量;

MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=STEPWISE;*模型3用逐步篩選法篩選變量;

MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=MAXRSTART=1STOP=5;*模型4用最大R2增量法篩選變量;

MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=MINRSTART=1STOP=5;*模型5用最小R2增量法篩選變量;

MODELy=tt2p12rrp1/SELECTION=RSQUAREBEST=30STOP=5;*模型6用R2增量法篩選變量;

MODELy=tt2p12rrp1/SELECTION=ADJRSQBEST=30STO

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論