應(yīng)用回歸分析(R語言版)(第2版) 課件 第8、9章 主成分回歸與偏最小二乘、非線性回歸_第1頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第8、9章 主成分回歸與偏最小二乘、非線性回歸_第2頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第8、9章 主成分回歸與偏最小二乘、非線性回歸_第3頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第8、9章 主成分回歸與偏最小二乘、非線性回歸_第4頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第8、9章 主成分回歸與偏最小二乘、非線性回歸_第5頁
已閱讀5頁,還剩104頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第8章主成分回歸與偏最小二乘8.1主成分回歸8.2偏最小二乘8.3本章小結(jié)與評(píng)注2024/4/2318.1主成分回歸2024/4/2328.1.1主成分的基本思想主成分分析(PrincipalComponentsAnalysis,PCA)也稱為主量分析,利用一種降維的思想,在損失信息很少的前提下把多個(gè)指標(biāo)利用正交旋轉(zhuǎn)變換轉(zhuǎn)化為幾個(gè)綜合指標(biāo)。通常把轉(zhuǎn)化成的綜合指標(biāo)稱為主成分,其中每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分之間互不相關(guān)。8.1主成分回歸設(shè)對(duì)某一事物的研究涉及p個(gè)指標(biāo),分別用表示。這p個(gè)指標(biāo)構(gòu)成的p維隨機(jī)向量為設(shè)隨機(jī)向量X的均值為,協(xié)方差矩陣為。對(duì)X進(jìn)行線性變換,可以形成新的綜合變量,用Y表示,即滿足下式:2024/4/2332024/4/2348.1主成分回歸由于可以任意地對(duì)原始變量進(jìn)行上述線性變換,得到的綜合變量Y的統(tǒng)計(jì)特性也不盡相同。因此為了取得較好的效果,我們總是希望的方差盡可能大且各之間互相獨(dú)立,由于而對(duì)于任意常數(shù)c,有因此,對(duì)不加限制時(shí),可使任意增大,問題將變得沒有意義。我們將線性變換約束在下面的原則之下:2024/4/2358.1主成分回歸不相關(guān)的一切滿足原則(1)的線性組合中方差最大者;不相關(guān)的所有線性組合中方差最大者;…;不相關(guān)的的所有線性組合中方差最大者。基于以上三條原則決定的綜合變量分別被稱為原始變量的第一、第二、…、第p個(gè)主成分。其中,各綜合變量在總方差中占的比重依次遞減。在實(shí)際研究工作中,通常只挑前幾個(gè)方差最大的主成分,從而達(dá)到簡(jiǎn)化系統(tǒng)結(jié)構(gòu),抓住問題實(shí)質(zhì)的目的。2024/4/236結(jié)論:設(shè)隨機(jī)向量的協(xié)方差矩陣為為相應(yīng)特征值,為對(duì)應(yīng)的特征向量,則第i個(gè)主成分為:8.1.2主成分的基本性質(zhì)引論:設(shè)矩陣,將A的特征值依大小順序排列,不妨設(shè)為矩陣A各特征值對(duì)應(yīng)的標(biāo)準(zhǔn)正交向量,則對(duì)任意向量x,有:8.1主成分回歸2024/4/237由以上結(jié)論,我們把的協(xié)方差陣的非零特征值對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量分別作為系數(shù)向量,分別稱為隨機(jī)向量X的第一主成分、第二主成分、…、第p個(gè)主成分。性質(zhì)1Y的協(xié)方差陣為對(duì)角陣,其中對(duì)角線上的值為

。此時(shí):8.1主成分回歸2024/4/2388.1主成分回歸性質(zhì)2記稱為第k個(gè)主成分的方差貢獻(xiàn)率,稱為前m個(gè)主成分的累積貢獻(xiàn)率。性質(zhì)3

式中,第k個(gè)主成分與原始變量的相關(guān)系數(shù)稱為因子負(fù)荷量,其絕對(duì)值大小刻畫了該主成分的主要意義及其成因。

性質(zhì)4

2024/4/2398.1主成分回歸性質(zhì)5

與前m個(gè)主成分的全相關(guān)系數(shù)平方和稱為

對(duì)

的方差貢獻(xiàn)率

,(i=1,2,…,p)。這一定義說明前m個(gè)主成分提取了原始變量中的信息,由此可以判斷提取的主成分解釋原始變量的能力。為了避免變量的量綱不同所產(chǎn)生的影響,先將數(shù)據(jù)中心標(biāo)準(zhǔn)化,中心標(biāo)準(zhǔn)化后的自變量樣本觀測(cè)數(shù)據(jù)矩陣是n行p列的矩陣,就是相關(guān)陣。2024/4/2310例8-1下面以例3-3民航客運(yùn)量的數(shù)據(jù)為例介紹主成分回歸方法。首先對(duì)5個(gè)自變量計(jì)算主成分,用R軟件進(jìn)行計(jì)算并輸出相應(yīng)的計(jì)算結(jié)果,見輸出結(jié)果8.1和輸出結(jié)果8.2。8.1主成分回歸2024/4/23118.1主成分回歸輸出結(jié)果8.1中Importanceofcomponents部分第一行是5個(gè)主成分的標(biāo)準(zhǔn)差,即主成分所對(duì)應(yīng)的特征值的算術(shù)平方根

(k=1,2,…,p);第二行是各主成分方差所占的比例,反映了主成分所能解釋數(shù)據(jù)變異的比例,也就是包含原數(shù)據(jù)的信息比例;第三行是累積比例。第一個(gè)主成分Comp.1的方差百分比為78.865%,含有原始5個(gè)變量近80%的信息量;前兩個(gè)主成分累積百分比為98.462%,幾乎包含了5個(gè)變量的全部信息,因此取兩個(gè)主成分已經(jīng)足夠。8.1主成分回歸2024/4/2312另外,Loadings部分輸出的矩陣為各主成分表達(dá)式中的系數(shù),其中空白部分為默認(rèn)的未輸出的<0.1的值,這個(gè)系數(shù)矩陣即是由(k,

i=1,2,…,p)構(gòu)成的矩陣,不妨記為U,其中U的第i列即第i個(gè)特征值對(duì)應(yīng)的特征向量。由于分析是由標(biāo)準(zhǔn)化的數(shù)據(jù)出發(fā)而使用的相關(guān)陣,故

(i=1,2,…,p),U為自變量相關(guān)陣的特征向量所構(gòu)成的矩陣,所以第k個(gè)主成分對(duì)變量的因子負(fù)荷量為(k,i=1,2,…,p)。因此,由矩陣U很容易計(jì)算得到因子載荷陣。8.1主成分回歸2024/4/23132024/4/2314為了做主成分回歸,我們需要計(jì)算主成分的得分

(i=1,2,…,n),其中

為標(biāo)準(zhǔn)化后的第i個(gè)樣本值。由于前兩個(gè)主成分的方差累積貢獻(xiàn)率已經(jīng)達(dá)到98.462%,只需保留前兩個(gè)主成分,此處只輸出前兩個(gè)主成分的得分,見右圖。8.1主成分回歸2024/4/2315現(xiàn)在用y對(duì)前兩個(gè)主成分做普通最小二乘回歸,R代碼如下:在R中運(yùn)行該代碼,得到如下結(jié)果:8.1主成分回歸2024/4/23168.1主成分回歸2024/4/2317由以上輸出結(jié)果可知,標(biāo)準(zhǔn)化后的y(記為

)對(duì)兩個(gè)主成分做普通最小二乘估計(jì),得到主成分的回歸方程為:由于主成分是標(biāo)準(zhǔn)化后自變量的線性組合,如果想要得到關(guān)于標(biāo)準(zhǔn)化后的五個(gè)自變量的回歸方程,只需分別將下面兩個(gè)式子代入上式即可得到此時(shí)回歸方程中每個(gè)回歸系數(shù)的符號(hào)也都能夠合理地解釋。8.1主成分回歸8.2偏最小二乘法當(dāng)時(shí),最小二乘法就可以求出,然而當(dāng)k>n,通常的最小二乘法無法進(jìn)行。2024/4/2318在經(jīng)濟(jì)問題的研究中遇到的回歸問題往往有兩個(gè)特點(diǎn):一是自變量的數(shù)目比較多,常會(huì)碰到有幾十個(gè)自變量,而觀察的時(shí)點(diǎn)并不多的情況。二是回歸方程建立后主要的應(yīng)用是預(yù)測(cè)。用符號(hào)來表示,即對(duì)因變量y和自變量觀測(cè)n組數(shù)據(jù):(8.1)假定它們之間有關(guān)系式(8.2)式中,為誤差項(xiàng)。用觀測(cè)值去估計(jì)式(8.2),得到回歸方程:(8.3)2024/4/23198.2偏最小二乘法從式(8.2)來看,我們并不需要很多自變量,實(shí)際上只要的一個(gè)線性函數(shù)就行了。通常的最小二乘法,就是尋求

的線性函數(shù)中與y的相關(guān)系數(shù)絕對(duì)值達(dá)到最大的一個(gè)。這時(shí)需求

的逆矩陣,其中X是由所有自變量的觀測(cè)值組成的矩陣。當(dāng)k>n時(shí),

是一個(gè)奇異矩陣,無法求逆。主成分回歸(PCR)就不求的逆,而直接求的特征根。因此將y

對(duì)前幾個(gè)主成分做回歸就可以了,這就是PCR的主要想法。PCR雖然解決了k>n這一矛盾,但它選主成分的方法與因變量y無關(guān),只跟自變量有關(guān)。2024/4/23208.2偏最小二乘法偏最小二乘(PartialLeastSquares,PLS)在這一點(diǎn)上與PCR不同,它尋找的線性函數(shù)時(shí),考慮與y的相關(guān)性,選擇與y相關(guān)性較強(qiáng)又能方便算出的的線性函數(shù)。它的算法是最小二乘,但是它只考慮偏向與y有關(guān)的一部分,所以稱為偏最小二乘。具體的選法與最小二乘法有關(guān),所以先回憶一下最小二乘法的公式對(duì)理解PLS很有好處。2024/4/2321考慮一元線性回歸情況。共觀測(cè)了

組數(shù)據(jù),

,當(dāng)這些數(shù)據(jù)的均值為0時(shí),有:式中,為觀測(cè)值向量。PLS就是反復(fù)利用式(8.5)。8.2偏最小二乘法2024/4/2322首先將數(shù)據(jù)中心化,中心化之后得到的相應(yīng)的各自的均值都是0。將對(duì)每個(gè)自變量單獨(dú)做回歸,用式(8.5)可得其中表示資料向量,表示自變量(不是數(shù)據(jù))。8.2偏最小二乘法2024/4/2323令將作為自變量,y作因變量建立回歸方程,由式(8.5)得將式(8.7)右端的量加權(quán)后,用記相應(yīng)的權(quán),就得到它相應(yīng)的n個(gè)數(shù)據(jù)資料是8.2偏最小二乘法2024/4/2324于是得殘差??紤]到殘差中不再含

的信息,因此各個(gè)自變量的作用對(duì)y而言,含的部分已不具新的信息,都應(yīng)刪去。也就是將每個(gè)自變量對(duì)

求回歸,得回歸方程和預(yù)測(cè)值利用上式預(yù)測(cè)y,得預(yù)測(cè)值向量:8.2偏最小二乘法2024/4/2325相應(yīng)的殘差。于是將作為新的原始資料,重復(fù)上述步驟,逐步求得的秩。最后利用y對(duì)用普通最小二乘方法進(jìn)行回歸分析,經(jīng)過變量間的轉(zhuǎn)換,最終可得到y(tǒng)對(duì)的回歸方程,這種求回歸方程的方法就稱為PLS法,即偏最小二乘法。8.2偏最小二乘法2024/4/2326偏最小二乘的算法從上面構(gòu)造

的過程可得如下的算法(X,y資料已中心化,rank(X)=r):8.2偏最小二乘法2024/4/2327上述算法完全體現(xiàn)了PLS的想法。1988年赫蘭(Helland)導(dǎo)出了一個(gè)更為簡(jiǎn)單的算法。引入記號(hào)赫蘭證明了對(duì)a=1,2,…,r

都成立。于是PLS算法可改為:8.2偏最小二乘法2024/4/2328上述算法中都存在一個(gè)問題,就是這個(gè)算法何時(shí)結(jié)束,什么是合適的a,是否一定要算到某個(gè)中的一列全是0為止?一般來說,可以自己規(guī)定一個(gè)你認(rèn)為最切合所研究問題的標(biāo)準(zhǔn)。已有的運(yùn)用PLS的情況中,大都使用交叉驗(yàn)證(cross-validation)法。這個(gè)方法是這樣的:從資料X,y中刪去第l組資料,刪去后的X,y用表示。把作為原始資料,用PLS算出預(yù)測(cè)方程中的表達(dá)式,然后用表示這個(gè)預(yù)測(cè)方程的預(yù)測(cè)值,將代入得到預(yù)測(cè)值

,殘差

就反映了第a步預(yù)測(cè)方程的好壞在第l組資料上的體現(xiàn),于是8.2偏最小二乘法2024/4/2329就在整體上反映了第a步預(yù)測(cè)方程的好壞。把這個(gè)值記為損失L(a),自然應(yīng)該選a使L(a)達(dá)到最小,即應(yīng)該選使正因?yàn)槭褂昧诉@個(gè)交叉驗(yàn)證方法,選出的預(yù)測(cè)方程效果往往比較好。R軟件中建立偏最小二乘回歸方程的函數(shù)plsr()中包含了四種PLS算法,使用時(shí)可以根據(jù)實(shí)際情況選擇不同的算法,其默認(rèn)的算法為Kernel。由于Kernel算法的計(jì)算效率較高,建立偏最小二乘回歸通常會(huì)選擇使用該算法。8.2偏最小二乘法2024/4/2330偏最小二乘的應(yīng)用例8-2對(duì)發(fā)電量需求和工業(yè)產(chǎn)量的關(guān)系進(jìn)行建模,因變量y為發(fā)電量產(chǎn)量(億千瓦時(shí)),自變量

為原煤產(chǎn)量(億噸),

為原油產(chǎn)量(萬噸),

為天然氣產(chǎn)量(億立方米),

為生鐵產(chǎn)量(萬噸),

為紗產(chǎn)量(萬噸),

為硫酸產(chǎn)量(萬噸),

為燒堿(折100%)產(chǎn)量(萬噸),

為純堿產(chǎn)量(萬噸),

為農(nóng)用化肥產(chǎn)量(萬噸),

為水泥產(chǎn)量(萬噸),

為平板玻璃產(chǎn)量(萬重量箱),

為鋼產(chǎn)量(萬噸),

為成品鋼材產(chǎn)量(萬噸)。數(shù)據(jù)見書上表8-1。13x8.2偏最小二乘法2024/4/2331在k≥n的情況下,無法使用普通最小二乘估計(jì)方法建立回歸模型,此時(shí)可以運(yùn)用偏最小二乘方法。R中在使用函數(shù)plsr()建立偏最小二乘回歸方程前,首先需要加載pls包,具體的計(jì)算代碼及運(yùn)行結(jié)果如下。8.2偏最小二乘法2024/4/23328.2偏最小二乘法2024/4/2333上述為使用了所有主成分進(jìn)行回歸所得到的結(jié)果,從回歸結(jié)果中可以看出,主成分個(gè)數(shù)為3個(gè)時(shí),模型在經(jīng)過留一交叉驗(yàn)證法后求得的RMSEP總和較小,且隨著成分個(gè)數(shù)的增加,RMSEP值未出現(xiàn)明顯減少,同時(shí)3個(gè)主成分對(duì)各個(gè)因變量的累積貢獻(xiàn)率均高于99%,因此將回歸的主成分個(gè)數(shù)定為m=3。下面給出主成分為3時(shí)的回歸方程計(jì)算代碼及輸出結(jié)果8.4。8.2偏最小二乘法2024/4/23348.2偏最小二乘法2024/4/2335由以上結(jié)果可知,對(duì)于標(biāo)準(zhǔn)化后的數(shù)據(jù)

對(duì)所有自變量的回歸方程為:將回歸方程中的變量還原為原始變量:8.2偏最小二乘法8.3本章小結(jié)與評(píng)注一、主成分回歸可以用于n小于p的情形可以用于多重共線性情形建模效果有一定改進(jìn)2024/4/2336關(guān)于主成分回歸的質(zhì)疑1、主成分是自變量的線性組合,能保證它與Y有相關(guān)性嗎?萬一主成分與Y

無關(guān)呢?2、1998年AliS.Hadi和RobertF.Ling在TheAmericanStatistician上發(fā)文章(SomeCautionaryNotesontheUseofPrincipalComponentsRegression)給了個(gè)例子,前k-1個(gè)主成分與因變量一點(diǎn)關(guān)系都沒有,而最后一個(gè)主成分解釋了因變量所有的變異。3、甚至有人認(rèn)為沒有必要給人們推薦主成分回歸了,過時(shí)了,但是即使在今天的美國(guó)的統(tǒng)計(jì)課上,講到多重共線性問題的時(shí)候教授們還在推薦PCR。2024/4/23371975年H.wold在經(jīng)濟(jì)學(xué)研究中引入了PLS進(jìn)行路徑分析,創(chuàng)建了非線性迭代PLS算法(NonlinearIterativePartialLeastSquaresalgorithm),1983年H.wold的兒子Swold和Albano提出PLSR的概念,用來解決計(jì)量化學(xué)中n小于p的情況??梢杂糜趎小于p的情形可以用于多重共線性情形建模效果有一定改進(jìn)2024/4/2338二、PLSR8.3本章小結(jié)與評(píng)注解決了與因變量沒關(guān)系的問題。(特征根回歸把因變量Y也考慮進(jìn)來了!)甚至有人總結(jié)出PLSR=MLR+CCR+PCRPLSR的基礎(chǔ)是LS,在盡可能提取包含自變量更多信息的成分的基礎(chǔ)上,保證了提取主成分與因變量最大相關(guān)性。即偏愛與因變量有關(guān)的部分,所以稱為偏最小二乘回歸。8.3本章小結(jié)與評(píng)注2024/4/2339多對(duì)多的回歸建模2024/4/2340考慮p個(gè)因變量與m個(gè)自變量的建模問題。偏最小二乘回歸的基本做法是,首先在自變量集中提出第一成分的線性組合,且盡可能多地提取原自變量中的變異信息);同時(shí)在因變量集中也提取第一成分,并要求相關(guān)程度達(dá)到最大。然后建立因變量的回歸,如果回歸方程已達(dá)到滿意的精度,則算法中止。否則繼續(xù)第二對(duì)成分的提取,直到能達(dá)到滿意的精度為止。若最終對(duì)自變量提取r個(gè)成分,偏最小二乘回歸將通過建立與的回歸式,然后再表示為與原自變量的回歸方程式,即偏最小二乘回歸方程式。各種回歸方法的假設(shè)條件有人認(rèn)為PLSR是回歸建模的“神器”,認(rèn)為“PLSR感覺已經(jīng)把主成分分析和回歸發(fā)揮到極致了”。MichiganUniversity的Fornell稱PLSR為第二代回歸分析方法。任何科學(xué)研究大概都是無窮盡的,統(tǒng)計(jì)學(xué)方法也一定不會(huì)例外,當(dāng)我們肯定和大加贊賞某種東西時(shí)也要留有余地。2024/4/2341第9章非線性回歸2024/4/23429.1可化為線性回歸的曲線回歸9.2多項(xiàng)式回歸9.3非線性模型9.1可化為線性回歸的曲線回歸2024/4/2343(b已知)(9.1)

曲線回歸模型只須令

即可化為y對(duì)

是線性的形式

需要指出的是,新引進(jìn)的自變量只能依賴于原始變量,而不能與未知參數(shù)有關(guān)。2024/4/23449.1可化為線性回歸的曲線回歸令,于是得到y(tǒng)關(guān)于的線性表達(dá)式

(9.2)式本來只有一個(gè)自變量x,是一元p次多項(xiàng)式回歸,在線性化后,變?yōu)閜元線性回歸。線性回歸的“線性”是針對(duì)未知參數(shù)而言的。對(duì)于回歸解釋變量的線性是非本質(zhì)的,因?yàn)榻忉屪兞渴欠蔷€性時(shí),總可以通過變量的替換把它轉(zhuǎn)化成線性的。2024/4/23459.1可化為線性回歸的曲線回歸對(duì)等式兩邊同時(shí)取自然對(duì)數(shù),得:令于是得到關(guān)于x的一元線性回歸模型2024/4/2346不可線性化的曲線回歸模型,如不能通過對(duì)等式兩邊同時(shí)取自然對(duì)數(shù)的方法將回歸模型線性化,只能用非線性最小二乘方法求解。(9.3)式的誤差項(xiàng)稱為乘性誤差項(xiàng)。

(9.4)式的誤差項(xiàng)稱為加性誤差項(xiàng)。一個(gè)非線性回歸模型是否可以線性化,不僅與回歸函數(shù)的形式有關(guān),而且與誤差項(xiàng)的形式有關(guān)。

9.1可化為線性回歸的曲線回歸2024/4/23479.1可化為線性回歸的曲線回歸

在對(duì)非線性回歸模型線性化時(shí),總是假定誤差項(xiàng)的形式就是能夠使回歸模型線性化的形式,為了方便,常常省去誤差項(xiàng),僅寫出回歸函數(shù)的形式。例如把回歸模型(9.3)式簡(jiǎn)寫為。(9.3)式與(9.4)式的回歸參數(shù)的估計(jì)值是有差異的。對(duì)誤差項(xiàng)的形式,首先應(yīng)該由數(shù)據(jù)的經(jīng)濟(jì)意義來確定,然后由回歸擬合效果做檢驗(yàn)。過去,由于沒有非線性回歸軟件,人們總是希望非線性回歸模型可以線性化,因而誤差項(xiàng)的形式就假定為可以把模型線性化的形式。現(xiàn)在利用計(jì)算機(jī)軟件可以容易的解決非線性回歸問題,因而對(duì)誤差項(xiàng)形式應(yīng)該做正確的選擇。2024/4/234810種常見的可線性化的曲線回歸方程9.1可化為線性回歸的曲線回歸2024/4/2349除了上述10種常用的曲線外,還有幾種常用的曲線如下。1.雙曲函數(shù)

或等價(jià)地表示為

9.1可化為線性回歸的曲線回歸2024/4/2350(a>0,b>0)9.1可化為線性回歸的曲線回歸2024/4/23512.S型曲線II

此S型曲線II當(dāng)a>0,b>0時(shí),是x的增函數(shù)。當(dāng)x→+∞時(shí),y→1/a

;x→-∞時(shí),y→0。

y=0與y=1/a是這條曲線的兩條漸進(jìn)線。

S型曲線有多種,其共同特點(diǎn)是曲線首先是緩慢增長(zhǎng),在達(dá)到某點(diǎn)后迅速增長(zhǎng),在超過某點(diǎn)后又變?yōu)榫徛鲩L(zhǎng),并且趨于一個(gè)穩(wěn)定值。

S型曲線在社會(huì)經(jīng)濟(jì)等很多領(lǐng)域都有應(yīng)用,例如某種產(chǎn)品的銷售量與時(shí)間的關(guān)系,樹木、農(nóng)作物的生長(zhǎng)與時(shí)間的關(guān)系等。9.1可化為線性回歸的曲線回歸2024/4/23529.1可化為線性回歸的曲線回歸例9-1

對(duì)國(guó)內(nèi)生產(chǎn)總值(GDP)的擬合。我們選取GDP指標(biāo)為因變量,單位為億元,擬合GDP關(guān)于時(shí)間t的趨勢(shì)曲線。以1990年為基準(zhǔn)年,取值為t=1,2022年t=33,1990—2022年的數(shù)據(jù)如表9-2所示:2024/4/23539.1可化為線性回歸的曲線回歸9.1可化為線性回歸的曲線回歸2024/4/23542024/4/23559.1可化為線性回歸的曲線回歸從散點(diǎn)圖中看到,GDP隨時(shí)間t

的變化趨勢(shì)大致為指數(shù)函數(shù)形式,從經(jīng)濟(jì)學(xué)角度看,當(dāng)GDP的年增長(zhǎng)速度大致相同時(shí),其趨勢(shì)線就是指數(shù)函數(shù)形式。易看出復(fù)合函數(shù),增長(zhǎng)曲線指數(shù)函數(shù)這三個(gè)曲線方程實(shí)際上是等價(jià)的。在本例中,復(fù)合函數(shù)的形式與經(jīng)濟(jì)意義更吻合。2024/4/23569.1可化為線性回歸的曲線回歸以時(shí)間t為自變量,對(duì)數(shù)據(jù)進(jìn)行擬合,我們考慮建立簡(jiǎn)單線性回歸模型和復(fù)合函數(shù)回歸模型,其中復(fù)合函數(shù)是可線性化的,只需要對(duì)式子兩邊同時(shí)取對(duì)數(shù)即可將其化為

關(guān)于t的線性函數(shù)。因此,在建立復(fù)合函數(shù)回歸模型前需要計(jì)算的值,見表9-2。建立簡(jiǎn)單線性回歸模型和復(fù)合函數(shù)回歸模型的計(jì)算代碼如下,其運(yùn)行結(jié)果如輸出結(jié)果9.1和圖9-3所示。2024/4/23579.1可化為線性回歸的曲線回歸9.1可化為線性回歸的曲線回歸2024/4/23589.1可化為線性回歸的曲線回歸2024/4/23599.1可化為線性回歸的曲線回歸2024/4/23602024/4/23619.1可化為線性回歸的曲線回歸由輸出結(jié)果9.1可知,線性回歸的決定系數(shù)

,殘差平方和SSE=4.9902e+11,復(fù)合函數(shù)回歸的決定系數(shù),殘差平方和SSE=0.845是按線性化后的回歸模型計(jì)算的,兩者的殘差不能直接相比。為了與線性回歸的擬合效果直接相比,可以先存儲(chǔ)復(fù)合函數(shù)y的預(yù)測(cè)值

,計(jì)算殘差序列e(見表9-2),然后計(jì)算出復(fù)合函數(shù)回歸的SSE=3.7065e+11,可知復(fù)合函數(shù)擬合效果優(yōu)于線性回歸。另外,從模型擬合圖中,也可直觀得到這一結(jié)論,故在解決此類問題時(shí)應(yīng)采用復(fù)合函數(shù)回歸。9.1可化為線性回歸的曲線回歸根據(jù)輸出結(jié)果9.1中線性化后復(fù)合函數(shù)的回歸系數(shù),可以計(jì)算得到復(fù)合函數(shù)回歸系數(shù)分別為,等比系數(shù),因此回歸方程為式中,表示GDP的平均發(fā)展速度,平均增長(zhǎng)速度為13.7%。這里GDP用的是當(dāng)年現(xiàn)價(jià),包含物價(jià)上漲因素在內(nèi)。本例只是作為計(jì)算非線性回歸的示例。在實(shí)際工作中,如果需要對(duì)GDP做趨勢(shì)擬合或預(yù)測(cè),應(yīng)對(duì)此模型做一些改進(jìn),例如用不變價(jià)格代替現(xiàn)價(jià),對(duì)誤差項(xiàng)的自相關(guān)做相應(yīng)的處理;考慮到GDP的年增長(zhǎng)速度會(huì)有減緩趨勢(shì),可以給回歸函數(shù)增加適當(dāng)?shù)淖枘嵋蜃?,或采用S形曲線擬合等改進(jìn)方法。2024/4/23629.2多項(xiàng)式回歸

2024/4/23639.2.1

幾種常見的多項(xiàng)式回歸模型

一元二次多項(xiàng)式模型

的回歸函數(shù)

是一條拋物線方程,通常稱為二項(xiàng)式回歸函數(shù)?;貧w系數(shù)為線性效應(yīng)系數(shù),為二次效應(yīng)系數(shù)。相應(yīng)地,回歸模型稱為一元三次多項(xiàng)式模型。2024/4/23649.2多項(xiàng)式回歸

稱回歸模型為二元二階多項(xiàng)式回歸模型。它的回歸系數(shù)中分別含有兩個(gè)自變量的線性項(xiàng)系數(shù),二次項(xiàng)系數(shù)

,并含有交叉乘積項(xiàng)系數(shù)

。交叉乘積項(xiàng)表示的交互作用,系數(shù)

通常稱為交互影響系數(shù)。2024/4/23659.2.2

應(yīng)用實(shí)例

例9-2表9-3列出的數(shù)據(jù)是關(guān)于18個(gè)35歲~44歲經(jīng)理的:

前兩年平均年收入x1(千美元)風(fēng)險(xiǎn)反感(意識(shí))度x2

人壽保險(xiǎn)額y(千美元)風(fēng)險(xiǎn)反感度是根據(jù)發(fā)給每個(gè)經(jīng)理的標(biāo)準(zhǔn)調(diào)查表估算得到的,它的數(shù)值越大,風(fēng)險(xiǎn)反感就越厲害。9.2多項(xiàng)式回歸

2024/4/23669.2多項(xiàng)式回歸

研究人員想研究給定年齡組內(nèi)的經(jīng)理年平均收入,風(fēng)險(xiǎn)反感度和人壽保險(xiǎn)額的關(guān)系。研究者預(yù)計(jì),在經(jīng)理的收入和人壽保險(xiǎn)額之間成立著二次關(guān)系,并有把握認(rèn)為風(fēng)險(xiǎn)反感度對(duì)人壽保險(xiǎn)額只有線性效應(yīng),而沒有二次效應(yīng)。但是,研究者對(duì)兩個(gè)自變量是否對(duì)人壽保險(xiǎn)額有交互效應(yīng),心中沒底。因此,研究者擬合了一個(gè)二階多項(xiàng)式回歸模型并打算先檢驗(yàn)是否有交互效應(yīng),然后檢驗(yàn)風(fēng)險(xiǎn)反感的二次效應(yīng)。2024/4/23679.2多項(xiàng)式回歸

2024/4/23689.2多項(xiàng)式回歸

回歸采用逐個(gè)引入自變量的方式,這樣可以清楚地看到各項(xiàng)對(duì)回歸的貢獻(xiàn),使顯著性檢驗(yàn)更加明確。依次引入自變量以查看各變量對(duì)回歸的貢獻(xiàn),計(jì)算代碼如下:2024/4/23699.2多項(xiàng)式回歸

上述計(jì)算程序,首先是建立依次引入各變量后的回歸模型,然后依次輸出各模型的方差分析表,根據(jù)方差分析表中的結(jié)果,我們將運(yùn)行結(jié)果所得的依次引入各變量后的偏平方和以及殘差平方和進(jìn)行整理并計(jì)算偏F值,得到方差分析表見表9-4,其中取顯著性水平為0.05。2024/4/23709.2多項(xiàng)式回歸

全模型的SST=108041,SSE=36,SSE的自由度

。采用式(3.42)的偏F檢驗(yàn),對(duì)交互影響系數(shù)

的顯著性檢驗(yàn)的偏F值=2.00,臨界值

,交互影響系數(shù)不能通過顯著性檢驗(yàn),認(rèn)為,回歸模型中不應(yīng)該包含交互作用項(xiàng)。這個(gè)結(jié)果與人們的經(jīng)驗(yàn)相符,有了此結(jié)果,兩個(gè)自變量的效應(yīng)也就容易解釋了。此時(shí),研究者暫時(shí)決定使用無交互效應(yīng)的模型2024/4/23719.2多項(xiàng)式回歸

但仍想檢驗(yàn)風(fēng)險(xiǎn)反感度的二次效應(yīng)是否存在。這相當(dāng)于檢驗(yàn)二次效應(yīng)系數(shù)

的顯著性,這個(gè)檢驗(yàn)的偏F值等于0.93,臨界值,二次效應(yīng)系數(shù)

不能通過顯著性檢驗(yàn),認(rèn)為

,回歸模型中不應(yīng)該包含二次效應(yīng)項(xiàng)

。此時(shí),研究者決定使用簡(jiǎn)化的回歸模型2024/4/23729.2多項(xiàng)式回歸

進(jìn)一步檢驗(yàn)?zāi)昶骄杖氲亩涡?yīng)是否存在,這相當(dāng)于檢驗(yàn)二次效應(yīng)系數(shù)

的顯著性,這個(gè)檢驗(yàn)的偏F值等于385,臨界值,二次效應(yīng)系數(shù)

通過了顯著性檢驗(yàn),認(rèn)為

,回歸模型中應(yīng)該包含二次效應(yīng)項(xiàng)。得最終的回歸方程為其中,括號(hào)中的數(shù)值是標(biāo)準(zhǔn)化回歸系數(shù)。這樣,研究者可用這個(gè)回歸方程來進(jìn)一步研究經(jīng)理的年平均收入和風(fēng)險(xiǎn)反感度對(duì)人壽保險(xiǎn)額的效應(yīng)。從標(biāo)準(zhǔn)化回歸系數(shù)看到,年平均收入的二次效應(yīng)對(duì)人壽保險(xiǎn)額的影響程度最大。9.3非線性模型

2024/4/23739.3.1

非線性最小二乘非線性回歸模型一般可記為:其中,

是因變量,

非隨機(jī)向量是自變量,是未知參數(shù)向量,是隨機(jī)誤差項(xiàng)并且滿足獨(dú)立同分布假定,即2024/4/23749.3非線性模型

如果,那么式(9.8)就是前面討論的線性模型,而且必然有k=p;對(duì)于一般情況的非線性模型,參數(shù)的數(shù)目與自變量的數(shù)目并沒有一定的對(duì)應(yīng)關(guān)系,不要求k=p。對(duì)非線性回歸模型式(9.8),仍使用最小二乘法估計(jì)參數(shù)

,即求使達(dá)到最小的

,稱

為非線性最小二乘估計(jì)。2024/4/23759.3非線性模型

稱為非線性最小二乘估計(jì)的正規(guī)方程組,也可以直接極小化殘差平方和

,求出未知參數(shù)的非線性最小二乘估計(jì)值。

在假定f函數(shù)對(duì)參數(shù)

連續(xù)可微時(shí),可以利用微分法建立正規(guī)方程組,求使

達(dá)到最小的

。將Q函數(shù)對(duì)參數(shù)

求偏導(dǎo),并令其為0,得p+1個(gè)方程2024/4/23769.3非線性模型

在非線性回歸中,平方和分解式SST=SSR+SSE不再成立。類似于線性回歸中的復(fù)判定系數(shù),定義非線性回歸的相關(guān)比(也稱為相關(guān)指數(shù))為:

對(duì)于非線性最小二乘估計(jì),我們?nèi)匀恍枰鰠?shù)的區(qū)間估計(jì)、顯著性檢驗(yàn)、回歸方程的顯著性檢驗(yàn)等回歸診斷,這需要知道有關(guān)統(tǒng)計(jì)量的分布。在非線性最小二乘中,一些精確分布是很難得到的,在大樣本時(shí),可以得到近似的分布。計(jì)算機(jī)軟件在求出參數(shù)的非線性最小二乘估計(jì)值的同時(shí),還給出近似的回歸診斷結(jié)果。2024/4/23779.3.2

非線性回歸模型的應(yīng)用

例9-3一位藥物學(xué)家使用下面的非線性模型對(duì)藥物反應(yīng)擬合回歸模型:

自變量x是藥劑量,用級(jí)別表示;因變量y是藥物反應(yīng)程度,用百分?jǐn)?shù)表示。

3個(gè)參數(shù)c0、c1、c2都是非負(fù)的,根據(jù)專業(yè)知識(shí),c0的上限是100%,3個(gè)參數(shù)的初始值取為c0=100,c1=5,c2=4.8。測(cè)得9個(gè)反應(yīng)數(shù)據(jù)如表9-5:9.3非線性模型

2024/4/23789.3非線性模型

2024/4/23799.3非線性模型

通過圖9-4可以看出,y與x之間確實(shí)呈非線性關(guān)系,因此需要對(duì)數(shù)據(jù)進(jìn)行非線性回歸分析。R軟件中做非線性回歸的函數(shù)為nls(formula,data,start,…),formula部分為非線性模型的函數(shù)表達(dá)式,start為模型中未知參數(shù)的初始值,對(duì)例9.3中的數(shù)據(jù)進(jìn)行非線性回歸分析的計(jì)算代碼如下,運(yùn)行結(jié)果見輸出結(jié)果9.2。2024/4/23809.3非線性模型

2024/4/23819.3非線性模型

2024/4/23829.3非線性模型

由以上輸出結(jié)果可知,對(duì)參數(shù)的估計(jì)經(jīng)過6步迭代后收斂,而且相關(guān)指數(shù),說明非線性回歸擬合效果很好。同時(shí),上述輸出結(jié)果中對(duì)參數(shù)的顯著性檢驗(yàn)顯示參數(shù)均通過顯著性檢驗(yàn)。但是,在樣本量較小的情況下,不可線性化的非線性回歸的殘差通常不滿足正態(tài)性,進(jìn)而使用t分布進(jìn)行檢驗(yàn)也是無效的,因此顯著性檢驗(yàn)的結(jié)果并不具有重要意義。另外,由上述代碼可以計(jì)算出y的預(yù)測(cè)值、殘差、殘差平方和、回歸平方和、總離差平方和等,將這些計(jì)算結(jié)果列于表中,具體可見表9-6。2024/4/23839.3非線性模型

2024/4/2384

本例回歸離差平方和SSR=15156.55,而總離差平方和SST=14917.89<SSR,可見對(duì)非線性回歸不再滿足平方和分解式,即SST≠SSR+SSE另外,非線性回歸的殘差和不等于零,本例殘差均值為0.285556≠0。當(dāng)然,如果回歸擬合的效果好,殘差的均值會(huì)接近于零的。通過以上分析可以認(rèn)為藥物反應(yīng)程度y與藥劑量x符合以下非線性回歸方程:9.3非線性模型

2024/4/2385例9-4

龔珀茲(Gompertz)模型是計(jì)量經(jīng)濟(jì)中的一個(gè)常用模型,用來擬合社會(huì)經(jīng)濟(jì)現(xiàn)象發(fā)展趨勢(shì),龔珀茲曲線形式為:其中k為變量的增長(zhǎng)上限,和是未知參數(shù)。當(dāng)k未知時(shí),龔珀茲模型不能線性化,可以用非線性最小二乘法求解。表9-7的數(shù)據(jù)是我國(guó)民航國(guó)內(nèi)航線里程數(shù)據(jù),以下用龔珀茲模型擬合這個(gè)數(shù)據(jù)。9.3非線性模型

2024/4/23869.3非線性模型

2024/4/23879.3非線性模型

使用R軟件對(duì)表9-7中的數(shù)據(jù)進(jìn)行擬合,建立非線性模型,其中需要確定未知參數(shù)的初始值。由于初始值要求不是很準(zhǔn)確,所以很多時(shí)候可以憑經(jīng)驗(yàn)給定,對(duì)于本例題,龔珀茲中的參數(shù)k

是變量的發(fā)展上限,應(yīng)該取其初始值略大于最大觀測(cè)值。本題最大觀測(cè)值是115.52,不妨取k

的初始值為120。a和b都是0~1之間的數(shù),可以取其初始值為0.5,非線性回歸的計(jì)算代碼如下。2024/4/23889.3非線性模型

按上述代碼進(jìn)行運(yùn)算會(huì)出現(xiàn)產(chǎn)生無限值不收斂的情況,這是由于回歸迭代過程中的參數(shù)取值超出了范圍,可以通過對(duì)參數(shù)的取值增加一些限制來解決。因此,將參數(shù)k的初始值調(diào)整為130,另外對(duì)其上下限也做出限制,最小值取為116即大于樣本的最大觀測(cè)值115.52,此時(shí)nls函數(shù)中的算法algorithm不能使用默認(rèn)的高斯-牛頓迭代算法,需改為port,重新運(yùn)行以下代碼,得到輸出結(jié)果9.3,并畫出國(guó)內(nèi)航線里程趨勢(shì)預(yù)測(cè)圖,如圖9-5所示。2024/4/23899.3非線性模型

2024/4/23909.3非線性模型

2024/4/2391

用非線性最小二乘法求得的三個(gè)參數(shù)估計(jì)值為k=150.0,a=0.012,b=0.893其中k=150.0為回歸模型估計(jì)的國(guó)內(nèi)航線里程增長(zhǎng)上限。如圖9-5中,圓圈代表觀測(cè)值,光滑曲線為擬合曲線,從圖中可以直觀地看到,龔珀茲曲線能夠較好刻畫數(shù)據(jù)的變化趨勢(shì)。9.3非線性模型

2024/4/2392例9-5

下表9-8是我國(guó)從1950—2013年歷年大陸總?cè)丝跀?shù),試用威布爾(Weibull)曲線擬合數(shù)據(jù)并做預(yù)測(cè)。威布爾曲線如下:其中參數(shù)k是變量發(fā)展的上限,參數(shù)a>0,0<b<1,c>0。9.3非線性模型

2024/4/23939.3非線性模型

2024/4/23949.3非線性模型

根據(jù)人口學(xué)的專業(yè)預(yù)測(cè),我國(guó)人口上限為16億人,因此取k的初值=16,取b的初值=0.5,取c的初值=1。對(duì)以上初值把t=1時(shí)(即1950年)代入,得。用21作為a的初值,做非線性最小二乘,相應(yīng)的計(jì)算代碼如下,其運(yùn)行結(jié)果見輸出結(jié)果9.4。2024/4/23959.3非線性模型

2024/4/23969.3非線性模型

從輸出結(jié)果中看到,人口上限k=14.91億人,這與人口學(xué)預(yù)測(cè)的人口上限有一些差異,這是因?yàn)槿丝跀?shù)會(huì)受到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論