回歸分析總結(jié)_第1頁(yè)
回歸分析總結(jié)_第2頁(yè)
回歸分析總結(jié)_第3頁(yè)
回歸分析總結(jié)_第4頁(yè)
回歸分析總結(jié)_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、回歸分析 應(yīng)用最廣泛的一種辦法。但回歸分析要求大樣本,只有通過(guò)大量的數(shù)據(jù)才能得到量化的規(guī)律,這對(duì)很多無(wú)法得到或一時(shí)缺乏數(shù)據(jù)的實(shí)際問(wèn)題的解決帶來(lái)困難?;貧w分析還要求幾樣本有較好的分布規(guī)律,而很多實(shí)際情形并非如此。例如,我國(guó)建國(guó)以來(lái)經(jīng)濟(jì)方面有次大起大落,難以滿足樣本有較規(guī)律的分布要求。因此,有了大量的數(shù)據(jù)也不一定能得到統(tǒng)計(jì)規(guī)律,甚至即使得到了統(tǒng)計(jì)規(guī)律,也并非任何情況都可以分析。另外,回歸分析不能分析因素間動(dòng)態(tài)的關(guān)聯(lián)程度,即使是靜態(tài),其精度也不高,且常常出現(xiàn)反?,F(xiàn)象前面我們講過(guò)曲線擬合問(wèn)題。曲線擬合問(wèn)題的特點(diǎn)是,根據(jù)得到的若干有關(guān)變量的一組數(shù)據(jù),尋找因變量與(一個(gè)或幾個(gè))自變量之間的一個(gè)函數(shù),使這個(gè)

2、函數(shù)對(duì)那組數(shù)據(jù)擬合得最好。通常,函數(shù)的形式可以由經(jīng)驗(yàn)、先驗(yàn)知識(shí)或?qū)?shù)據(jù)的直觀觀察決定,要作的工作是由數(shù)據(jù)用最小二乘法計(jì)算函數(shù)中的待定系數(shù)。從計(jì)算的角度看,問(wèn)題似乎已經(jīng)完全解決了,還有進(jìn)一步研究的必要嗎?從數(shù)理統(tǒng)計(jì)的觀點(diǎn)看,這里涉及的都是隨機(jī)變量,我們根據(jù)一個(gè)樣本計(jì)算出的那些系數(shù),只是它們的一個(gè)(點(diǎn))估計(jì),應(yīng)該對(duì)它們作區(qū)間估計(jì)或假設(shè)檢驗(yàn),如果置信區(qū)間太大,甚至包含了零點(diǎn),那么系數(shù)的估計(jì)值是沒(méi)有多大意義的。另外也可以用方差分析方法對(duì)模型的誤差進(jìn)行分析,對(duì)擬合的優(yōu)劣給出評(píng)價(jià)。簡(jiǎn)單地說(shuō),回歸分析就是對(duì)擬合問(wèn)題作的統(tǒng)計(jì)分析。數(shù)據(jù)的標(biāo)準(zhǔn)化處理數(shù)據(jù)的中心化處理是指平移變換數(shù)據(jù)的無(wú)量綱化處理在實(shí)際問(wèn)題中,不同

3、變量的測(cè)量單位往往是不一樣的。為了消除變量的量綱效應(yīng),使每個(gè)變量都具有同等的表現(xiàn)力,數(shù)據(jù)分析中常用的消量綱的方法,是對(duì)不同的變量進(jìn)行所謂的壓縮處理,即使每個(gè)變量的方差均變成 1標(biāo)準(zhǔn)化處理所謂對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化處理,是指對(duì)數(shù)據(jù)同時(shí)進(jìn)行中心化壓縮處理一元線性回歸假設(shè)對(duì)于的n個(gè)值,得到的n個(gè)相應(yīng)的值,確定的方法是根據(jù)最小二乘準(zhǔn)則,要使取最小值。利用極值必要條件令,求的估計(jì)值,從而得到回歸直線。只不過(guò)這個(gè)過(guò)程可以由軟件通過(guò)直線擬合完成,而無(wú)須進(jìn)行繁雜的運(yùn)算。(1)參數(shù)的區(qū)間估計(jì)由于我們所計(jì)算出的仍然是隨機(jī)變量,因此要對(duì)取值的區(qū)間進(jìn)行估計(jì),如果區(qū)間估計(jì)值是一個(gè)較短的區(qū)間表示模型精度較高。(2)對(duì)誤差方差的估

4、計(jì)設(shè)為回歸函數(shù)的值,為測(cè)量值,殘差平方和剩余方差(3)線性相關(guān)性的檢驗(yàn)由于我們采用的是一元線性回歸,因此,如果模型可用的話,應(yīng)該具有較好的線性關(guān)系。反映模型是否具有良好線性關(guān)系可通過(guò)相關(guān)系數(shù)R的值及F值觀察(后面的例子說(shuō)明)。一個(gè)好的擬合方程,其殘差總和應(yīng)越小越好。殘差越小,擬合值與觀測(cè)值越接近,各觀測(cè)點(diǎn)在擬合直線周圍聚集的緊密程度越高,也就是說(shuō),擬合方程的能力越強(qiáng)。另外,當(dāng)e S 越小時(shí),還說(shuō)明殘差值i e 的變異程度越小。由于殘差的樣本均值為零,所以,其離散范圍越小,擬合的模型就越為精確。例1 測(cè)得16名成年女子身高與腿長(zhǎng)所得數(shù)據(jù)如下: 表8-1 16名女子身高(cm)腿長(zhǎng)(cm)數(shù)據(jù)88

5、 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164 首先利用命令plot(x,y,'r*')畫出散點(diǎn)圖,從圖形可以看出,這些點(diǎn)大致分布在一條直線的左右,因此,可以考慮一元線性回歸??删幹瞥绦蛉缦拢?輸入y(因變量,列向量)、x(1與自變量組成的矩陣,見(jiàn)下例),alpha是顯著性水平(缺省時(shí)默認(rèn)0.05)。輸出,注意:b中元素順序(系數(shù))與擬合命令polyfit的輸出不同,bint是的置信區(qū)間,r是殘差(列向量)

6、,rint是殘差的置信區(qū)間,s包含4個(gè)統(tǒng)計(jì)量:決定系數(shù)(相關(guān)系數(shù)為R);F值;F(1,n-2)分布大于F值的概率p;剩余方差的值(MATLAB7.0以后版本)。也可由程序sum(r.2)/(n-2)計(jì)算。其意義和用法如下:的值越接近1,變量的線性相關(guān)性越強(qiáng),說(shuō)明模型有效;如果滿足,則認(rèn)為變量與顯著地有線性關(guān)系,其中的值可查F分布表,或直接用MATLAB命令finv(1-,1, n-2)計(jì)算得到;如果表示線性模型可用。這三個(gè)值可以相互印證。的值主要用來(lái)比較模型是否有改進(jìn),其值越小說(shuō)明模型精度越高。y=143 145 146 147 149 150 153 154 155 156 157 158

7、159 160 162 164;x=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;plot(x,y,'r*')n=16;X=ones(n,1),x'b,bint,r,rint,s=regress(y',X,0.05);b,bint,s,rcoplot(r,rint)運(yùn)行后得到b = 31.7713 1.2903bint = 12.3196 51.2229 1.0846 1.4960 s = 0.9282 180.9531 0.0000 3.1277=0.9282,由finv(0.95,1,14)= 4.600

8、1,即= 4.6001<F=180.9531,p<0.0001,可以通過(guò)殘差圖發(fā)現(xiàn),第二個(gè)數(shù)據(jù)為奇異數(shù)據(jù),去掉該數(shù)據(jù)后運(yùn)行后得到b = 17.6549 1.4363bint = -0.5986 35.9083 1.2445 1.6281 s = 0.9527 261.6389 0.0000 1.9313=0.9527,由finv(0.95,1,13)= 4.6672,即= 4.6672<F=261.6389,p<0.0001,說(shuō)明模型有效且有改進(jìn),因此我們得到身高與腿長(zhǎng)的關(guān)系。當(dāng)然,也可以利用直線擬合得到同一方程。只不過(guò)不能得到參數(shù)置信區(qū)間和對(duì)模型進(jìn)行檢驗(yàn)。擬合程序如下

9、:多元線性回歸分析1 多元線性回歸模型的建模步驟及其MATLAB實(shí)現(xiàn) 如果根據(jù)經(jīng)驗(yàn)和有關(guān)知識(shí)認(rèn)為與因變量有關(guān)聯(lián)的自變量不止一個(gè),那么就應(yīng)該考慮用最小二乘準(zhǔn)則建立多元線性回歸模型。 設(shè)影響因變量的主要因素(自變量)有m個(gè),記,假設(shè)它們有如下的線性關(guān)系式: , 如果對(duì)變量與自變量 同時(shí)作n次觀察(n>m)得n組觀察值,采用最小二乘估計(jì)求得回歸方程.建立回歸模型是一個(gè)相當(dāng)復(fù)雜的過(guò)程,概括起來(lái)主要有以下幾個(gè)方面工作(1)根據(jù)研究目的收集數(shù)據(jù)和預(yù)分析;(2)根據(jù)散點(diǎn)圖是否具有線性關(guān)系建立基本回歸模型;(3)模型的精細(xì)分析;(4)模型的確認(rèn)與應(yīng)用等。收集數(shù)據(jù)的一個(gè)經(jīng)驗(yàn)準(zhǔn)則是收集的數(shù)據(jù)量(樣本容量)至

10、少應(yīng)為可能的自變量數(shù)目的610倍。在建模過(guò)程中首先要根據(jù)所研究問(wèn)題的目的設(shè)置因變量,然后再選取與該因變量有統(tǒng)計(jì)關(guān)系的一些變量作為自變量。我們當(dāng)然希望選擇與問(wèn)題關(guān)系密切的變量,同時(shí)這些變量之間相關(guān)性不太強(qiáng),這可以在得到初步的模型后利用MATLAB軟件進(jìn)行相關(guān)性檢驗(yàn)。下面通過(guò)一個(gè)案例探討MATLAB軟件在回歸分析建模各個(gè)環(huán)節(jié)中如何應(yīng)用。多元線性回歸的MATLAB實(shí)現(xiàn)仍然用命令regress(y , X),只是要注意矩陣X的形式,將通過(guò)如下例子說(shuō)明其用法。表8-2 從事某種研究的學(xué)者的相關(guān)指標(biāo)數(shù)據(jù)i1234567891011123.55.35.15.84.26.06.85.53.17.24.54.9

11、92018333113253054725116.16.47.46.77.55.96.04.05.88.35.06.433.240.338.746.841.437.539.040.730.152.938.231.8作出因變量Y與各自變量的樣本散點(diǎn)圖作散點(diǎn)圖的目的主要是觀察因變量Y與各自變量間是否有比較好的線性關(guān)系,以便選擇恰當(dāng)?shù)臄?shù)學(xué)模型形式。下圖分別為年薪Y(jié)與成果質(zhì)量指標(biāo)、研究工作時(shí)間、獲得資助的指標(biāo)之間的散點(diǎn)圖,subplot(1,3,1),plot(x1,Y,'g*'),subplot(1,3,2),plot(x2,Y,'k+'),subplot(1,3,3)

12、,plot(x3,Y,'ro'),從圖可以看出這些點(diǎn)大致分布在一條直線旁邊,因此,有比較好的線性關(guān)系,可以采用線性回歸。 Y與x1的散點(diǎn)圖 Y與x2的散點(diǎn)圖 Y與x3的散點(diǎn)圖圖8.1 因變量Y與各自變量的樣本散點(diǎn)圖3. 利用MATLAB統(tǒng)計(jì)工具箱得到初步的回歸方程設(shè)回歸方程為:.建立m-文件輸入如下程序數(shù)據(jù):n=24; m=3;X=ones(n,1),x1',x2',x3'b,bint,r,rint,s=regress(Y',X,0.05);b,bint,r,rint,s,rcoplot(r,rint)運(yùn)行后即得到結(jié)果如表8-3所示。表8-3 對(duì)

13、初步回歸模型的計(jì)算結(jié)果回歸系數(shù)回歸系數(shù)的估計(jì)值回歸系數(shù)的置信區(qū)間18.015713.9052 22.12621.08170.3900 1.77330.32120.2440 0.39841.28350.6691 1.8979=0.9106 F=67.9195 p<0.0001 = 3.0719計(jì)算結(jié)果包括回歸系數(shù)b=()=(18.0157, 1.0817 , 0.3212 , 1.2835),且置信區(qū)間均不包含零點(diǎn),;殘差及其置信區(qū)間;統(tǒng)計(jì)變量stats ,它包含四個(gè)檢驗(yàn)統(tǒng)計(jì)量:相關(guān)系數(shù)的平方,假設(shè)檢驗(yàn)統(tǒng)計(jì)量,與F對(duì)應(yīng)的概率p,的值(7.0以前版本也可由程序sum(r.2)/(n-m-1)

14、計(jì)算)。因此我們得到初步的回歸方程為:由結(jié)果對(duì)模型的判斷:回歸系數(shù)置信區(qū)間不包含零點(diǎn)表示模型較好,殘差在零點(diǎn)附近也表示模型較好,接著就是利用檢驗(yàn)統(tǒng)計(jì)量,p的值判斷該模型是否可用。()相關(guān)系數(shù)的評(píng)價(jià):一般地,相關(guān)系數(shù)絕對(duì)值在0.81范圍內(nèi),可判斷回歸自變量與因變量具有較強(qiáng)的線性相關(guān)性。本例的絕對(duì)值為0.9542,表明線性相關(guān)性較強(qiáng)。()F檢驗(yàn)法:當(dāng),即認(rèn)為因變量與自變量之間顯著地有線性相關(guān)關(guān)系;否則認(rèn)為因變量與自變量之間線性相關(guān)關(guān)系不顯著。本例67.919>= 3.10 (查F分布表或輸入命令finv(0.95,3,20)計(jì)算)。()p值檢驗(yàn):若(為預(yù)定顯著水平),則說(shuō)明因變量與自變量之間

15、顯著地有線性相關(guān)關(guān)系。本例輸出結(jié)果,p<0.0001,顯然滿足P<=0.05。以上三種統(tǒng)計(jì)推斷方法推斷的結(jié)果是一致的,說(shuō)明因變量與自變量之間顯著地有線性相關(guān)關(guān)系,所得線性回歸模型可用。當(dāng)然越小越好,這主要在模型改進(jìn)時(shí)作為參考。模型的精細(xì)分析和改進(jìn)(1) 殘差分析殘差,是各觀測(cè)值與回歸方程所對(duì)應(yīng)得到的擬合值之差,實(shí)際上,它是線性回歸模型中誤差的估計(jì)值。即有零均值和常值方差,利用殘差的這種特性反過(guò)來(lái)考察原模型的合理性就是殘差分析的基本思想。利用MATLAB進(jìn)行殘差分析則是通過(guò)殘差圖或時(shí)序殘差圖。殘差圖是指以殘差為縱坐標(biāo),以其他指定的量為橫坐標(biāo)的散點(diǎn)圖。主要包括:(1)橫坐標(biāo)為觀測(cè)時(shí)間或

16、觀測(cè)值序號(hào);(2)橫坐標(biāo)為某個(gè)自變量的觀測(cè)值;(3)橫坐標(biāo)為因變量的擬合值。通過(guò)觀察殘差圖,可以對(duì)奇異點(diǎn)進(jìn)行分析,還可以對(duì)誤差的等方差性以及對(duì)回歸函數(shù)中是否包含其他自變量、自變量的高次項(xiàng)及交叉項(xiàng)等問(wèn)題給出直觀的檢驗(yàn)。以觀測(cè)值序號(hào)為橫坐標(biāo),殘差為縱坐標(biāo)所得到的散點(diǎn)圖稱為時(shí)序殘差圖,畫出時(shí)序殘差圖的MATLAB語(yǔ)句為rcoplot(r,rint)(圖8.2)??梢郧宄吹綒埐畲蠖挤植荚诹愕母浇?,因此還是比較好的 ,不過(guò)第4、12、19這三個(gè)樣本點(diǎn)的殘差偏離原點(diǎn)較遠(yuǎn),如果作為奇異點(diǎn)看待,去掉后重新擬合,則得回歸模型為:且回歸系數(shù)的置信區(qū)間更小均不包含原點(diǎn),統(tǒng)計(jì)變量stats包含的三個(gè)檢驗(yàn)統(tǒng)計(jì)量:相關(guān)

17、系數(shù)的平方,假設(shè)檢驗(yàn)統(tǒng)計(jì)量,概率,分別為:0.9533 ; 115.5586 ; 0.0000 ,比較可知R,F(xiàn)均增加模型得到改進(jìn)。 圖8.2 時(shí)序殘差圖(2) 變量間的交互作用討論變量間的交互作用包括:不同自變量之間的交互作用以及同一變量的自相關(guān)性。不同自變量之間的交互作用:有時(shí),在實(shí)驗(yàn)中不僅單因素對(duì)指標(biāo)有影響,而且因素間還會(huì)聯(lián)合起來(lái)對(duì)指標(biāo)產(chǎn)生影響,常稱這種聯(lián)合作用為交互作用。處理兩個(gè)因素間交互作用的一個(gè)簡(jiǎn)單辦法是加入這兩個(gè)自變量的乘積項(xiàng)。本文案例如果加入交互項(xiàng)則為:用表8.2的數(shù)據(jù),利用MATLAB統(tǒng)計(jì)工具箱得到回歸系數(shù)分別為:27.0727 ,1.1147,-0.0215 ,-0.184

18、3 ,0.0033 ,-0.0054 ,0.0511 。但它們的置信區(qū)間均包含原點(diǎn),其他指標(biāo)也不理想,因此,本例中其交互作用并不顯著,該模型不如前面兩個(gè)模型好。自相關(guān)性的診斷和處理:若數(shù)據(jù)是以時(shí)間為序的,稱為時(shí)間序列數(shù)據(jù)。在時(shí)間序列數(shù)據(jù)中,同一變量的順序觀測(cè)值之間出現(xiàn)的相關(guān)現(xiàn)象稱為自相關(guān)。一旦數(shù)據(jù)中存在這種自相關(guān)序列,如果仍采用普通的回歸模型直接處理,將產(chǎn)生不良后果,使預(yù)測(cè)失去意義。自相關(guān)的診斷主要有圖示檢驗(yàn)法、相關(guān)系數(shù)法和DW檢驗(yàn)法。圖示檢驗(yàn)法是通過(guò)繪制殘差散點(diǎn)圖觀察,如果散布點(diǎn)大部分點(diǎn)落在第,象限,表明存在著正的序列相關(guān);如果大部分點(diǎn)落在第,象限,表明存在著負(fù)的序列相關(guān)。對(duì)DW檢驗(yàn)法可以利

19、用MATLAB軟件編程計(jì)算統(tǒng)計(jì)量:,然后查閱DW檢驗(yàn)上下界表,以決定模型的自相關(guān)狀態(tài)。當(dāng)一個(gè)回歸模型存在序列相關(guān)性時(shí),首先要查明序列相關(guān)產(chǎn)生的原因。如果是回歸模型選用不當(dāng),則應(yīng)改用適當(dāng)?shù)幕貧w模型;如果是缺少重要的自變量,則應(yīng)增加自變量;如果以上方法都不能消除序列相關(guān)性,則需要采用差分法、迭代法等處理,更詳細(xì)內(nèi)容參見(jiàn)相關(guān)概率統(tǒng)計(jì)參考文獻(xiàn)。8.2.3 逐步回歸方法建模 逐步回歸就是一種從眾多自變量中有效地選擇重要變量的方法。逐步回歸的基本思路是,先確定一個(gè)包含若干自變量的初始集合,然后每次從集合外的變量中引入一個(gè)對(duì)因變量影響最大的,再對(duì)集合中的變量進(jìn)行檢驗(yàn),從變得不顯著的變量中移出一個(gè)影響最小的,

20、依此進(jìn)行,直到不能引入和移出為止。引入和移出都以給定的顯著性水平為標(biāo)準(zhǔn)。MATLAB統(tǒng)計(jì)工具箱中逐步回歸的命令是stepwise,它提供了一個(gè)人機(jī)交互式畫面,通過(guò)此工具可以自由地選擇變量進(jìn)行統(tǒng)計(jì)分析。該命令的用法是:stepwise(X , Y , inmodel , alpha)其中X是自變量數(shù)據(jù),排成矩陣(m為自變量個(gè)數(shù),n為每個(gè)變量的數(shù)據(jù)量),Y是因變量數(shù)據(jù),排成向量,inmodel 是自變量初始集合的指標(biāo),缺省時(shí)為全部自變量,alpha為顯著水平,缺省時(shí)為0.05。運(yùn)行stepwise命令時(shí)產(chǎn)生圖形窗口:Stepwise Plot , Stepwise Table , Stepwise

21、 History.當(dāng)鼠標(biāo)移到圖形某個(gè)區(qū)域時(shí),鼠標(biāo)點(diǎn)擊后產(chǎn)生交互作用。Stepwise Plot窗口中的虛線表示回歸系數(shù)的置信區(qū)間包含零點(diǎn),即該回歸系數(shù)與零無(wú)顯著差異,一般應(yīng)將該變量移去;實(shí)線則表明該回歸系數(shù)與零有顯著差異,應(yīng)保留在模型中(藍(lán)色表示該變量已進(jìn)入模型,紅色表示該變量已移出模型)。引入和移出變量還可參考Stepwise History窗口中剩余標(biāo)準(zhǔn)差RMSE是否在下降,剩余標(biāo)準(zhǔn)差RMSE最小的就是最好的模型。Stepwise Table窗口中列出了一個(gè)統(tǒng)計(jì)表,包括回歸系數(shù)及其置信區(qū)間,以及模型的統(tǒng)計(jì)量剩余標(biāo)準(zhǔn)差RMSE、相關(guān)系數(shù)R-square、F值、與F對(duì)應(yīng)的概率。關(guān)于本節(jié)案例2,

22、如果引入新的自變量 . 也可以采用逐步回歸法解決,源程序如下:A=3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 8.0 6.5 6.5 3.7 6.2 7.0 4.0 4.5 5.9 5.6 4.8 3.9;9 20 18 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 33 27 34 15;6.1 6.4 7.4 6.7 7.5 5.9 6.0 4.0 5.8 8.3 5.0 6.4 7.6 7.0 5.0 4.0 5.5 7.0 6.0 3.5 4.9 4.3 8.0 5.0'Y=

23、33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42.5 33.6 34.2 48.0 38.0 35.9 40.4 36.8 45.2 35.1'x1=A(:,1);x2=A(:,2);x3=A(:,3);x4=x1.*x2;x5=x1.*x3;x6=x2.*x3;X=A,x4,x5,x6;stepwise(X,Y)運(yùn)行并按上述步驟操作后可以得到本文前面線性回歸相同的結(jié)論,即不含交互項(xiàng)的模型是最好的。在此只介紹操作過(guò)程,其交互界面,只要在MATLAB軟件上一試便知8.2.4 多項(xiàng)式回歸多項(xiàng)式回

24、歸仍然屬于多元線性回歸,可以是一元多項(xiàng)式回歸或多元多項(xiàng)式回歸。一元多項(xiàng)式回歸模型的一般形式為用MATLAB求解一元多項(xiàng)式回歸,除了使用命令polyfit(x,y,m)外,還可以使用如下命令: Polytool(x,y,m,alpha)輸入x,y,m同命令polyfit,alpha是顯著性水平(默認(rèn)0.05),則輸出一個(gè)交互式畫面,畫面顯示回歸曲線及其置信區(qū)間,通過(guò)圖左下方的export下拉式菜單,還可以輸出回歸系數(shù)估計(jì)值及其置信區(qū)間、殘差等。下面通過(guò)一個(gè)用多元多項(xiàng)式回歸的實(shí)例說(shuō)明什么時(shí)候用多項(xiàng)式回歸以及如何通過(guò)MATLAB軟件進(jìn)行處理。例3 為了了解人口平均預(yù)期壽命與人均國(guó)內(nèi)生產(chǎn)總值和體質(zhì)得分

25、的關(guān)系,我們查閱了國(guó)家統(tǒng)計(jì)局資料,北京體育大學(xué)出版社出版的2000國(guó)民體質(zhì)監(jiān)測(cè)報(bào)告,表8-4是我國(guó)大陸31個(gè)省市的有關(guān)數(shù)據(jù)。我們希望通過(guò)這幾組數(shù)據(jù)考察它們是否具有良好的相關(guān)關(guān)系,并通過(guò)它們的關(guān)系從人均國(guó)內(nèi)生產(chǎn)總值(可以看作反映生活水平的一個(gè)指標(biāo))、體質(zhì)得分預(yù)測(cè)其壽命可能的變化范圍。體質(zhì)是指人體的質(zhì)量,是遺傳性和獲得性的基礎(chǔ)上表現(xiàn)出來(lái)的人體形態(tài)結(jié)構(gòu),生理機(jī)能和心理因素綜合的、相對(duì)穩(wěn)定的特征。體質(zhì)是人的生命活動(dòng)和工作能力的物質(zhì)基礎(chǔ)。它在形成、發(fā)展和消亡過(guò)程中,具有明顯的個(gè)體差異和階段性。中國(guó)體育科學(xué)學(xué)會(huì)體質(zhì)研究會(huì)研究表明,體質(zhì)應(yīng)包括身體形態(tài)發(fā)育水平、生理功能水平、身體素質(zhì)和運(yùn)動(dòng)能力發(fā)展水平、心理發(fā)

26、育水平和適應(yīng)能力等五個(gè)方面。目前,體質(zhì)的綜合評(píng)價(jià)主要是形態(tài)、機(jī)能和身體素質(zhì)三類指標(biāo)按一定的權(quán)重進(jìn)行換算而得。 表8-4 31個(gè)省市人口預(yù)期壽命與人均國(guó)內(nèi)生產(chǎn)總值和體質(zhì)得分?jǐn)?shù)據(jù)序號(hào)預(yù)期壽命體質(zhì)得分人均產(chǎn)值序號(hào)預(yù)期壽命體質(zhì)得分人均產(chǎn)值序號(hào)預(yù)期壽命體質(zhì)得分人均產(chǎn)值171.5466.165128571265.4956.77587442369.8764.30517717273.9271.25244951368.9566.01114942467.4160.48515205373.2770.135242501473.3467.97204612578.1470.2970622471.2065.12510060

27、1565.9662.953822676.1069.34547319573.9169.99299311672.3766.1190702774.9168.41540643672.5465.765182431770.0764.51109352872.9166.49511781770.6667.29107631872.5568.385220072970.1765.76510658871.8567.7199071971.6566.205135943066.0363.2811587971.0866.525132552071.73,65.77114743164.3762.8497251071.29,67.1

28、390882173.1067.065143351174.7069 .505337722267.4763.6057898模型的建立和求解 作表8-4數(shù)據(jù)的散點(diǎn)圖如圖8.3圖8.3 預(yù)期壽命與人均國(guó)內(nèi)生產(chǎn)總值和體質(zhì)得分的散點(diǎn)圖 從圖8.3可以看出人口預(yù)期壽命與體質(zhì)得分有較好的線性關(guān)系,與人均國(guó)內(nèi)生產(chǎn)總值的關(guān)系難以確定,我們建立二次函數(shù)的回歸模型。一般的多元二項(xiàng)式回歸模型可表為 MATLAB統(tǒng)計(jì)工具箱提供了一個(gè)很方便的多元二項(xiàng)式回歸命令:Rstool(x,y, 'model',alpha)輸入x為自變量(n×m矩陣),y為因變量(n維向量),alpha為顯著水平,model

29、從下列4個(gè)模型中選擇一個(gè):linear(只包含線性項(xiàng))purequadratic(包含線性項(xiàng)和純二次項(xiàng))interaction(包含線性項(xiàng)和純交互項(xiàng))quadratic(包含線性項(xiàng)和完全二次項(xiàng))輸出一個(gè)交互式畫面,對(duì)例3,編程如下:y=71.54 73.92 73.27 71.20 73.91 72.54 70.66 71.85 71.08 71.29,74.70 65.49 68.95 73.34 65.96 72.37 70.07 72.55 71.65 71.73,73.10 67.47 69.87 67.41 78.14 76.10 74.91 72.91 70.17 66.03 64

30、.37;x1=12857 24495 24250 10060 29931 18243 10763 9907 13255 9088 33772 8744 11494 20461 5382 19070 10935 22007 13594 11474 14335 7898 17717 15205 70622 47319 40643 11781 10658 11587 9725;x2=66.165 71.25 70.135 65.125 69.99 65.765 67.29 67.71 66.525 67.13,69.505 56.775 66.01 67.97 62.9 66.1 64.51 68.

31、385 66.205 65.77,67.065 63.605 64.305 60.485 70.29 69.345 68.415 66.495 65.765 63.28 62.84;x=x1',x2'rstool(x,y','purequadratic')得到一個(gè)如圖8.4的交互式畫面 圖8.4 預(yù)期壽命與人均國(guó)內(nèi)生產(chǎn)總值和體質(zhì)得分的一個(gè)交互式畫面左邊一幅圖形是固定時(shí)的曲線及其置信區(qū)間,右邊一幅圖形是固定時(shí)的曲線及其置信區(qū)間。移動(dòng)鼠標(biāo)可改變,的值,同時(shí)圖左邊給出的預(yù)測(cè)值及其置信區(qū)間。如輸入=128757,=66.165,則=70.6948,其置信區(qū)間70

32、.6948±1.1079。圖的左下方有兩個(gè)下拉式菜單,上面的菜單Export用于輸出數(shù)據(jù)(包括:回歸系數(shù)parameters,殘差residuals,剩余標(biāo)準(zhǔn)差RMSE等), 在MATLAB工作空間中得到有關(guān)數(shù)據(jù)。通過(guò)下面的菜單在上述4個(gè)模型中變更選擇,最后確定RMSE值較小的模型。例3則是包含線性項(xiàng)和完全二次項(xiàng)(quadratic)的模型最佳,即剩余標(biāo)準(zhǔn)差為1.2622,因此,所得回歸模型為:利用此模型我們可以根據(jù)國(guó)內(nèi)生產(chǎn)總值及體質(zhì)得分,預(yù)測(cè)壽命8.3 非線性回歸分析8.3.1 非線性最小二乘擬合線性最小二乘擬合與線性回歸中的“線性”并非指與的關(guān)系,而是指是系數(shù)或的線性函數(shù)。擬合如

33、的函數(shù)仍然是最小二乘擬合;如果擬合如的曲線,對(duì)是非線性的,但取對(duì)數(shù)后對(duì)系數(shù)是線性的,屬于可化為線性回歸的類型。下面討論非線性擬合的情形。非線性最小二乘擬合問(wèn)題的提法是:已知模型,其中對(duì)是非線性的,為了估計(jì)參數(shù),收集n個(gè)獨(dú)立觀測(cè)數(shù)據(jù)。記擬合誤差,求使誤差的平方和最小。作為無(wú)約束非線性規(guī)劃的特例,解非線性最小二乘擬合可用MATLAB優(yōu)化工具箱命令lsqnonlin和lsqcurvefit。8.3.2 非線性回歸模型非線性回歸模型記作其中對(duì)回歸系數(shù)是非線性的,。求得回歸系數(shù)的最小二乘估計(jì)。MATLAB統(tǒng)計(jì)工具箱中非線性回歸的命令是:b,R,J=nlinfit(x,y, 'model'

34、,bo)輸入x是自變量數(shù)據(jù)矩陣,每列一個(gè)向量;y是因變量數(shù)據(jù)向量;model是模型的函數(shù)名(M文件),形式為,b為待估系數(shù);b0是回歸系數(shù)的初值。輸出b是的估計(jì)值,R是殘差,J是用于估計(jì)預(yù)測(cè)誤差的Jacobi矩陣。這個(gè)命令是依據(jù)高斯牛頓法求解的。將上面的輸出作為命令Bi=nlparci(b,R,J)的輸入,得到的bi是回歸系數(shù)的置信區(qū)間。用命令nlintool(x,y, 'model',b)可以得到一個(gè)交互式畫面,其內(nèi)容和用法與多項(xiàng)式回歸的Polytool類似。例4 酶促反應(yīng)速度與底物濃度 酶促反應(yīng)動(dòng)力學(xué)簡(jiǎn)稱酶動(dòng)力學(xué),主要研究酶促反應(yīng)速度與底物(即反應(yīng)物)濃度以及其它因素的關(guān)系

35、。在底物濃度很低時(shí)酶促反應(yīng)是一級(jí)反應(yīng);當(dāng)?shù)孜餄舛忍幱谥虚g范圍時(shí),是混合級(jí)反應(yīng);當(dāng)?shù)孜餄舛仍黾訒r(shí),向零級(jí)反應(yīng)過(guò)渡。某生化系學(xué)生為了研究嘌呤霉素在某項(xiàng)酶促反應(yīng)中對(duì)反應(yīng)速度與底物濃度之間關(guān)系的影響,設(shè)計(jì)了兩個(gè)實(shí)驗(yàn),一個(gè)實(shí)驗(yàn)中所使用的酶是經(jīng)過(guò)嘌呤霉素處理的,而另一個(gè)實(shí)驗(yàn)所用的酶是未經(jīng)嘌呤霉素處理的。所得實(shí)驗(yàn)數(shù)據(jù)見(jiàn)表8-5。試根據(jù)問(wèn)題的背景和這些數(shù)據(jù)建立一個(gè)合適的數(shù)學(xué)模型,來(lái)反映這項(xiàng)酶促反應(yīng)的速度與底物濃度以及嘌呤霉素處理與否之間的關(guān)系。表8-5 嘌呤霉素實(shí)驗(yàn)中的反應(yīng)速度與底物濃度數(shù)據(jù)底物濃度(ppm)0.020.060.110.220.561.10反應(yīng)速度未處理67518486981151311241

36、44158160/處理764797107123139159152191201207200分析與假設(shè)記酶促反應(yīng)的速度為,底物濃度為,二者之間的關(guān)系寫作,其中為參數(shù)(可為一向量)。由酶促反應(yīng)的基本性質(zhì)可知,當(dāng)?shù)孜餄舛群艿蜁r(shí)酶促反應(yīng)是一級(jí)反應(yīng),此時(shí)反應(yīng)速度大致與底物濃度成正比;而當(dāng)?shù)孜餄舛群艽?,漸近飽和時(shí),反應(yīng)速度將趨于一個(gè)固定值(即零級(jí)反應(yīng))。下面的兩個(gè)簡(jiǎn)單模型具有這種性質(zhì):Michaelis-Menten 模型指數(shù)增長(zhǎng)模型非線性模型的求解首先作出給出的經(jīng)過(guò)嘌呤霉素處理和未經(jīng)處理的反應(yīng)速度與底物濃度的散點(diǎn)圖,可以看出,上述兩個(gè)模型與實(shí)際數(shù)據(jù)得到的散點(diǎn)圖是大致符合的。我們將主要對(duì)前一模型即Micha

37、elis-Menten模型進(jìn)行詳細(xì)的分析。首先對(duì)經(jīng)過(guò)嘌呤酶素處理的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,在此基礎(chǔ)上,再來(lái)討論是否有更一般的模型來(lái)統(tǒng)一刻畫處理前后的數(shù)據(jù),進(jìn)而揭示其中的聯(lián)系。我們用非線性回歸的方法直接估計(jì)模型的參數(shù),模型的求解可利用MATLAB統(tǒng)計(jì)工具箱中的命令進(jìn)行,使用格式為:beta,R,J=nlinfit(x,y,'model',beta0)其中輸入x為自變量數(shù)據(jù)矩陣,每列一個(gè)變量;y為因變量數(shù)據(jù)向量;model為模型的M文件名,M函數(shù)形式為y=f (beta,x),beta為待估計(jì)參數(shù);beta0為給定的參數(shù)初值。輸出beta為參數(shù)估計(jì)值,R為殘差,J為用于估計(jì)預(yù)測(cè)誤差的Ja

38、cobi矩陣。參數(shù)beta的置信區(qū)間用命令nlparci(beta,R,J)得到。首先建立函數(shù)M文件huaxue.m,非線性模型參數(shù)估計(jì)的源程序如下:x=0.02 0.02 0.06 0.06 0.11 0.11 0.22 0.22 0.56 0.56 1.10 1.10;y=76 47 97 107 123 139 159 152 191 201 207 200;beta0=195.8027 0.04841;beta,R,J=nlinfit(x,y,'huaxue',beta0);betaci=nlparci(beta,R,J);beta,betaciyy=beta(1)*x

39、./(beta(2)+x);plot(x,y,'o',x,yy,'m+'),pausenlintool(x,y,'huaxue',beta)得到的數(shù)值結(jié)果見(jiàn)表8-6。Nlintool用于給出一個(gè)交互式畫面,可以得到因變量y的預(yù)測(cè)值和預(yù)測(cè)區(qū)間,左下方的Export可向工作區(qū)傳送剩余標(biāo)準(zhǔn)差等數(shù)據(jù)。表8-6 模型參數(shù)的估計(jì)結(jié)果參 數(shù)參 數(shù) 估 計(jì) 值置 信 區(qū) 間2126818197.2028 228.1608006410.0457 0.0826從上面的結(jié)果可以知道,對(duì)經(jīng)過(guò)嘌呤霉素處理的實(shí)驗(yàn)數(shù)據(jù),在用Michaelis-Menten模型進(jìn)行回歸分析時(shí),最終反應(yīng)速度為=212.6818,反應(yīng)的半速度點(diǎn)(達(dá)到最終反應(yīng)速度的一半時(shí)的底物濃度x值)恰為=0.06412?;旌戏磻?yīng)模型由酶動(dòng)力學(xué)知識(shí)我們知道,酶促反應(yīng)的濃度依賴于底物濃度,并且可以假定,嘌呤霉素的處理會(huì)影響最終反應(yīng)速度參數(shù),而基本上不影響半速度參數(shù).表8-5的數(shù)據(jù)也印證了這種看法。Michaelis-Menten模型的形式可以分別描述經(jīng)過(guò)嘌呤霉素處理和未處理的反應(yīng)速度與底物濃度

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論