數(shù)學建模簡明教程課件:統(tǒng)計回歸模型_第1頁
數(shù)學建模簡明教程課件:統(tǒng)計回歸模型_第2頁
數(shù)學建模簡明教程課件:統(tǒng)計回歸模型_第3頁
數(shù)學建模簡明教程課件:統(tǒng)計回歸模型_第4頁
數(shù)學建模簡明教程課件:統(tǒng)計回歸模型_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計回歸模型8.1一元線性回歸模型8.2多元線性回歸模型8.3非線性回歸模型回歸分析(RegressionAnalysis)方法是數(shù)理統(tǒng)計中最常見的一類方法.該方法利用大量統(tǒng)計數(shù)據(jù),建立自變量與因變量之間因果關(guān)系的回歸方程數(shù)學模型.這類模型廣泛應用于社會、經(jīng)濟、醫(yī)學等領(lǐng)域的定量分析和估值、預測.

對于自變量x的每一個值,因變量是一個隨機變量y,若x對y的影響是線性的,則可表示為y=β0+β1x+ε,稱為一元線性回歸模型,其中β0,β1為待定回歸系數(shù),ε為隨機誤差,ε~N(0,σ2).

一元線性回歸分析的主要任務是:用試驗值(樣本值)對β0、β1和σ作點估計;對回歸系數(shù)β0、β1作假設(shè)檢驗;在x=x0處對y做出預測,給出y的區(qū)間估計.8.1一元線性回歸模型

1.回歸系數(shù)的最小二乘估計

對于一組觀測值(xi,yi)(i=1,2,…,n),利用最小二乘法可得到回歸系數(shù).

設(shè)

最小二乘法就是選擇β0和β1的估計

、

,使得

則有

直線

為數(shù)據(jù)點(xi,yi)(i=1,2,…,n)的回歸直線(方程),對于給出的x,可由此方程對y進行預測.

2.σ2的無偏估計

一元線性回歸模型中的參數(shù)σ2的無偏估計值為:

由數(shù)據(jù)點xi(i=1,2,…,n)可計算因變量y的理論值

,觀測數(shù)據(jù)yi(i=1,2,…,n)對數(shù)據(jù)均值

的偏差

-可表示為:

式(8.1.1)的第一項是殘差,表示隨機誤差引起的因變量的變化;第二項表示自變量在x=xi時引起的因變量相對于平均值的變化.

對式(8.1.1)兩邊平方并求和,有:

式(8.1.2)記為S=Q+U,稱S為總偏差平方和,Q為殘差平方和,U為回歸平方和.定義

,稱為決定系數(shù),R稱為相關(guān)系數(shù)(0<R2<1).

決定系數(shù)表示在因變量的總變化量中,由自變量引起的那部分變化的比例.R越大,說明自變量對因變量起的決定作用越大,R反映了回歸方程的精確程度.

3.回歸系數(shù)的置信區(qū)間

下面給出回歸系數(shù)β0、β1的區(qū)間估計(在顯著性水平α下).

β1的置信區(qū)間為:

β0的置信區(qū)間為:

4.回歸方程的顯著性檢驗

對回歸方程Y=β0+β1x的顯著性檢驗,歸結(jié)為對假設(shè)H0:β1=0;H1:β1≠0進行檢驗.

假設(shè)H0:β1=0被拒絕,則回歸顯著,認為y與x存在線性關(guān)系,所求的線性回歸方程有意義;否則回歸不顯著,y與x的關(guān)系不能用一元線性回歸模型來描述,所得的回歸方程也無意義.

1)F檢驗法

當H0成立時,

故F>F1-α(1,n-2)時,拒絕H0,否則就接受H0.

2)t檢驗法

當H0成立時,

時,拒絕H0,否則就接受H0.

5.預測

用y0的回歸值

作為y0的預測值,y0的置信水平為1-α的預測區(qū)間為

.其中,

特別地,當n很大且x0在附近取值時,y的置信水平為1-α的預測區(qū)間近似為:

例1

血壓與年齡問題:為了研究血壓隨年齡的增長而升高的關(guān)系,調(diào)查了30個成年人的血壓(收縮壓,單位mmHg)如下表,利用這些數(shù)據(jù)給出血壓與年齡的關(guān)系,并預測不同年齡人群的血壓.

解記血壓(因變量)為y,年齡(自變量)為x,畫出30個數(shù)據(jù)點的散點圖.直觀地,y與x大致呈線性關(guān)系,記為y=β0+β1x.

利用一元線性回歸模型,由MATLAB計算出結(jié)果如下:

血壓隨年齡的變化關(guān)系為y=96.86+0.953x,決定系數(shù)為0.7123,顯示血壓與年齡有較強的線性關(guān)系.

利用上述回歸方程,可預測不同年齡人群的血壓規(guī)律,如表8-1所示.

表8-1由表8-1的預測可知,對于50歲的人來說,我們有95%的把握認為其血壓(收縮壓)在區(qū)間[124.5,163.2].

若與因變量y有關(guān)聯(lián)的自變量不止一個,則可建立多元線性回歸模型.設(shè)影響變量y的主要因素有m個,記為x=(x1,x2,…,xm),則

y=β0+β1x1+β2x2+…+βmxm+ε

(8.2.1)8.2多元線性回歸模型

根據(jù)n個獨立觀測數(shù)據(jù)yi,xi1,…,xim(i=1,2,…,n;n>m),得

則式(8.2.2)可表示為矩陣形式Y(jié)=Xβ+ε,利用最小二乘法準則可確定參數(shù),其參數(shù)β為:

并稱

為回歸平面方程,

為經(jīng)驗回歸系數(shù).多元線性回歸模型討論的主要問題是:用試驗值(樣本值)對未知參數(shù)β和σ2作點估計和假設(shè)檢驗,從而建立y與x1,x2,…,xm之間的數(shù)量關(guān)系;在x1=x01,x2=x02,…,xm=x0m處對y的值作預測與控制,即對y作區(qū)間估計.

1.多元線性回歸中的檢驗

首先假設(shè)H0:β0=β1=…=βn=0.

1)F檢驗

當H0成立時,

其中, (回歸平方和);

(殘差平方和).

如果F>F1-α(k,n-m-1),則拒絕H0,認為y與x1,x2,…,xm之間顯著地有線性關(guān)系;否則就接受H0,認為y與x1,x2,…,xm之間的線性關(guān)系不顯著.

2)R檢驗

定義

為y與x1,x2,…,xm的多元相關(guān)系數(shù)或復相關(guān)系數(shù).由于

故用F和用R檢驗是等效的.

2.多元線性回歸中的預測

1)點預測

求出回歸方程

,對于給定自變量的值

,用

來預測y*=β0+β1x*1+…+βmx*m+ε.稱

為y*的點預測.

2)區(qū)間估計

y的1-α的預測區(qū)間(置信區(qū)間)為

,其中

例1

城市公交客運量的回歸預測問題.

據(jù)相關(guān)分析,城市公共交通年客運量y與城市職工人數(shù)x1、居民零售額x2、職工年收入x3統(tǒng)計相關(guān).現(xiàn)有北京市1968~1980年的統(tǒng)計數(shù)據(jù)如表8-2所示,試對2000年該市的城市公交客運量做出預測.

表8-2續(xù)表解建立多元線性回歸模型,由MATLAB計算回歸方程為

,表明公共交通年客運量y與城市職工人數(shù)x1、居民零售額x2、職工年收入x3具有很高的線性關(guān)聯(lián)性.

根據(jù)有關(guān)規(guī)劃,2000年該城市職工人數(shù)x1=4.5(百萬人),居民零售額x2=15.0(10億元),職工年收入x3=5.7(10億元),則預測北京市公共交通年客運量y=58.067(億次).

在客觀現(xiàn)象中,預報量y與自變量x之間存在的關(guān)系式往往不是線性的.我們可依據(jù)假設(shè)或經(jīng)驗,構(gòu)造特定的函數(shù)如多項式、指數(shù)函數(shù)、三角函數(shù)等描述其關(guān)系,但其參數(shù)的確定和檢驗目前還無統(tǒng)一方法.下面以Y與x具有多項式關(guān)系為例加以說明.8.3非線性回歸模型設(shè)變量x,Y多項式關(guān)系的回歸模型為:

Y=β0+β1x+β2x2+…+βpxp+ε

其中p是已知的,βi(i=1,2,…,p)是未知參數(shù),ε服從正態(tài)分布N(0,σ2).則

Y=β0+β1x+β2x2+…+βkxk

稱為回歸多項式.

若令xi=xi(i=1,2,…,k),則多項式回歸模型可變?yōu)槎嘣€性回歸模型.

例1

藥物療效的評價與預測問題.

現(xiàn)在得到了美國艾滋病醫(yī)療試驗機構(gòu)ACTG公布的兩組數(shù)據(jù).ACTG320(見建模競賽題2006)是同時服用zidovudine(齊多夫定)、lamivudine(拉美夫定)和indinavir(茚地那韋)3種藥物的300多名病人每隔幾周測試的CD4和HIV的濃度(每毫升血液里的數(shù)量).利用給定的數(shù)據(jù),預測繼續(xù)治療的效果,或者確定最佳治療終止時間(繼續(xù)治療指在測試終止后繼續(xù)服藥,如果認為繼續(xù)服藥效果不好,則可選擇提前終止治療).

解數(shù)據(jù)的完善與規(guī)范化:由于病人測試的時間間斷性,不同病人的測試間隔、次數(shù)不同,以及部分數(shù)據(jù)缺失,無法對樣本數(shù)據(jù)進行直接處理,需先對數(shù)據(jù)進行完善與規(guī)范化預處理.

先對個別缺失數(shù)據(jù)嚴重(測試不足30周)的樣本進行刪除,最終得到有效樣本333個.

考慮到病人體內(nèi)HIV和CD4兩個指標變化的連續(xù)性,利用已測周數(shù)據(jù)對未知周數(shù)據(jù)進行線性插值,得到所有病人整數(shù)周的兩個指標數(shù)據(jù).

(1)線性插值方法:

如果在不相鄰的兩周M1和M2內(nèi),測量得到CD4的含量為C1和C2,HIV的含量為H1和H2,則在M1和M2之間插入M2-M1個周的數(shù)據(jù),即在M1+N(0<N<M2-M1)周的CD4含量為:

以23424編號的病員為例,原始數(shù)據(jù)如下:經(jīng)插值后的改進數(shù)據(jù)為:

(2)數(shù)據(jù)處理方法:

對區(qū)間[0,40]整數(shù)節(jié)點的CD4和HIV指標數(shù)據(jù)進行簡單求和平均,得到該療法治療后CD4指標和HIV指標的統(tǒng)計規(guī)律如下:

CD4的含量隨時間(周)的變化曲線如圖8-1所示.

圖8-1中的曲線是對圖中的散點進行一個擬合,得出的病人體內(nèi)CD4的平均含量Y隨周t變化的二次函數(shù)為:

圖8-1

參數(shù)和其置信區(qū)間如下表:根據(jù)以上分析可以得出CD4的平均含量的大致走向是在0~23周以前是較快上升,顯示療效確切;在23~24周左右達到一個峰值,在24~28周之間有個小的波動,之后有個緩慢的上升期,在38周達到一個最大值,但以后卻急劇地下降,藥品產(chǎn)生耐藥性.由此確定:如果以CD4指標為標準,24周為最佳的停藥時間.

類似可處理HIV的指標數(shù)據(jù),得到HIV的含量隨時間(周)的變化曲線如圖8-2所示.

圖8-2圖8-2中的曲線是對圖中的散點進行一個擬合,得出的病人體內(nèi)HIV的平均含量Z隨周t變化的二次函數(shù)為:

Z(t)=4.1442t2-0.1217t+0.0025

參數(shù)和置信區(qū)間如下表:

根據(jù)以上分析可以得出HIV的平均含量的大致走向是在0~10周以前是急劇下降的,顯示療效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論