回歸分析初步與計(jì)算機(jī)模_第1頁
回歸分析初步與計(jì)算機(jī)模_第2頁
回歸分析初步與計(jì)算機(jī)模_第3頁
回歸分析初步與計(jì)算機(jī)模_第4頁
回歸分析初步與計(jì)算機(jī)模_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

回歸分析初步與計(jì)算機(jī)模第1頁/共33頁回歸分析的基本思想和方法在客觀世界中普遍存在著變量之間的關(guān)系,變量之間的關(guān)系一般來說可分為確定性的與非確定性的兩種。確定性關(guān)系是指變量之間可以用確定的函數(shù)關(guān)系來表達(dá)(插值或擬合)。非確定性關(guān)系,例如人的身高和體重的關(guān)系、人的血壓和年齡的關(guān)系、某產(chǎn)品的廣告投入與銷售額間的關(guān)系等,它們之間是有關(guān)聯(lián)的,但又不能用普通函數(shù)來表示,我們稱這類非確定性關(guān)系為相關(guān)關(guān)系。具有相關(guān)關(guān)系的變量在很多時(shí)候涉及到隨機(jī)變量,雖然不具有確定的函數(shù)關(guān)系,但是可以借助函數(shù)關(guān)系來近似表示它們之間的統(tǒng)計(jì)規(guī)律,這種近似地表示它們之間的相關(guān)關(guān)系的函數(shù)被稱為回歸函數(shù),對(duì)應(yīng)的數(shù)學(xué)方法稱為回歸分析。第2頁/共33頁回歸分析的基本思想和方法回歸分析是數(shù)學(xué)建模的有力工具,那么我們要建立回歸函數(shù)的數(shù)學(xué)模型,一般需要以下步驟:1、采集一組包含自變量和因變量的數(shù)據(jù);2、選定自變量與因變量之間的模型,利用數(shù)據(jù)按照最小二乘準(zhǔn)則計(jì)算模型中的系數(shù);3、利用統(tǒng)計(jì)分析方法對(duì)不同的模型進(jìn)行比較,找出與數(shù)據(jù)擬合得最好的模型;4、判斷得到的模型是否適合于這組數(shù)據(jù),診斷有無不適合回歸模型的異常數(shù)據(jù);5、利用模型對(duì)因變量做出預(yù)測(cè)或解釋。

附注:在第2步中,選定自變量與因變量的模型時(shí),一般是憑經(jīng)驗(yàn)選取模型?;貧w分析主要包括一元線性回歸,多元線性回歸以及非線性回歸第3頁/共33頁一元線性回歸(linearregression)基于最小二乘的一元線性回歸函數(shù)regress:UnaryLinearRegressionAnalysis:b=regress(y,X)[b,bint,r,rint,stats]=regress(y,X,alpha)范例

為實(shí)時(shí)地調(diào)整切削機(jī)床,需測(cè)定刀具的磨損程度,每隔一小時(shí)測(cè)量刀具的厚度得到以下的數(shù)據(jù),試建立刀具厚度關(guān)于切削時(shí)間的回歸模型,對(duì)模型和系數(shù)進(jìn)行檢驗(yàn),預(yù)測(cè)15小時(shí)后刀具的厚度:時(shí)間(h)012345678910厚度(cm)30.629.128.428.128.027.727.527.227.026.826.5第4頁/共33頁一元線性回歸(linearregression)1、對(duì)原始數(shù)據(jù)進(jìn)行觀察,確定回歸模型:x=0:1:10;y=[30.6,29.1,28.4,28.1,28.0,27.7,27.5,27.2,27.0,26.8,26.5];plot(x,y,'rs','linewidth',2);從原始數(shù)據(jù)上看,可以建立一元線性回歸模型:第5頁/共33頁一元線性回歸(linearregression)2、線性回歸函數(shù)regress相關(guān)參數(shù)的統(tǒng)計(jì)學(xué)意義:其中,alpha表示顯著性水平,缺省時(shí)為0.05;b為回歸系數(shù)估計(jì)值,bint為回歸系數(shù)的置信區(qū)間;r是殘差,rint是殘差的置信區(qū)間;stats是用于檢驗(yàn)回歸模型的統(tǒng)計(jì)量。統(tǒng)計(jì)量stats有三個(gè)數(shù)值:一是相關(guān)系數(shù)

R的平方(用于相關(guān)系數(shù)評(píng)價(jià),R的絕對(duì)值間于0.8~1,越靠近1表明回歸顯著)

;二是統(tǒng)計(jì)量F(用于F檢驗(yàn)法,F(xiàn)的值大于F1-a(v1,v2)表明回歸顯著);三是與F對(duì)應(yīng)的概率P(P≤alpha表明回歸顯著,一般0.01<P≤0.05被認(rèn)為是具有統(tǒng)計(jì)學(xué)意義,而0.001≤P≤0.01被認(rèn)為具有高度統(tǒng)計(jì)學(xué)意義)第6頁/共33頁一元線性回歸(linearregression)3、計(jì)算回歸模型各項(xiàng)系數(shù)并繪制時(shí)序殘差圖:x=0:1:10;y=[30.6,29.1,28.4,28.1,28.0,27.7,27.5,27.2,27.0,26.8,26.5];alpha=0.05;x=[ones(length(x),1),x'];y=y';[b,bint,r,rint,stats]=regress(y,x,alpha);%線性回歸disp(['回歸系數(shù)b估計(jì)值:',num2str(b')]);disp(['相關(guān)系數(shù)R絕對(duì)值:',num2str(sqrt(stats(1)))]);%此值至少間于0.8~1,越接近1越顯著disp(['假設(shè)檢驗(yàn)統(tǒng)計(jì)量F:',num2str(stats(2))]);%此值大于F分布查表值finv(0.95,1,9),越大于越顯著disp(['統(tǒng)計(jì)量F對(duì)應(yīng)概率P:',num2str(stats(3))]);%此值小于alpha(默認(rèn)0.05),越小于越顯著rcoplot(r,rint)%畫出殘差及其置信區(qū)間(時(shí)序殘差圖)fprintf('回歸函數(shù)為y=%.4f+%.4f*x\n',b(1),b(2));第7頁/共33頁一元線性回歸(linearregression)4、診斷并剔除不適合回歸模型的異常數(shù)據(jù):%為了方便多次回歸,此處daoju.m已作適當(dāng)改寫

觀察殘差分布,發(fā)現(xiàn)第一個(gè)數(shù)據(jù)(0,30.6)殘差的置信區(qū)間不包括零點(diǎn),應(yīng)視為異常點(diǎn),將其剔除后,用剩余的數(shù)據(jù)點(diǎn)重新進(jìn)行計(jì)算:再次計(jì)算,發(fā)現(xiàn)原始數(shù)據(jù)中的第二個(gè)數(shù)據(jù)(1,29.1)殘差的置信區(qū)間也不包括零點(diǎn),仍將該點(diǎn)視為異常點(diǎn),將其剔除,重新計(jì)算:第8頁/共33頁一元線性回歸(linearregression)5、綜合三種評(píng)價(jià)指數(shù)一時(shí)序殘差圖選定最佳回歸:最后一次回歸的數(shù)據(jù)殘差的置信區(qū)間全部包括零點(diǎn),無異常點(diǎn)。對(duì)比分析:對(duì)比兩次剔除異常點(diǎn)前后的變化,發(fā)現(xiàn)置信區(qū)間明顯縮小,相關(guān)系數(shù)F平方和明顯變大,表明異常點(diǎn)的剔除有利于更好的建立模型。第9頁/共33頁一元線性回歸(linearregression)6、殘差向量正態(tài)性的圖形檢驗(yàn):目的是為了檢驗(yàn)誤差的正態(tài)性假設(shè)是否合理,常用的圖形檢驗(yàn)方法與三種:normplotqqplothistqqplot分位圖hist頻度統(tǒng)計(jì)圖第10頁/共33頁一元線性回歸(linearregression)7、利用回歸模型對(duì)因變量做出預(yù)測(cè)或解釋:代入最后一次回歸系數(shù)估計(jì)值:28.8667-0.233333對(duì)比采樣點(diǎn)和回歸模型,并預(yù)測(cè)15小時(shí)后刀具的厚度:xdata=0:1:10;ydata=[30.6,29.1,28.4,28.1,28.0,27.7,27.5,27.2,27.0,26.8,26.5];plot(xdata,ydata,'rs','linewidth',2);holdon;x=0:0.01:16;y=b(1)+b(2)*x;plot(x,y,'b-','linewidth',2);y=b(1)+b(2)*15%ans=25.3667即該切削機(jī)床15小時(shí)后的刀具厚度預(yù)測(cè)值為25.3667

cm第11頁/共33頁多元線性回歸(linearregression)基于最小二乘的多元線性回歸函數(shù)regress:MultipleLinearRegressionAnalysis:b=regress(y,X)[b,bint,r,rint,stats]=regress(y,X,alpha)范例

現(xiàn)有23位病人對(duì)醫(yī)院的服務(wù)工作進(jìn)行綜合打分(百分制),同時(shí)也調(diào)查病人的簡單情況,項(xiàng)目包括,病人對(duì)醫(yī)院服務(wù)工作的滿意程度Y,病人的年齡X1,病情嚴(yán)重程度X2,病人憂慮程度X3,具體調(diào)查表格如下(參見p89-90,此處略)第12頁/共33頁多元線性回歸(linearregression)1、對(duì)原始數(shù)據(jù)進(jìn)行觀察,確定回歸模型:loadhospital.mat%載入數(shù)據(jù)源subplot(1,3,1);plot(x(1,:),y,'rs','linewidth',2);title('年齡vs評(píng)分');subplot(1,3,2);plot(x(2,:),y,'gs','linewidth',2);title('病情vs評(píng)分');subplot(1,3,3);plot(x(3,:),y,'bs','linewidth',2);title('憂慮vs評(píng)分');由散點(diǎn)圖分析知:自變量年齡、病情、憂慮與因變量評(píng)分呈顯著線性關(guān)系,所以可以建立多元線性回歸模型第13頁/共33頁多元線性回歸(linearregression)2、利用數(shù)據(jù)按照最小二乘準(zhǔn)則計(jì)算模型中的系數(shù):loadhospital.mat%載入數(shù)據(jù)源alpha=0.05;x=[ones(length(x),1),x'];y=y';[b,bint,r,rint,stats]=regress(y,x,alpha);disp(['回歸系數(shù)b估計(jì)值:',

num2str(b')]);disp(['相關(guān)系數(shù)R絕對(duì)值:',num2str(sqrt(stats(1)))]);disp(['假設(shè)檢驗(yàn)統(tǒng)計(jì)量F:',num2str(stats(2))]);%ffenbu(0.95,3,19)disp(['統(tǒng)計(jì)量F對(duì)應(yīng)概率P:',num2str(stats(3))]);rcoplot(r,rint)%畫出殘差及其置信區(qū)間(時(shí)序殘差圖)fprintf('回歸函數(shù)為y=%.4f+%.4f*x1+%.4f*x2+%.4f*x3',b(1),b(2),b(3),b(4));第14頁/共33頁多元線性回歸(linearregression)3、找出與數(shù)據(jù)擬合得最好的模型:經(jīng)過對(duì)stats統(tǒng)計(jì)量和時(shí)序殘差圖的綜合分析,回歸顯著,回歸函數(shù)具有統(tǒng)計(jì)學(xué)意義第15頁/共33頁多元線性回歸(linearregression)4、利用模型對(duì)因變量做出預(yù)測(cè)或解釋:代入最后回歸系數(shù)估計(jì)值:162.88-1.2103-0.66591-8.613如果有一個(gè)新病人,其特征是年齡53,病情嚴(yán)重程度60,憂慮程度2.5,試預(yù)測(cè)該病人對(duì)醫(yī)院服務(wù)工作的評(píng)分:x=[1,53,60,2.5];y=x*b>>y=37.2421即該病人對(duì)醫(yī)院服務(wù)工作的評(píng)分預(yù)測(cè)值為37.2421第16頁/共33頁多元線性回歸(linearregression)5、利用rstool二次響應(yīng)曲面交互工具分析預(yù)測(cè)區(qū)間:StatisticsToolbox/rstoolInteractivefittingandvisualizationofaresponsesurfaceloadhospital.mat%載入數(shù)據(jù)源x=x';y=y';rstool(x,y);%37.2421是預(yù)測(cè)值,[14.7613,59.7229]是預(yù)測(cè)區(qū)間第17頁/共33頁非線性回歸(nonlinearregression)前面假定因變量和自變量之間的相關(guān)關(guān)系可以用線性方程來近似地反映,但是,在現(xiàn)實(shí)生活中,非線性關(guān)系是大量存在的,在許多場(chǎng)合,非線性的回歸函數(shù)比線性回歸函數(shù)更能夠正確地反映客觀現(xiàn)象之間的相互聯(lián)系。非線性回歸模型是回歸函數(shù)關(guān)于未知參數(shù)具有非線性結(jié)構(gòu)的回歸模型,模型的擬合一般很困難。處理非線性回歸的通行方法是,通過變量變換,將非線性回歸轉(zhuǎn)化為線性回歸,然后用線性回歸方法處理。第18頁/共33頁非線性回歸(nonlinearregression)非線性回歸通常需要猜測(cè)未知的初始值,然后反復(fù)迭代,每次迭代都會(huì)修正當(dāng)前的估計(jì)值,直至算法收斂為止。但是,如果設(shè)定的參數(shù)初始值不當(dāng)則計(jì)算難以收斂,無法求得正確結(jié)果(或陷入局部最優(yōu)),在實(shí)際應(yīng)用當(dāng)中,對(duì)大多數(shù)用戶來說,給出(猜出)恰當(dāng)?shù)某跏贾凳羌喈?dāng)困難的事。第19頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):1、雙曲曲線y=1/(a+b/x)symsabx;y=1/(a+b/x);f=subs(y,[a,b],[3,4]);ezplot(f);grid;第20頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):2、冪函數(shù)曲線symsabx;y=a*x^b;f=subs(y,[a,b],[3,4]);ezplot(f);grid;第21頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):3、指數(shù)曲線symsabx;y=a*exp(b*x);f=subs(y,[a,b],[3,4]);ezplot(f);grid;第22頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):4、倒指數(shù)曲線symsabx;y=a*exp(b/x);f=subs(y,[a,b],[3,4]);ezplot(f);grid;第23頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):5、對(duì)數(shù)曲線symsabx;y=a+b*log(x);f=subs(y,[a,b],[3,4]);ezplot(f);grid;第24頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):6、S型曲線symsabx;y=1/(a+b*exp(-x));f=subs(y,[a,b],[3,4]);ezplot(f);grid;第25頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(更多變量代換參考):第26頁/共33頁非線性回歸(nonlinearregression)基于最小二乘的非線性回歸函數(shù)nlinfit:NonlinearRegression

Analysis:beta=nlinfit(X,y,FUN,beta0)[beta,r,J]=nlinfit(X,y,FUN,beta0)

范例為研究三種化學(xué)物質(zhì):氫、n-戊烷和異戊烷與某物質(zhì)的反應(yīng)速度Y(%)之間的關(guān)系,測(cè)得表7.2所示的數(shù)據(jù),試建立非線性回歸模型,并進(jìn)行統(tǒng)計(jì)分析(參見p103,此處略)第27頁/共33頁非線性回歸(linearregression)方法一利用已知經(jīng)驗(yàn)回歸函數(shù)(非線性)進(jìn)行回歸假設(shè)由實(shí)際問題背景分析可以預(yù)先確定經(jīng)驗(yàn)回歸函數(shù)形式編寫被調(diào)M函數(shù)文件reacfun.m內(nèi)容如下:functionyhat=reacfun(b,x)x1=x(:,1);x2=x(:,2);x3=x(:,3);yhat=(b(1)*x2-x3/b(5))./(1+b(2)*x1+b(3)*x2+b(4)*x3);導(dǎo)入數(shù)據(jù)并利用nlinfit進(jìn)行非線性回歸:loadreaction.mat%此數(shù)據(jù)Matlab已自帶,只需導(dǎo)入x=reactants;y=rate;b=[1,0.05,0.02,0.1,2];%預(yù)備初值b=nlinfit(x,y,'reacfun',b)結(jié)論:nlinfit對(duì)初值的選取有嚴(yán)重依賴,很難給出恰當(dāng)初值第28頁/共33頁非線性回歸(linearregression)方法一利用已知經(jīng)驗(yàn)回歸函數(shù)(非線性)進(jìn)行回歸下面給出非線性回歸模型代入系數(shù),定義內(nèi)斂函數(shù)的方法:forn=1:5,eval(['symsb',num2str(n)]);end%定義符號(hào)變量forn=1:3,eval(['symsx',num2str(n)]);end%定義符號(hào)變量y=(b1*x2-x3/b5)/(1+b2*x1+b3*x2+b4*x3);%符號(hào)表達(dá)式f=inline(subs(y,[b1,b2,b3,b4,b5],b));%代入系數(shù)并定義函數(shù)%在定義好內(nèi)聯(lián)函數(shù)后,只要按格式f(x1,x2,x3)調(diào)用即可問題:估計(jì)氫取值134、n-戊烷取值347和異戊烷取值32時(shí)的該物質(zhì)的反應(yīng)速度?f(134,345,32)ans=18.4831第29頁/共33頁非線性回歸(linearregression)方法二利用rstool二次響應(yīng)曲面交互工具進(jìn)行回歸rstool工具共有4種模式可供選擇(參見p103,此處略)loadreac

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論