數(shù)理統(tǒng)計結(jié)課論文_第1頁
數(shù)理統(tǒng)計結(jié)課論文_第2頁
數(shù)理統(tǒng)計結(jié)課論文_第3頁
數(shù)理統(tǒng)計結(jié)課論文_第4頁
數(shù)理統(tǒng)計結(jié)課論文_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)理統(tǒng)計結(jié)課論文-27-20114073143數(shù)理統(tǒng)計中回歸分析的探究與應(yīng)用黑龍江八一農(nóng)墾大學(xué)20114073143數(shù)理統(tǒng)計中回歸分析的探究與應(yīng)用

回歸分析問題探究摘要 本文主要針對數(shù)理統(tǒng)計中的回歸分析問題,通過對一元線性回歸、多元線性回歸以及非線性回歸原理的探究,分別運用了SPSS和MATLAB軟件進行實例分析以及進一步的學(xué)習(xí)。 首先,通過變量之間關(guān)系的概念詮釋引出回歸函數(shù)Y=fx+ε;其次,針對回歸函數(shù),分別對一元線性回歸原理上的學(xué)習(xí),了解并會運用這三種線性回歸模型、參數(shù)估計和回歸系數(shù)的顯著性檢驗來處理和解決實際的一元線性回歸問題;接著,對多元線性回歸和非線性回歸進行學(xué)習(xí),掌握它們與一元線性回歸在理論和實踐的聯(lián)系與區(qū)別;然后,通過實際問題運用SPSS進行簡單的分析,熟悉SPSS軟件的使用步驟和分析方法,能夠運用SPSS進行簡單的數(shù)理分析關(guān)鍵詞:回歸分析;一元線性回歸;多元線性回歸;非線性回歸;SPSS;MATLAB

一、回歸概念一般來說,變量之間的關(guān)系大致可以分為兩類:一類是確定性的,即變量之間的關(guān)系可以用函數(shù)的關(guān)系來表達;另一類是非確定性的,這種不確定的關(guān)系成為相關(guān)關(guān)系。相關(guān)關(guān)系是多種多樣的,回歸分析就是研究相關(guān)關(guān)系的數(shù)理統(tǒng)計方法。它從統(tǒng)計數(shù)據(jù)出發(fā),提供建立變量之間相關(guān)關(guān)系的近似數(shù)學(xué)表達式——經(jīng)驗公式的方法,給出相關(guān)行的檢驗規(guī)則,并運用經(jīng)驗公式達到預(yù)測與控制的目的。如隨機變量Y與變量x(可能是多維變量)之間的關(guān)系,當(dāng)自變量x確定后,因變量Y的值并不跟著確定,而是按照一定的停機規(guī)律(隨機變量Y的分布)取值。這是我們將它們之間的關(guān)系表示為Y=其中fx是一個確定的函數(shù),稱之為回歸函數(shù),ε為隨機項,且ε~N(0,σ2)?;貧w分析的任務(wù)之一就是確定回歸函數(shù)二、回歸分析2.1一元線性回歸分析2.1.1一元線性回歸模型設(shè)隨機變量Y與x之間存在著某種相關(guān)關(guān)系,這里x是可以控制或可以精確測量的普通變量。對于取定的一組不完全相同的值x1,,一般地,假定x與Y之間存在的相關(guān)關(guān)系可以表示為Y=a+bx+ε,其中ε為隨機誤差且ε~N(0,σ2對于一元線性回歸模型,顯然有Y~N(a+bx,回歸方程y=a+bx放映了變量X與隨機變量Y之間的相關(guān)關(guān)系?;貧w分析就是要根據(jù)樣本觀測值xi,yii2.1.2參數(shù)估計如何根據(jù)觀測數(shù)據(jù)(x1,,y1),(x2,y就刻畫了直線y=a+bx上點xiQa這樣Qa,b就表示直線上相應(yīng)點與全體數(shù)據(jù)點之間總的偏離程度。總得偏離程度越小,回歸方程y=a+bx就越能客觀放映出變量x與Y之間的線性關(guān)系。所以,在數(shù)理統(tǒng)計中,將能夠使Qa,我們利用微積分的知識來確定Qa,b取得最小值的條件。將?Q整理得na+上式稱為正規(guī)方程組。由于xin不為零。因此,我們得到的正規(guī)方程組的唯一解為b因此,我們得到了x與y之間的線性回歸方程y或y這個線性回歸方程表明,經(jīng)驗回歸直線L是通過這n個數(shù)據(jù)點幾何重心x,y且斜率為LLL這樣b2.1.3回歸系數(shù)的顯著性檢驗在上面的論述中,運用最小二乘法求回歸方程的條件除了要求諸xi不完全相同外,沒有其它條件,也就是說無論變量x與Y是否具有線性關(guān)系,只要諸xi不完全相同,使用最小二乘法總能求出a與b的一個無偏估計a與b,并能得到變量x與Y的一個線性回歸方程若果變量x與Y之間存在線性相關(guān)關(guān)系,那么模型Y=a+bx+ε中b不應(yīng)為零。否則,就有Y=a+ε,這意味著x與Y沒有任何關(guān)系。因此,我們需要假設(shè)H進行檢驗。當(dāng)拒絕H0為了給出顯著檢驗H0SS=稱SS為總偏差平方和,它反映了數(shù)據(jù)中變量取值y1SS稱SSR為回歸平方和,它放映了n個回歸數(shù)值y1,,y2,SS記

SS其中yi-yi稱為第i個殘差,i=1,2,SS小面推導(dǎo)殘差平方和的計算公式,由y推得SS這樣我們就得到平方和的分解公式SS=SS對回歸系數(shù)的顯著性檢驗一般有一下三種方法(1)t檢驗法(回歸系數(shù)的顯著性檢驗)取檢驗統(tǒng)計量T=可以證明,當(dāng)H0:b=0成立時,T~t(n-2)于是,在顯著性水平α下,當(dāng)t(2)F檢驗法(回歸系數(shù)的顯著性檢驗) 取檢驗統(tǒng)計量F= 這里的F檢驗其實就是方差分析的內(nèi)容,見下表2.1表2.1一元線性回歸方程的方差分析表方差來源平方和自由度均方F值回歸ss1MSR=F=誤差ss2MSE總計SSn-1 可以證明,當(dāng)H0:b=0成立時,F(xiàn)~F(1,n-2)。于是在顯著水平α下,確定臨界值Fα(1,n-2) 在線性一元回歸分析中,回歸方程的顯著性檢驗和回歸系數(shù)的顯著性檢驗作用是相同的,兩者可以互相替代。(3)回歸方程的擬合優(yōu)度檢驗 將回歸平法和與總離差平方和之比定義為樣本決定系數(shù),又稱判定系數(shù),記為r2r 決定系數(shù)是一個衡量回歸直線對樣本觀測值擬合優(yōu)度的相對指標(biāo),反映了變量的波動中能用變量所解釋的比例。r2的值總是在0~1之間,r2.1.4預(yù)測與控制 回歸方程的重要應(yīng)用就是預(yù)測和控制問題。所謂控問題,就是對于給定的點x=x預(yù)測問題設(shè)自變量x0與因變量yy且y0與樣本y 首先,我們計算x=xy將y0作為y0的預(yù)測值,但這樣求出的預(yù)測值一般來說是有誤差的。產(chǎn)生誤差的原因,一是由于y0只是平均值Ey0的一個估計,而y0的實際值很可能偏離它的平均值;二是因為y0的取值是依賴于估計值a與b y0雙側(cè)1-αy或α雙側(cè)預(yù)測1-α區(qū)的長度為2t在實際回歸問題中,樣本容量n常是很大的,這時對于在x附近的x來說,我們能得較短的預(yù)測區(qū)間,而且當(dāng)x=x0時長度最短,這事預(yù)測效果最佳。反之,當(dāng)x0 當(dāng)n較大時,通常d取1,且σn用σ代替,tα2y控制問題

在實際問題中,我們還會遇到控制問題,即若要求觀察值y在某個區(qū)間y1,y2內(nèi)取值時,問應(yīng)控制x在什么范圍?也就是要求對于給定的置信度1-α,求出相應(yīng)的x1和x我們只談?wù)撛趎很大的情況,這時tα2(n-2當(dāng)y1與y2的值確定以后,根據(jù)上式就可以求出相應(yīng)的x1和x2的值,作為x控制的端點值。需要注意的是,為了有效控制x的范圍區(qū)間,y1y12.2多元線性回歸分析在實際問題中,一般影響因變量的因素常常不止一個,這就是因變量與多個自變量相關(guān)關(guān)系問題,要用多元回歸的方法來解決。2.2.1多元線性回歸的數(shù)學(xué)模型 多元線性回歸模型的一般形式:Y=式中,β0,β1,……,βρ是ρ+1個未知數(shù),稱為回歸系數(shù)。Y稱為被解釋量,而x1,,x2,…,xρ是 對于一個實際問題,如果我們獲得n組觀測數(shù)據(jù)xi1,xy寫成矩陣形式為:Y=Xβ+ε其中:Y=2.2.2多元線性回歸模型的基本假定 為了對模型參數(shù)進行估計和推斷,常常要對回歸模型Y=Xβ+ε做如下的假定:1)解釋變量x12)隨機誤差項具有零均值和同方差,即Ecov∈i,∈3)正態(tài)分布的假設(shè)條件:∈i~N0由上述假設(shè)和多元正態(tài)分布的性質(zhì)可知:y服從n維正態(tài)分布,且Y~N(Xβ,σ2.2.3多元回歸模型的參數(shù)估計多元線性回歸方程未知參數(shù)β0,β1,β2,…...,Qβ即i=1 有多元函數(shù)求極值點的方法可求得回歸系數(shù)的最小二成估計值為:B另外,未知參數(shù)σ2的一個無偏估計σ2.2.4多元線性回歸模型的顯著性檢驗 多元線性回歸模型的顯著性包括兩方面的內(nèi)容:一是對整個回歸方程的顯著性檢驗,即F檢驗;另一個是對個回歸系數(shù)的顯著性檢驗,即t檢驗。在一元線性回歸方程的檢驗時,這兩個檢驗時等價的,但在多元線性回歸模型的檢驗時兩者卻不同?;仡櫡匠痰娘@著性檢驗提出假設(shè):H構(gòu)建F統(tǒng)計量,見表2.2:表5.2多元線性回歸模型的方差分析表方差來源平方和自由度均方和F值回歸ssPMSR=F=誤差ssn-pMSE總計SSn給定顯著水平α,查F分布表,的臨界值Fα若F>Fαp,n-p回歸系數(shù)顯著性檢驗提出假設(shè):H0:T檢驗的計算公式為:tβi=βiSi,其中S給定顯著水平α,確定臨界值tα若tβi≥tα多元線性回歸方程的擬合度檢驗采用調(diào)整的決定系數(shù)r2rr2的取值范圍和數(shù)值大小的意義與rσ2.3非線性回歸分析 在對實際的客觀現(xiàn)象進行定量分析時,對變量間非線性相關(guān)問題的曲線擬合,處理的方法有:決定非線性模型的函數(shù)模型,對其中課線性化的問題則通過變量將其線性化,從而歸結(jié)為前面的多元線性回歸問題來解決。方程形式應(yīng)與有關(guān)實質(zhì)型科學(xué)的基本理論一致。例如,采用冪函數(shù)的形式,能夠較好的表現(xiàn)生產(chǎn)函數(shù);采用多項式方程能夠較好的反映總成本與總產(chǎn)量的關(guān)系等等。若實際問題的曲線類型不易確定時,由于任意曲線皆可由多項式來逼近,故常可用多項式回歸來擬合曲線。若變量間非線性關(guān)系已知,且難以用變量變換法將其線性化,則進行數(shù)值法迭代的非線性回歸分析。一般來說,數(shù)學(xué)形式越簡單,其可操作性就越強。根據(jù)經(jīng)驗公式或散點圖,選擇適當(dāng)?shù)那€回歸方程。為了確定其中的未知參數(shù),往往可以通過變量代換,把非線性回歸化為線性回歸,然后用線性回歸的方法確定這些參數(shù)的值。直接代換法直接替換法適用于變量之間關(guān)系雖然是非線性的,但因變量參數(shù)間關(guān)系卻是線性的非線性模型;多項式模型基本形式:y=線性化方法:令Z轉(zhuǎn)化為線性模型:y=雙曲線模型基本形式:y=線性化方法:令U=轉(zhuǎn)化為線性模型:U=即1間接替換法間接代換法是先通過方程兩邊取對數(shù)后再進行變量代換,轉(zhuǎn)化為線性形式。指數(shù)函數(shù)基本形式:y=α線性化方法:兩端去自然對數(shù) 令y‘轉(zhuǎn)化為線性模型:y冪函數(shù)基本形式:y=α線性化方法:兩端去對數(shù)log令y‘=轉(zhuǎn)化為線性模型:y三、SPSS軟件操作及應(yīng)用實例定義變量和輸入、整理數(shù)據(jù)。選擇“分析/回歸/線性”,在線性回歸窗口自變量和因變量,單機“統(tǒng)計量”按鈕,在彈出的窗口設(shè)置參數(shù);單機“圖”按鈕,可以選擇輸出的圖形。最后單擊繼續(xù)按鈕。在結(jié)果輸出窗口的一元或者多元線性回歸計算結(jié)果。根據(jù)選擇參數(shù)不同,得到ANOVA和回歸系數(shù)等數(shù)據(jù)。例1:拖拉機拉桿的朱愛麗和速度有關(guān),測得拖拉機在速度X下的拉力Y,數(shù)據(jù)見下表,求Y對x回歸方程。變量數(shù)據(jù)X0.91.32.02.73.44.15.25.56.0425420480495540530590610690680 首先,在SPSS的數(shù)據(jù)編輯窗口的VariableView界面定義變量和在Dataview界面輸入數(shù)據(jù),見下圖。 其次,選擇“分析”,在窗口選擇自變量也因變量,設(shè)置“統(tǒng)計量”的窗口設(shè)置參數(shù)等,見下圖 最后點級確定,輸出結(jié)果,見下圖描述性統(tǒng)計量均值標(biāo)準(zhǔn)偏差NY546.000095.7369110X3.45001.7633610相關(guān)性YXPearson相關(guān)性Y1.000.982X.9821.000Sig.(單側(cè))Y..000X.000.NY1010X1010模型匯總模型RR方調(diào)整R方標(biāo)準(zhǔn)估計的誤差更改統(tǒng)計量R方更改F更改df1df2Sig.F更改1.982a.964.96019.18691.964216.07418.000a.預(yù)測變量:(常量),X。Anovaa模型平方和df均方FSig.1回歸79544.899179544.899216.074.000b殘差2945.1018368.138總計82490.0009a.因變量:Yb.預(yù)測變量:(常量),X。系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn)誤差試用版1(常量)362.06613.90626.036.000X53.3143.627.98214.699.000a.因變量:Y 結(jié)果分析: 從運行求得回歸方程中可知,X的系數(shù)為53.314,常數(shù)項為362.066,于是,回歸方程為y=362.066+53.314X 散點圖如下圖所示: 經(jīng)檢驗,回歸方程的顯著性達到0.0001,極顯著;對回歸方程系數(shù)及常數(shù)項T檢驗都達到極顯著,說明該方程有應(yīng)用價值。四、MATLAB應(yīng)用實例煉鋼廠出鋼水時用的鋼包,在使用過程中由于鋼水及爐渣對耐火材料的浸蝕,其容積不斷增大?,F(xiàn)在鋼包的容積用盛滿鋼水時的重量y(kg)表示,相應(yīng)的試驗次數(shù)用x表示。數(shù)據(jù)見表4.1,要找出y與x的定量關(guān)系表達式。表4.1鋼包的重量y與試驗次數(shù)x數(shù)據(jù)序號xy序號xY12106.42811110.5923108.20914110.6034109.581015110.9045109.501116110.7657110.001218110.0068109.931319110.20710110.49x1=1./x;y1=1./y;plot(x1,y1,‘k+’);%變換后數(shù)據(jù)的散點圖x2=[ones(13,1)x1'];[b,bint,rint,stats]=regress(y1',x2);z=b(1)+b(2)*x1;yc=1./z;plot(x1,y1,‘k+’,x1,z,‘r’)%變換后數(shù)據(jù)的散點圖和回歸直線圖變換后數(shù)據(jù)的散點圖及回歸直線圖R2=1-sum((y-yc).^2)/lyy;%模型的擬合優(yōu)度系數(shù)

plot(x,y,‘k+’,x,yc,‘r’)%數(shù)據(jù)的散點圖和回歸曲線圖

legend('散點圖','回歸函數(shù)')b=0.00896662968057

0.00082917436336

R2=0.97292374957556第一種方法的程序:formatlongx=[23457810111415161819];y=[106.42108.20109.58109.5110109.93110.49110.59110.60110.9110.76111111.20];plot(x,y,‘k+’);%數(shù)據(jù)的散點圖x1=1./x;y1=1./y;plot(x1,y1,‘k+’);%變換后數(shù)據(jù)的散點圖x2=[ones(13,1)x1'];[b,bint,rint,stats]=regress(y1',x2);z=b(1)+b(2)*x1;yc=1./z;plot(x1,y1,‘k+’,x1,z,‘r’)%變換后數(shù)據(jù)的散點圖和回歸直線圖n=length(x);lyy=sum(y.^2)-n*(mean(y))^2;R2=1-sum((y-yc).^2)/lyy;%模型的擬合優(yōu)度系數(shù)b=0.00896662968057

0.00082917436336

R2=0.97292374957556用類似的方法可以得出其它三個曲線回歸方程,它們分別是:第二種方法的程序:formatlongx=[23457810111415161819];y=[106.42108.20109.58109.5110109.93110.49110.59110.60110.9110.76111111.20];x1=log(x);y1=y;x2=[ones(13,1)x1'];[b,bint,rint,stats]=regress(y1',x2);bz=b(1)+b(2)*x1;yc=z;n=length(x);lyy=sum(y.^2)-n*(mean(y))^2;R2=1-sum((y-yc).^2)/lyy;plot(x,y,'k+',x,yc,‘c');legend('散點圖','回歸函數(shù)')b=1.0e+002*1.063146740751670.01713977247928R2=0.87731500489620第三種方法的程序:formatlongx=[23457810111415161819];y=[106.42108.20109.58109.5110109.93110.49110.59110.60110.9110.76111111.20];x1=sqrt(x);y1=y;x2=[ones(13,1)x1'];[b,bint,rint,stats]=regress(y1',x2);bz=b(1)+b(2)*x1;yc=z;n=length(x);lyy=sum(y.^2)-n*(mean(y))^2;R2=1-sum((y-yc).^2)/lyy;plot(x,y,'k+',x,yc,'k');legend('散點圖','回歸函數(shù)')b=1.0e+002*1.063012750143820.01194728720517R2=0.78514164407253三種方法的擬合效果比較:R2=0.97292374957556R2=0.87731500489620R2=0.785141644072531.原始數(shù)據(jù)下表給出了某地區(qū)1971—2000年的人口數(shù)據(jù)(表1)。試分別用Matlab和SPSS軟件,對該地區(qū)的人口變化進行曲線擬合。表4.2某地區(qū)人口變化數(shù)據(jù)年份時間變量t=年份-1970人口y/人197113381519722339811973334004197443416519755342121976634327197773434419788344581979934498198010344761981113448319821234488198313345131984143449719851534511198616345201987173450719881834509198919345211990203451319912134515199222345171993233451919942434519199525345211996263452119972734523199828345251999293452520003034527根據(jù)上表中的數(shù)據(jù),做出散點圖,見圖1。圖4.1某地區(qū)人口隨時間變化的散點圖從圖1可以看出,人口隨時間的變化呈非線性過程,而且存在一個與橫坐標(biāo)軸平行的漸近線,故可以用Logistic曲線模型進行擬合。因為Logistic曲線模型的基本形式為:所以,只要令:,就可以將其轉(zhuǎn)化為直線模型:下面,我們分別用Matlab和SPSS軟件進行回歸分析擬合計算。2.用Matlab編程進行回歸分析擬合計算源程序(Nonlinear-Regression-Model.m),如下:clearclc%讀入人口數(shù)據(jù)(1971-2000年)y=[338153398134004341653421234327343443445834498344763448334488345133449734511345203450734509345213451334515345173451934519345213

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論