第二章 多元回歸分析_第1頁
第二章 多元回歸分析_第2頁
第二章 多元回歸分析_第3頁
第二章 多元回歸分析_第4頁
第二章 多元回歸分析_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二章多元回歸分析

本章重點討論:

1.多元線性回歸模型

2.逐步回歸

3.通徑分析§2.1

多元線性回歸一、多元線性回歸模型設(shè)因變量y與自變量x1,x2,…,xp的內(nèi)在聯(lián)系是線性的,當(dāng)做了n次試驗后,得n組數(shù)據(jù)(yi,xi1,xi2,…,xip),i=1,2,…,n滿足yi=0+1xi1,+2xi2+…+pxip+ei,i=1,2,…,n其中0,1

,…,p

是p+1個未知參數(shù),稱為回歸系數(shù);x1,x2,…,xp是p個一般變量;e1,

e2,…,

en是n個互不相關(guān)的隨機(jī)誤差,且均值為0,方差為2,這就是多元線性回歸模型。引進(jìn)矩陣記號:其中Y為隨機(jī)觀測向量;為回歸系數(shù)向量;e為隨機(jī)誤差向量;X稱為結(jié)構(gòu)矩陣或設(shè)計矩陣,且rank(X)=p+1,則多元線性回歸模型的矩陣形式為

Y=X+e,E(e)=0,COV(e)=2E若進(jìn)一步設(shè)ei~N(0,2),則

Y=X+e,e~Nn(0,2E)二、參數(shù)的最小二乘估計其中設(shè)為的估計,則回歸方程為b0,b1

,…,bp

應(yīng)使記則其中記則由多元函數(shù)極值原理和矩陣微商知,b應(yīng)使下列方程的解即XTXb=XTY,因rank(X)=p+1,所以的LS估計為b=(XTX)-1XTY

的LS估計的性質(zhì):(1)E(b)=;(2)COV(b)=2(XX)-1

若記則b=CBbi與bj之間的協(xié)方差COV(bi,bj)=2cij,當(dāng)i=j時,即為bj的方差Var(bj)=2cjj。三、回歸方程的檢驗檢驗x1,x2,…,xp與y是否存在線性關(guān)系,即檢驗用方差分析方法檢驗,總平方和:H0:1=2=…=p=0,Ha:至少有一個j0=Q+u其中分別稱為剩余平方和與回歸平方和。自由度

fT=n-1,fu=p,fQ=n-p-1.均方:在H0成立的條件下

當(dāng)F≥F(p,n-p-1)時,否定H0,即x1,x2,…,xp與y存在顯著的線性關(guān)系;

當(dāng)F<F(p,n-p-1)時,接受H0,即x1,x2,…,xp與y線性關(guān)系不顯著,其原因:x1,x2,…,xp與y無關(guān)系或存在非線性關(guān)系。平方和的計算公式分別為u=lyy-Q方差分析表來源自由度平方和均方F值F臨界值回歸剩余pn-p-1uQSu2SQ2Su2/SQ2F(p,n-p-1)總和n-1lyy四、回歸系數(shù)的檢驗當(dāng)回歸方程顯著時,對回歸系數(shù)進(jìn)行檢驗。H0:j=0,Ha:j0從而因為E(bj)=j,Var(bj)=2cjj,所以bj~N(j,2cjj)當(dāng)2未知,用其無偏估計Q/(n-p-1)代替時在H0:成立的條件下當(dāng)2未知,用其無偏估計Q/(n-p-1)代替時當(dāng)|tj|≥

t/2(n-p-1)或FjF(1,n-p-1)時,拒絕H0,即xj與y存在顯著線性關(guān)系;否則線性關(guān)系不顯著,可以將bjxj項從方程中剔除,重新建立回歸方程。顯著時,對x1,x2,…,xp給定的一組數(shù)據(jù)(x01,x02,…,x0p),對y進(jìn)行預(yù)測,其1-α置信區(qū)間為五、利用回歸方程進(jìn)行預(yù)測其中當(dāng)我們建立的回歸方程

例2.1

研究同一地區(qū)土壤內(nèi)所含植物可給態(tài)磷的情況,得18組數(shù)據(jù),x1—無機(jī)磷濃度;x2—容于K2CO2溶液并受溴化物水解的有機(jī)磷;x3—不容于溴化物的有機(jī)磷;y—栽培在20oC土壤內(nèi)玉米中的可給態(tài)磷(百萬分之一)。假設(shè)y與x1,x2,x3存在線性關(guān)系,求其回歸方程,并對回歸方程進(jìn)行檢驗。土壤樣本x1x2x3y1234567891011121314151617180.40.43.10.64.71.79.410.111.612.610.923.123.121.623.11.926.829.9532319342465443129583746504456365851158163371575912346117173112111114134731681432021246460716154778193935176967793955416899解:n=18,p=3結(jié)構(gòu)矩陣X和觀測向量分別為:解:n=18,p=3,結(jié)構(gòu)矩陣X和觀測向量分別為:計算得計算得u=lyy-Q=6794u=lyy-Q=6794

fT=n-1=18-1=17,fu=p=3,fQ=n-p-1=14.回歸系數(shù)檢驗F0.25(1,14)=1.44,F(xiàn)0.05(1,14)=4.60,F(xiàn)0.01(1,14)=8.86例2.1的SAS程序為:dataex2_1;inputx1x2x3y@@;cards;0.453158640.423163603.11937710.634157614.72459541.765123779.444468110.1311179311.6291739312.6581125110.9371117623.1461149623.1501347721.644739323.156168951.9361435426.85820216829.95112499;procreg;Modely=x1x2x3;run;輸出結(jié)果:稱為中心化形式。六、多元線性回歸模型的其它形式其中1.中心化形式若記則稱為中心標(biāo)準(zhǔn)化形式。其中2.中心標(biāo)準(zhǔn)化形式(典則形式)若記則其中3.廣義多元線性模型若記則廣義線性模型的矩陣形式為Y=A+e是已知的S元函數(shù),不含任何未知參數(shù)。其中則的LS估計為

例2.4

對例1.4用多項式y(tǒng)=a+bx2+cx3+dx4

逼近。利用SAS過程GLM求解,其SAS程序如下:dataex2_4;inputxy@@;cards;05.7543.71076.715102.320183.425225.130281.635362.8403914542950448.155452.360453.26545470454.3;procglm;modely=x*xx*x*xx*x*x*x;run;

輸出部分結(jié)果:多項式模型為:

y=15.844383+0.621706x2-0.012470x3+0.000069x4也可采用增加新變量的方式,用REG過程求解?!?.2

逐步回歸(stepwiseregression)一、基本思想按照變量x1,x2,…,xp的重要程度,逐個將變量引入回歸方程,對已引入方程的變量,在新變量引入后有可能變成不重要的變量,隨時從方程中剔除,已剔除的變量在引入后又變的重要時,可將它重新選入回歸方程,這樣一種變量可進(jìn)可出的回歸方法稱為逐步回歸法。衡量變量重要程度的指標(biāo)是“偏回歸平方和”。若記Q(1,2,…,k)表示方程中有變量x1,x2

,…,xk

的剩余平方和,則第i個變量xi的偏回歸平方和為

gi=Q(1,…,i-1,i+1,…,k)-Q(1,2,…,k)

gi越大量,變量xi越重要。衡量變量重要程度的指標(biāo)是“偏回歸平方和”。若記Q(1,2,…,k)表示方程中有變量x1,x2

,…,xk

的剩余平方和,則第i個變量xi的偏回歸平方和為

gi=Q(1,…,i-1,i+1,…,k)-Q(1,2,…,k)

gi的大小與當(dāng)時方程中包含的其它變量有關(guān)。如

Q(1)-Q(1,i),Q(2)-Q(2,i),…,Q(p)-Q(p,i)一般不相等。這說明衡量變量重要性的標(biāo)準(zhǔn)是一個相對標(biāo)準(zhǔn),理解了這一點,就不難理解此時重要的變量,彼時又不重要被剔除這樣一個似乎矛盾的現(xiàn)象。注:引入和剔除變量,需要確定顯著性水平和。二、實施步驟首先對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換(中心標(biāo)準(zhǔn)化形式):其中若記則為相關(guān)矩陣。其中rij=rji,rii=1;rj0為xj與y的相關(guān)系數(shù)。正規(guī)方程為其中bj*(j=1,2,…,p)稱為標(biāo)準(zhǔn)回歸系數(shù)。bj與bj*的關(guān)系:用相關(guān)矩陣進(jìn)行一系列的消去變換和檢驗,最后得“最佳”回歸方程。具體過程從略,僅討論用SAS計算。例2.5

某物質(zhì)在凝固時放出的熱量y(卡/克)與此物質(zhì)中4種化學(xué)成分(%)x1,x2,x3,x4有關(guān),求(1)這5個變量間的相關(guān)系數(shù);(2)y與x1,x2,x3,x4線性回歸方程;(3)y與x1,x2,x3,x4的“最佳”線性回歸方程

。數(shù)據(jù)與程序如下:DATAhald;INPUTx1x2x3x4y@@;CARDS;726660

78.5129

15

5274.31156820

104.3113184787.6752

6

33

95.911

55922

109.2371

176102.7131

22

4472.5254

182293.121

47

4

26

115.91402334

83.811

66912

113.31068812

109.4;數(shù)據(jù)步:PROC

CORRDATA=hald;/*(1)*/VARx1-x4y;RUN;PROCREGDATA=hald;/*(2)*/MODELy=x1-x4;RUN;PROCREGDATA=hald;/*(3)*/MODELy=x1-x4/SELECTION=STEPWISESLE=0.1SLS=0.1;RUN;過程步:1引入變量顯著性水平

SLE=水平值,缺省值為0.15.2剔除變量顯著性水平

SLS=水平值,缺省值為0.15.部分輸出結(jié)果:(1)相關(guān)矩陣及其檢驗看出有什么問題嗎?!(2)多元線性回歸(3)逐步回歸過程及結(jié)果回歸方程:y=52.57735+1.46831x1+0.66225x2§2.3

通徑分析(pathanalysis)一、通徑系數(shù)的定義設(shè)因變量y受到兩個變量x1,x2的影響,則其關(guān)系可圖解為如下:自變量與因變量間的箭頭連線叫做通徑(path)。如x1→y,

x2→y為直接通徑;

x1→x2→y和x2→x1→y為間接通徑。表示各條通徑對于改變y反應(yīng)量的相對重要性的統(tǒng)計數(shù)稱為通徑系數(shù)(pathcoefficient),記i→y或i→j→y.yx1x2yx1x2r12x1與x2不相關(guān)x1與x2相關(guān)直接通徑系數(shù)定義為標(biāo)準(zhǔn)回歸系數(shù),即其意義:在i→y(即xi→y)的通徑上,若

xi增加一個標(biāo)準(zhǔn)單位,則y將增加(i>0)或減少(i<0)i個標(biāo)準(zhǔn)單位。間接通徑系數(shù)定義為:注:(1)y

與xi皆具線性關(guān)系;

(2)通徑系數(shù)是有向量;

(3)通徑系數(shù)是無量綱的量,取值是實數(shù)。二、通徑系數(shù)的計算因為i是標(biāo)準(zhǔn)回歸系數(shù)bi*,從而得直接通經(jīng)系數(shù)i的正規(guī)方程組由此看出:通徑系數(shù)是

xi與y的相關(guān)系數(shù)ri0的線性分解。例如:測定244個“揚(yáng)糯5號”稻穗的一次枝梗數(shù)(x1),二次枝梗數(shù)(x2)和每穗總粒數(shù)(y),通過計算得相關(guān)系數(shù)

r12=0.771114,r10=0.856034,r20=0.938732正規(guī)方程組例如:測定244個“揚(yáng)糯5號”稻穗的一次枝梗數(shù)(x1),二次枝梗數(shù)(x2)和每穗總粒數(shù)(y),通過計算得相關(guān)系數(shù)

r12=0.771114,r10=0.856034,r20=0.938732解得直接通徑系數(shù):

1=1→y=0.3260,

2=2→y=0.6873;間接通徑系數(shù):

1→2→y=r12

2→y=0.7711140.6873=0.53002→1→y=r12

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論