版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第一講逐步回歸分析
STEPWISEREGRESSIONANALYSIS
在多元線性回歸分析時,為建立一個較為簡化又能準確預(yù)測依變量的最優(yōu)回歸方程,通常是逐個剔除復(fù)回歸方程中經(jīng)檢驗對y影響不顯著的所有自變量。這種先全部引入,后逐個剔除的方法,也是建立最優(yōu)回歸方程的一種分析法。此類分析法還很多,它們多適用于自變量個數(shù)較少,或大多數(shù)自變量對y有顯著影響的資料分析。否則,計算量將大大增加。目前較為常用的逐步回歸分析法是按自變量與y影響程度的大小,逐個地由大至小將自變量引入回歸方程。而每引入一個自變量,都要對方程中的各個自變量作顯著性檢驗。檢驗時先選偏回歸平方和最小的自變量進行檢驗,若為顯著,余者皆為顯著;若檢驗差異不顯著,即從方程中剔除,直至留在方程中的自變量均檢驗為顯著后,再引入另一個與y影響最大的變量,并進行顯著性檢驗。如此反復(fù),直至沒有自變量可再被引入,而方程中所有自變量均與y存在顯著的線性關(guān)系為止。
1.5-1×0.5=13-1×2=14-1×1=33-4×0.5=110-4×2=25-4×1=1
0.5-0.5×(-0.5)=0.752-0.5×1=1.51-0.5×3=2.5-2-1×(-0.5)=-1.52-1×1=11-1×3=-20.75-1.5×(-1.5)=3-0.5-1.5×(-1)=1-0.5-1.5×(-2)=2.5
-0.5-1×(-1.5)=11-1×(-1)=23-1×(-2)=5
b1=2.5b2=5b3=-2預(yù)備知識生物各性狀間的關(guān)系是相互依賴和相互制約的關(guān)系,改變某一性狀,即會引起另一性狀也發(fā)生變異。而生物現(xiàn)象數(shù)量的表現(xiàn)多半是隨機的,因此對現(xiàn)象關(guān)系的研究亦就是對隨機變量關(guān)系的研究。對隨機變量關(guān)系的研究,在統(tǒng)計學中有相關(guān)分析和回歸分析兩種不同的方法。相關(guān)分析是研究變量間的相互之間關(guān)系,研究變量間相互聯(lián)系的性質(zhì)和緊密程度?;貧w分析是研究一個變量對另一個變量的單向依存關(guān)系,即研究一個變量隨另一個變量變化而變化。這里,后一個變量叫自變量,前一個變量叫依變量或應(yīng)變量。變量間的相關(guān)關(guān)系及分析方法歸納如下:
相關(guān)系數(shù)式中稱x變量的平方和;稱y變量的平方和;稱乘積和(sumofproducts)?;貧w系數(shù)由x估測y的估計值的直線回歸方程:=a+bx第一節(jié)逐步回歸分析的基本方法逐步回歸分析的基本方法可以通過一個實例介紹其分析步驟。例1為考察舍內(nèi)干球溫度(x1)、濕球溫度(x2)、露點溫度(x3)、相對濕度(x4)及舒適度指數(shù)(x5)對羅曼蛋雞產(chǎn)蛋率(y)的影響。隨機抽測12個位點各64只雞在56—67周令的平均周產(chǎn)蛋率如表1—1。表1—1各變量的觀察值、平均數(shù)及標準差n=12周令x1,℃x2,℃x3,℃x4,%x5y,%565758┇65666722.117.420.1┇13.813.013.416.712.615.7┇9.49.410.713.39.012.5┇5.26.48.358.458.660.2┇58.060.471.268.662.266.4┇57.356.758.070.966.764.3┇60.560.558.917.213.310.364.462.563.4s4.13.84.47.05.63.8一、計算相關(guān)系數(shù)陣1、計算各變量的平均數(shù)(為表1—1)設(shè)自變量x1,x2,…,xm與依變量y存在線性關(guān)系,m元線性回歸方程為:
若有n對觀察值:xk1,xk2,…,xkm,yk,k=1,2,…,n則各變量平均數(shù):
本例計算結(jié)果列于表1—1。i=1,2,…,m(1—3)(1—4)
(1—1)(1—2)
2、計算離差陣自變量平方和ssi,自變量間及其與依變量間的乘積和SPij及SPiy由下式算出:于是可得正規(guī)方程組本例m=5,n=12算得:
(1—8)(1—9)
(1—7)
i、j=1,2,…,m,i≠j(1–6)(1—5)3、計算相關(guān)系數(shù)陣在逐步回歸中,為便于計算和表達,通常將離差陣化為相關(guān)陣,計算公式為:rij=spij/(ssissj)1/2i、j=1,2,…,m,y(1—10)rij為x1,x2,…,xm,y間的相關(guān)系數(shù),且rii=1,于是正規(guī)方程組(1—8)可改寫為:本例由公式(1-10)算得:方程組(1—12)中的pi與方程組(1—8)中bi間的關(guān)系為:bi=piSy/Sxii=1,2,…,m(1—13)式中Sxi,Sy為各自變量、依變量的標準差。(1—11)(1—12)
二、確定顯著的F檢驗水準為引入有顯著作用的自變量,在進行逐步回歸計算前,先要確定顯著的F檢驗水準,作為引入或剔除變量的標準。F檢驗水準要根據(jù)具體情況而定。一般地,為使回歸方程中包含較多的自變量,顯著水準α不要定的太小。顯著水準F的取值與自由度有關(guān),而且在逐步回歸的分析中,由于自變量引入和剔除的變化,其剩余自由度也在不斷變化,若樣本的觀察數(shù)為n,自變量的個數(shù)為m,則剩余自由度為n-m-1。如果n相對較大,m與n就相差較大。m個自變量被引入的個數(shù)的多少對剩余自由度的影響也就不會太大。此時可確定一個固定的F檢驗值,不必每次查表更換之。但本例n=12,m=5,剩余自由度分別為6、7、8、9、10。其F值相差不太大,故可選一個共用檢驗的F值,作為引入和剔除自變量的標準。同時也要注意顯著水準α的選定,不能太小,如本例可選α=0.1,F(xiàn)0.1(1,6)=3.78。亦可指定F值,如本例為F=5。三、選取自變量由(1-12)式得相關(guān)陣R(0):R(0)=1、引入第一個自變數(shù)(1)對5個自變量計算偏回歸平方和,各自變量的偏回歸平方和ui為:以ui值的大小作為被引入回歸方程后對方差的貢獻,ui最大的值是對方差貢獻最大的自變量。該自變量應(yīng)優(yōu)先引入回歸方程。本例為:
式中右上角括號內(nèi)1和0分別表示第一次計算以及相關(guān)系數(shù)來自R(0)陣中的元素。以下的意義均同。以此類推又有:
i=1,2,…,5(1—14)=0.79102/1=0.6257
=0.66152/1=0.4376
=0.56152/1=0.3153
=(-0.2648)2/1=0.0701
=0.73252/1=0.5366由上述計算知,中以x1為最大,故先引入x1。
(2)對x1引入回歸方程是否顯著進行F檢驗,其計算公式為:Fi=ui/[(1-∑ui)/(n-1-1)](i=1,2,…,m)(1—15)由于引入x1,故按上式K+1,L=0時把R(0)變換為R(1)。F1>5,故差異顯著,可引入回歸方程。(1—16)R(1)=(3)剔除或引入一個自變量xk后,相關(guān)系數(shù)陣R(L)=〔〕按下列公式進行消去變換,而成R(L+1)=〔〕
(或Fi=[(-ui)/(n-1-1)])。本次引入K為1,L為0。
F1=u1/[(1-)/(12-1-1)]=0.6257/[(1-0.6257)/10]=16.722、引入第二個自變量L=1(1)計算各自變量偏回歸平方和,按(1—14)式算得:由于方程中僅含一個自變量x1。而它是前一步剛選入的,不可能立即被剔除,故無須作檢驗而直接引入貢獻最大的u5(2),即x5。(2)對x5引入回歸方程,進行F檢驗,按(1—15)式算得:F5>5,差異顯著,可把x5引入回歸方程。F5=/[(1--)/(n-2-1)]=0.2618/[(1-0.6257-0.2618)/9]=20.94
=/[(-)/(n-2-1)]=0.2618/[(0.3743-0.2618)/9]=20.94
(3)引入x5后,按(1—16)式進行消去變換,使R(1)變換成R(2)。=0.7912/1=0.6257(已選)=(-0.110674)2/0.047034=0.2604
=(-0.175079)2/0.132867=0.2307=(-0.445702)2/0.947696=0.2096
=(-0.05407)2/0.011169=0.2618
(4)對引入x1,x5進行顯著性檢驗先算出各偏回歸平方和及剩余平方和:R(2)=
=5.6049682/89.533563=0.3509(已選)=0.0000272/0.000217=0.000003
=0.0099232/0.002113=0.0466
=0.0387982/0.05091=0.0296
=(-4.841078)2/89.53353=0.2618(已選)
剩余平方和
∵,∴F1>F5>5,差異均顯著,x1、x5不被剔除。
3、引入第三個自變量L=2,除x1,x5外,數(shù)u3(3)最大,故引入x3。(1)對x3引入回歸方程是否顯著進行F檢驗F3>5,差異顯著,可把x3引入回歸方程。(2)引入x3后,應(yīng)對R(2)進行消去變換,即將R(2)變換為R(3)。變換后的R(3)如下:4、引入第四個自變量L=3(1)計算各偏回歸平方程和R(3)=
F3=/[(Q(2)-)/(n-3-1)]=0.0466/[(0.1125-0.0466)/8]=5.68
=17.209972/2979.57196=0.0994(已選)=(-0.001020)2/0.000193=0.00005
剩余平方和Q(3)=0.06596(2)剔除引入方程中差異不顯著的自變量,已引入的x1,x3,x5中偏回歸平方和最小的為U3(4)=0.0466,F(xiàn)3=U3(4)/[(Q(3)/(n-3-1)]=0.0466/(0.066/8)=5.65F3>5,所以x3不被剔除,偏回歸平方和更大的x1,x5更不會被剔除,故方程中無剔除的自變量。由于F4<5,所以x4不顯著,不能引入方程。至此,回歸方程既無變量可剔除,又無新變量可再引入。逐步回歸的計算可告結(jié)束。(3)引入新變量未引入的x2,x4中>,故引入x4,其檢驗結(jié)果為:
F4=/[(Q(3)-)/(n-4-1)=0.0274/[(0.0666-0.0274)/7]=4.97=4.6961672/473.260767=0.0466
(已選)=0.0373662/0.050866=0.0274=(-20.90913)2/5629.90709=0.0777(已選)
第二節(jié)建立最優(yōu)回歸方程
一、計算偏回歸系數(shù)在逐步回歸分析中采用的是經(jīng)過標準化的量,即由相關(guān)系數(shù)求得的解pi為標準偏回歸系數(shù),亦稱通徑系數(shù),偏回歸系數(shù)bi可由公式(1—13)算得,即:b1=p1Sy/Sx1=17.21×3.8/4.1=15.95b3=p3Sy/Sx3=4.6962×3.8/4.4=4.06b5=p5Sy/Sx5=(-20.9091)×3.8/5.6=-14.19最優(yōu)回歸方程為:
本例中p1=,p3=,p5=,Sy和Sxi已列在表1—1中。所以=63.4―15.95×17.2-4.06×10.3+14.19×62.5=634.117
=634.117+15.95x1+4.06x3-14.19x5
二、計算復(fù)相關(guān)系數(shù)及回歸方程估計標準誤復(fù)相關(guān)系數(shù):
由df=12-3-1=8,查R顯著值表R0.01=0.86,復(fù)相關(guān)系數(shù)極顯著,表明x1,x3,x5與y之間存在極為明顯的線性回歸關(guān)系,該方程可用于估測y?;貧w方程估計標準誤:
回歸方程估測誤差僅1.14%,故本例所建立的最優(yōu)回歸方程用于預(yù)測平均周產(chǎn)蛋率的可靠性極高。三、總體平均數(shù)μy的置信區(qū)間和總體觀察值yi的預(yù)測區(qū)間當x1,x2,…,xm固定時,p(p為引入回歸方程的自變量個數(shù))元線性回歸估計值標準誤為:觀察值yi的標準誤為:
(1—17)
(1—18)
Sye為方程估計標準誤,n為樣本含量,i,j=1,2,…,p,Cij為(1—8)式系數(shù)矩陣的逆矩陣A-1中第i行、第j列的元素(高斯乘數(shù)),xi、xj為第i或第j個自變量的離差即。A-1中的元素Cij與R-1中的元素的關(guān)系為:
于是,總體平均數(shù)μy(1-α)置信區(qū)間的上、下限為;
觀察值yi(1-α)置信區(qū)間的上、下限為;式中tα對應(yīng)的自由度為(n-p-1)。本例中,當x1=22.1,x3=13.3,x5=68.8時,μy和yi95%的置信區(qū)間可計算如下:(1—19)
(1—20)
U=,L=
(1—21)
U=,L=
(1—22)由(1—19)、(1—20)可得
由(1—17)、(1—18)可得由最優(yōu)回歸方程算得依變量的估計值為:
查t值表,df=12-3-1=8,t0.05=2.306,依(1—21)、(1—22)有:總體平均數(shù)μy95%置信的上、下限為:U=67.176+2.306×5.1726=79.10(%)L=67.176-2.306×5.1726=55.25(%)觀察值yi置信限分別為:U=67.176+2.306×5.2967=79.39(%)L=67.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度危險化學品儲存安全合同書模板3篇
- 教育領(lǐng)域中的農(nóng)業(yè)科技應(yīng)用與實踐
- 二零二五年度車庫門行業(yè)信息化建設(shè)與支持合同4篇
- 生物醫(yī)學工程專業(yè)人才需求與培養(yǎng)方案
- 二零二五年度尊享不過戶二手房買賣合同3篇
- 2025年度個人所得稅贍養(yǎng)老人專項附加扣除協(xié)議執(zhí)行細則3篇
- 2025年度個人二手房購房合同范本及稅費代繳服務(wù)協(xié)議3篇
- AI驅(qū)動的智能醫(yī)療設(shè)備進展報告
- 科技驅(qū)動的小學道德與法治教育變革
- 珠海廣東珠海市斗門區(qū)人民法院特邀調(diào)解員招聘10人筆試歷年參考題庫附帶答案詳解
- 口腔醫(yī)學中的人工智能應(yīng)用培訓(xùn)課件
- 工程質(zhì)保金返還審批單
- 【可行性報告】2023年電動自行車項目可行性研究分析報告
- 五月天歌詞全集
- 商品退換貨申請表模板
- 實習單位鑒定表(模板)
- 六西格瑪(6Sigma)詳解及實際案例分析
- 機械制造技術(shù)-成都工業(yè)學院中國大學mooc課后章節(jié)答案期末考試題庫2023年
- 數(shù)字媒體應(yīng)用技術(shù)專業(yè)調(diào)研方案
- 2023年常州市新課結(jié)束考試九年級數(shù)學試卷(含答案)
- 正常分娩 分娩機制 助產(chǎn)學課件
評論
0/150
提交評論