多元線性回歸模型變量選擇的總偏回歸平方和法(1)_第1頁
多元線性回歸模型變量選擇的總偏回歸平方和法(1)_第2頁
多元線性回歸模型變量選擇的總偏回歸平方和法(1)_第3頁
多元線性回歸模型變量選擇的總偏回歸平方和法(1)_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、    多元線性回歸模型變量選擇的總偏回歸平方和法(1)    】 提出一個(gè)新概念總偏回歸平方和(Pt, total partial regression sum of squares),將Pt定義為全部自變量Xi(i=1,2,m,m為自變量數(shù)目或個(gè)數(shù))的偏回歸平方和Pi之總和。根據(jù)Pi占Pt的比例Ri(PiPt),進(jìn)行m 1個(gè)回歸方程計(jì)算后,可選擇出“較優(yōu)”自變量組合,從而得到一至數(shù)個(gè)“較優(yōu)”多元線性回歸模型,以供進(jìn)一步分析。 【關(guān)鍵詞】 偏回歸平方和; 總偏回歸平方和; 多元線性回歸; 變量選擇1 問題的提出多

2、元線性回歸在諸多學(xué)科中有廣泛應(yīng)用。在多元線性回歸的實(shí)際應(yīng)用中,考慮的自變量Xi(i=1,2,m,m為自變量數(shù)目或個(gè)數(shù))經(jīng)常包括所有可能影響因變量Y的因素。在眾多的Xi中,有的對(duì)Y有顯著影響,有的影響很小甚至基本無影響。如果把對(duì)Y影響小的Xi保留在回歸模型中,不僅增加收集數(shù)據(jù)和分析數(shù)據(jù)的負(fù)擔(dān),使得回歸方程不穩(wěn)定,而且會(huì)因Xi的數(shù)目過多而不便于使用。因此,自變量選擇在理論和應(yīng)用上都十分重。自變量選擇通常有兩類方法14:一是全局擇優(yōu)法,可選出全局“最優(yōu)”回歸模型。該法是對(duì)自變量各種不同的組合所建立的回歸方程進(jìn)行比較,進(jìn)而從全部組合中挑出一個(gè)“最優(yōu)”回歸方程。挑選“最優(yōu)”回歸模型的指標(biāo)一般有R2法、校

3、正R2法、殘差均方和或剩余標(biāo)準(zhǔn)差最小法、Cp統(tǒng)計(jì)量法、AIC、BIC及AICC信息量準(zhǔn)則等。對(duì)于給定的方法和準(zhǔn)則,“最優(yōu)”回歸方程應(yīng)從所有可能回歸子集(共有2m-1個(gè))選出。問題是,根據(jù)不同的方法和準(zhǔn)則,選出的“最優(yōu)”回歸模型不一定相同,真正哪個(gè)回歸模型“最優(yōu)”,同樣面臨選擇的困難。而且,從所有可能回歸子集中選擇“最優(yōu)”回歸方程,計(jì)算量較大或極大(視m值而定)。二是逐步選擇法(包括前進(jìn)法、后退法和逐步回歸法)。每一種逐步選擇法選出的“最優(yōu)”回歸方程不一定相同。同一種方法,給定的檢驗(yàn)水準(zhǔn)(0.10,0.05,0.01,0.001)不同,選出的“最優(yōu)”回歸方程亦不同。而且,在確定哪些變量應(yīng)當(dāng)添加或

4、者剔除時(shí),采用的統(tǒng)計(jì)規(guī)則(顯著性水平或者方差統(tǒng)計(jì)值的大小)都有一定的武斷性5。筆者認(rèn)為,從統(tǒng)計(jì)學(xué)意義上說,真正的最優(yōu)回歸方程是不存在或不可能得到的。與其花費(fèi)大量的時(shí)間和高計(jì)算成本而得不到“最優(yōu)”回歸方程,不如少些武斷性,用少量的時(shí)間和低計(jì)算成本得到1至數(shù)個(gè)“較優(yōu)”多元線性回歸模型以供選擇,在實(shí)踐中發(fā)揮相似的效果和作用?;谏鲜隹紤],本研究從偏回歸平方和的概念出發(fā),提出一個(gè)概念總偏回歸平方和(Pt total partial regression sum of squares),Pt這個(gè)概念或術(shù)語,作者尚未見文獻(xiàn)報(bào)道。借助Pt,我們提出簡便實(shí)用的選擇“較優(yōu)”多元線性回歸模型的總偏回歸平方和法。2

5、 原理與方法設(shè)1個(gè)應(yīng)變量Y與m個(gè)自變量Xi(i=1,2,m,m為自變量個(gè)數(shù))呈線性相關(guān)。從多元回歸全模型中取消一個(gè)自變量Xi后,回歸平方和U減少的部分,稱為這個(gè)自變量Xi對(duì)Y的偏回歸平方和(Pi),即這個(gè)自變量Xi對(duì)Y的回歸貢獻(xiàn)。關(guān)于每個(gè)自變量Xi在多元回歸中所起的作用大小,可通過相應(yīng)Xi的偏回歸平方和Pi來衡量。Pi表明對(duì)Y的回歸貢獻(xiàn)。Pi越大,表示相應(yīng)的Xi在回歸中對(duì)Y的作用越大;當(dāng)Pi很小時(shí),表示相應(yīng)的Xi在回歸中所起的作用越小。總偏回歸平方和(Pt)表示全部Pi之和,如能計(jì)算出每個(gè)Pi與Pt之比Ri(PiPt,Ri0,1),根據(jù)Ri大小不同,可較快選擇出“較優(yōu)”自變量組合或子集。方法如

6、下: 估計(jì)全模型即包括所有自變量Xi回歸方程的殘差平方和Q:Q=Y*Y-Y*X*(X*X)-1*X*X 計(jì)算每個(gè)自變量Xi的偏回歸平方和Pi2:Pi=Qi-Q    (i=1,2,m)(1)式(1)中Qi表示自變量Xi不在回歸模型時(shí)的殘差平方和,即Y與m-1個(gè)自變量X1,Xi-1,Xi 1,Xm的選模型的殘差平方和。Q為包括所有自變量Xi回歸方程即全模型的殘差平方和。至此所計(jì)算回歸方程總數(shù)為m 1個(gè)。 計(jì)算總偏回歸平方和Pt :Pt=Pi (i=1,2,m)(2) 計(jì)算各Pi占Pt的比例:Ri=PiPt (Ri0,1)(3)根據(jù)各Ri大小選擇自變量,選出

7、“較優(yōu)”回歸方程。 將Ri按由大到小秩序排列,然后計(jì)算累積Ri。一般地,可選擇使累積Ri095(或085,090,099,需按數(shù)據(jù)的實(shí)際情況而定)的自變量組合,作為“較優(yōu)”回歸模型的自變量組合,從而得到所求“較優(yōu)”回歸方程。    3 實(shí)例實(shí)例1Hald水泥問題是一多元回歸的經(jīng)典實(shí)例,在諸多文獻(xiàn)4,6中均有研究,說明存在一些不確定的模型。用本法作變量選擇,結(jié)果見表1。表1 各自變量的偏回歸平方和、總偏回歸平方和及其比例與累積比例(略)由表1可知,X1和X2的累積Ri為0.9878,而X4與X3對(duì)回歸的貢獻(xiàn)是微不足道的,兩者的Ri均不到001,故“較優(yōu)”自

8、變量子集應(yīng)為XX1,X2,這個(gè)結(jié)果與Cp統(tǒng)計(jì)量法選出的結(jié)果相同。如需選3個(gè)自變量進(jìn)入回歸方程,自變量子集應(yīng)是XX1,X2,X4,而不是XX1,X2,X3,與用最小殘差方差、最小殘差標(biāo)準(zhǔn)差、R2及校正R2選出的結(jié)果相一致。但本法僅計(jì)算了m 1=5個(gè)回歸方程子集便得到與用2m-1=15個(gè)回歸方程子集相一致的結(jié)論,表明本法計(jì)算量明顯減小。本法的結(jié)果亦與逐步選擇法(包括前進(jìn)法、后退法和逐步回歸法)的結(jié)果相同。實(shí)例2為了研究正常少年兒童心像面積Y與性別(X1),年齡(X2),身高(X3),體重(X4),胸圍(X5)的關(guān)系,某單位調(diào)查了254名男性,267名女性,月齡在30月178月的正常少年兒童,全部可

9、能的回歸方程的主結(jié)果見文獻(xiàn)7,應(yīng)用本法選擇自變量子集的數(shù)據(jù)見表2。表2 各自變量的偏回歸平方和、總偏回歸平方和及其比例與累積比例(略)由表2可知,自變量子集X1,X3,X4的累積Ri為0.97950.95,故較優(yōu)自變量子集應(yīng)為XX1,X3,X4。如限定選2個(gè)自變量,自變量子集應(yīng)是XX1,X3,其累積Ri為0.91000.90。如限定選4個(gè)自變量,自變量子集應(yīng)是XX1,X3,X4,X5,其累積Ri為0.99390.99。本法僅計(jì)算了m 1=6個(gè)回歸方程子集便得到與用2m-1=31個(gè)回歸方程子集相一致的結(jié)論,進(jìn)一步表明本法計(jì)算量小,結(jié)果可靠。4 討論本研究在提出總偏回歸平方和(Pt)概念的基礎(chǔ)上,

10、用Pt法選擇自變量子集,進(jìn)而優(yōu)選出所需多元回歸模型。本法的變量選擇結(jié)果與全局擇優(yōu)法及逐步選擇法的結(jié)果基本一致。本法計(jì)算量小,簡便實(shí)用。本法的不足之處是累積Ri的選擇標(biāo)準(zhǔn)亦有一定的主觀性,標(biāo)準(zhǔn)不同,選出的自變量子集相異。另外,變量較多時(shí),本法雖能選出“較優(yōu)”回歸模型,但不一定是在某一準(zhǔn)則下“最優(yōu)”的。這些尚有待進(jìn)一步研究。            作者:李進(jìn)文 陳朝輝 孫燕 曾平【摘】提出一個(gè)新概念總偏回歸平方和(Pt, total partial regression sum

11、of s         本篇論文是由3COME文檔頻道的網(wǎng)友為您在網(wǎng)絡(luò)上收集整理餅投稿至本站的,論文版權(quán)屬原作者,請(qǐng)不用于商業(yè)用途或者抄襲,僅供參考學(xué)習(xí)之用,否者后果自負(fù),如果此文侵犯您的合法權(quán)益,請(qǐng)聯(lián)系我們?!緟⒖嘉墨I(xiàn)】1 孫振球,徐勇勇醫(yī)學(xué)統(tǒng)計(jì)學(xué)第1版北京:人民衛(wèi)生出版社,2002,2422512 高惠璇統(tǒng)計(jì)計(jì)算第1版北京:北京大學(xué)出版社,2005,3133243 柳青,主編中國醫(yī)學(xué)統(tǒng)計(jì)百科全書(多元統(tǒng)計(jì)分冊(cè))第1版北京:人民衛(wèi)生出版社,2004,2631.4 黃小蘭比較幾種挑選“最優(yōu)”回歸模型的指標(biāo)中國衛(wèi)生統(tǒng)計(jì),1988,5(4):235 Qu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論