衛(wèi)生統(tǒng)計學-11 -多重線性回歸分析_第1頁
衛(wèi)生統(tǒng)計學-11 -多重線性回歸分析_第2頁
衛(wèi)生統(tǒng)計學-11 -多重線性回歸分析_第3頁
衛(wèi)生統(tǒng)計學-11 -多重線性回歸分析_第4頁
衛(wèi)生統(tǒng)計學-11 -多重線性回歸分析_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

11多重線性回歸分析身高:不僅受到遺傳因素的影響,而且還受到營養(yǎng)狀況、體育鍛煉情況、居住環(huán)境因素的作用;血壓:除了與年齡有關外,還與家族史、飲食習慣、勞動強度等因素有關。生物醫(yī)學研究領域中多因素相互作用現(xiàn)象非常普遍…問題:在影響疾病眾多因素中,哪些是主要因素?各個因素作用有多大?由于涉及到的自變量X的增多,變量間的關系變的復雜?多重線性回歸:是研究一個因變量和多個自變量之間線性關系的統(tǒng)計學分析方法。目的:用回歸方程的方式定量地描述一個因變量Y和多個自變量X1、X2、

X3、…

、Xp

之間的線性依存關系?;貧w分析1個因變量Y1個自變量X2個以上自變量XY是數(shù)值變量Y是分類型變量兩個因變量(結局分類變量+時間)生存分析Cox回歸④簡單回歸SimpleregressionLogistic回歸Logistic

regression多重回歸Multipleregression①②③常用的回歸分析中分類:曲線回歸線性回歸

自變量X因變量Y

統(tǒng)計方法單因單果1個1個簡單線性相關simplelinearcorrelation簡單線性回歸simplelinearregression多因單果多個1個多重相關multiplecorrelation多重回歸multipleregression多因多果多個多個典則相關cononicalcorrelation多元回歸multivariateregression單因單果(扣除其它變量影響)1個1個部分偏相關partialcorrelation概念區(qū)分:11.1多重線性回歸的概述例12-1:試對大氣污染一氧化氮(NO)的濃度和汽車流量、氣溫、氣濕、風速等的關系進行回歸分析。車流量、氣溫、氣濕、風速4因素是否都對空氣中NO的濃度有影響?如何定量地描述這種影響?哪個因素對NO的影響最大?哪個因素影響的最小?如何利用這些影響因素去預測空氣中NO的濃度?如何預測?效果如何?如果想在控制氣溫、氣濕和風速的條件下,如何定量地描述NO濃度與車流量的關系?多重線性回歸擬回答以下問題:1.多重線性回歸適用條件僅適用于1個應變量y和多個自變量x。要求1個應變量y和該組因變量x間滿足線性、獨立性、正態(tài)性、方差齊性的要求。注意樣本中的極端值,必要時可剔除或進行變量變換。多重線性回歸(multiplelinarregression)稱為y的預測值,指對于某個確定x的群體,y平均值的估計。b0:常數(shù)項(constant),截距(intercept);即所有自變量x取值均為0時,y的平均估計值。bi:變量xi的偏回歸系數(shù)(partialregressioncoefficient),是總體參數(shù)βi

的估計值;指在方程中其它自變量固定不變的情況下,xi每增加或減少一個計量單位,反應變量Y平均變化bi個單位。2.模型的基本結構:回歸系數(shù)的標準化:問題:對NO濃度的貢獻,哪個因素作用的大一點,哪個小一些?2.求標準化偏回歸系數(shù):用標準化的數(shù)據(jù)進行回歸模型的擬合,算出它的方程,此時所獲得的偏回歸系數(shù)b’,叫~。1.自變量數(shù)據(jù)的標準化:b’無單位,可用來比較各個自變量對反應變量的貢獻大小未標準化的回歸系數(shù)(偏回歸系數(shù)):用來構建回歸方程,即方程中各自變量的斜率。標準化的回歸系數(shù):用于綜合評價各解釋變量對因變量Y的貢獻大小,標準化的回歸系數(shù)越大,說明X對Y的影響幅度越大。比較:3.多重線性回歸分析的基本步驟:

估計b0、b1、b2

…、bP最小二乘法回歸方程和系數(shù)β的假設檢驗列出回歸方程,統(tǒng)計應用方差分析和t檢驗預測和控制、影響因素分析關聯(lián)趨勢的圖形考察確定變量篩選的方法數(shù)據(jù)預處理:強影響點用多重共線性模型診斷:殘差分析是否適合該模型(Line)建模準備散點圖、散點圖矩陣、重疊/三維散點圖回歸參數(shù)的估計:最小二乘估計

(leastsquareestimation)兩個自變量時回歸平面示意圖用最小二乘法擬合直線,使得反應變量觀測值Yi與回歸方程求得估計值之間的殘差(樣本點到直線的垂直距離)平方和達到最小。

.

通過SPSS等統(tǒng)計軟件,擬合X1、X2、X3、X4關于空氣中NO濃度的多重線性回歸方程,得:還需要解決的三個問題:就總體而言,這種回歸關系是否存在?即總體回歸方程是否成立?回歸方程的效果如何?也即這四個變量能解釋反應變量Y的百分比是多少?四個自變量是否對反應變量Y的影響都有意義?統(tǒng)計推斷——假設檢驗假設檢驗回歸方程的假設檢驗(modeltest):回歸系數(shù)的假設檢驗:目的:檢驗求得的回歸方程在總體中是否成立,即是否至少有一個βi≠0;方法:單因素方差分析。目的:即檢驗各個偏回歸體系數(shù)βi是否為0;方法:t檢驗。統(tǒng)計推斷:(1)回歸方程的假設檢驗:總的來說,若該回歸方程成立,則這些回歸系數(shù)里面至少有一個不為0,只要有一個不為0,這個方程來說總的就是成立的。H0:β1=β2=β3=…=βi=0H1:至少有一個

βi≠0(2)對各個回歸系數(shù)進行假設檢驗問題:通過假設檢驗方程總的來說成立,1.即至少有1個βi不為0,但到底哪些為0,哪些不為0?2.再者,即使總體回歸系數(shù)為零,也可能得到樣本偏回歸系數(shù)不為0的情況。方法:t檢驗回歸方程的解釋:

—這3個因素對空氣中NO濃度(污染)的影響有多大?

1.確定系數(shù)(coefficientofdetermination,R2)

2.復相關系數(shù)(multiplecorrelationcoefficient,R)1.確定系數(shù)(coefficientofdetermination,R2)或決定系數(shù):回歸平方和與總平方和之比。反映了一組自變量X對回歸效果的貢獻,即Y的總變異中回歸關系所能解釋的百分比(varianceaccountformula,VAF);反映了回歸模型的擬合效果,可作為反應擬合優(yōu)度(goodnessoffit)的指標。本題:2.復相關系數(shù)(multiplecorrelationcoefficient,R)定義:為確定系數(shù)R2的算術平方根。反映了隨機變量Y與一組自變量X對(X1,X2,…,Xp)之間的線性相關程度,即Y和該組自變量的密切程度。本題:【電腦實現(xiàn)】

—SPSS1.數(shù)據(jù)錄入多重線性回歸分析:2.SPSS過程【Method】(自變量的選入方法)Enter(強行進入法)Stepwise(逐步法)Remove(強制剔除法)Backward(向后法)Forward(向前法)自變量篩選方法的選擇:【Statistics】RegressionCoefficients:回歸系數(shù)Estimate:非標準化及標準化回歸系數(shù)β、標準誤,及其顯著性檢驗結果(t值和P值)。Confidenceintervals:非標準化回歸系數(shù)的95%可信區(qū)間。Modelfit:模型擬合優(yōu)度檢驗,給出復相關系數(shù)R,決定系數(shù)R2,調整R2及方差分析結果Rsquaredchange:每剔出或引入一個自變量所引趨同的R2的變化量及相應的F值和P值。Descriptives:輸出每個變量的均數(shù)、標準差,樣本容量,相關系數(shù)及單側檢驗P值的矩陣。Partandpartialcorrelations:簡單相關系數(shù)及偏相關系數(shù)。Collinearitydiagnostics:輸出共線性診斷的統(tǒng)計量。Residuals:用于選擇輸出殘差診斷的信息Allcases:給出所有觀察單位的殘差、標準化殘差和預測值。3.結果及結果輸出:

決定系數(shù)越大,說明構建的回歸方程越好⑴Enter:強制引入法⑵

未標準化的回歸系數(shù)及標準誤回歸系數(shù)的t檢驗標準化的回歸系數(shù)11.2自變量篩選收集資料時,涉及的自變量很多有些可能存在較大的測量誤差;利用自變量篩選的準則和方法,產生“最優(yōu)變量”子集,從而建立預測效果的最優(yōu)模型。有些自變量對反應變量無影響或影響甚微;有的變量可能與其它的自變量存在高度的相關性——共線性α1:設為入選標準;α2設為剔除標準自變量篩選的常用方法:⑵后退法(backwardregression)⑴前進法(forwardregression)⑶逐步法(stepwiseregression)

⑷最優(yōu)子集回歸法(optimunsubsetsregression)【Method】(自變量的選入方法)Enter(強行進入法)Stepwise(逐步法)Remove(強制剔除法)Backward(向后法)Forward(向前法)自變量篩選方法的選擇:3.結果及結果輸出:

決定系數(shù)越大,說明構建的回歸方程越好。⑴STEPWISE:逐步回歸方程的決定系數(shù)

⑵STEPWISE:逐步回歸方程的方差分析表

未標準化的回歸系數(shù)及標準誤回歸系數(shù)的t檢驗標準化的回歸系數(shù)⑶STEPWISE:逐步回歸方程的參數(shù)估計

回歸分析結果:2.影響因素分析:根據(jù)SPSS輸出結果,可以認為車流量、氣溫和風速是影響空氣中NO濃度的主要因素:當氣溫、風速保持不變的情況下,車流量增加1千輛,估計NO濃度平均升高0.116×10-6;當車流量、風速保持不變的情況下,氣溫上升1℃,估計NO濃度平均升高0.004×10-6;當車流量、氣溫保持不變的情況下,風速增加1m/s,估計NO濃度平均減少0.035×10-6。3.根據(jù)標準化偏回歸系數(shù),認為作用車流量>氣溫>風速。4.根據(jù)確定系數(shù),方程3因素可解釋污染變異的78.7%。1.回歸方程稱為y的預測值,指對于某個確定x的群體,y平均值的估計。b0:常數(shù)項(constant),截距(intercept);即所有自變量x取值均為0時,y的平均估計值。bi:變量xi的偏回歸系數(shù)(partialregressioncoefficient),指在方程中其它自變量固定不變的情況下,xi每增加或減少一個計量單位,反應變量Y平均變化bi個單位。5.多重共線性分析的注意事項:11多重線性回歸分析回歸分析1個因變量Y1個自變量X2個以上自變量XY是數(shù)值變量Y是分類型變量兩個因變量(結局分類變量+時間)生存分析Cox回歸④簡單回歸SimpleregressionLogistic回歸Logistic

regression多重回歸Multipleregression①②③引子:回歸分析曲線回歸線性回歸回歸分析簡單線性:多重線性:logistic回歸線性回歸只1個X:

(簡單)多個X:11.3多重線性回歸的

前提條件及注意事項2.多重線性回歸分析的注意事項:1.前提條件和殘差分析—模型假設診斷2.多重共線性的問題3.啞變量的設置4.交互作用11.3.2線性回歸分析的前題條件:線性(linear)獨立性(independent)正態(tài)性(normal)等方差性(equalvariance)線性回歸分析的前題條件linenormal正態(tài)性equalvariance等方差性反應變量Y的總體平均值與自變量組合之間呈線性關系在一定范圍內任意給定各個X值,則反應變量Y服從正態(tài)分布在一定范圍內,對應于不同X值,Y總體變異保持不變linear線性independent獨立性指任意兩個觀察值互相獨立1.線性和方差齊性:殘差散點圖residualplot模型假設診斷:LINE散點均勻分布在以0為中心,與橫軸平行的帶狀區(qū)域內,可以認為基本滿足線性和方差齊性的假定條件。散點呈現(xiàn)曲線趨勢,提示資料不滿足線性的假定。散點隨預測值的變化而變化,提示資料不滿足方差齊性的假定。散點隨預測值的變化而變化且呈曲線趨勢,提示資料不滿足線性和方差齊性的假定。SPSS電腦實現(xiàn)3.線性和方差齊性檢驗結果—殘差散點圖:

散點均勻分布在以0為中心,與橫軸平行的帶狀區(qū)域內,可認為基本滿足線性和方差齊性的假定條件。2.正態(tài)性:殘差圖residualplot

或正態(tài)概率圖提示殘差滿足正態(tài)分布3.獨立性:應用殘差圖或Durbin-Watson統(tǒng)計量判斷Durbin-Watson統(tǒng)計量的取值一般在0-4之間,如果殘差之間相互獨立,則取值在2左右,如果取值接近0或4,則提示不滿足獨立性。SPSS電腦實現(xiàn)3.獨立性檢驗:

若殘差之間相互獨立,則取值在2左右。如果資料不滿足LINE的前提條件:1.不滿足線性條件修改模型或采用曲線擬合;2.不滿足正態(tài)性、方差齊性條件變量變換:包括對數(shù)變換、平方根變換、倒數(shù)變換等;3.不滿足方差齊性:采用其它方法估計偏回歸系數(shù)。11.3.3多重共線性在進行多重線性回歸分析時,除了要滿足LINE外,還要求各變量之間不能存在共線性,即各變量之間要相互獨立。為此,需要進行共線性診斷;當自變量均為隨機變量時,若它們之間高度相關,則稱變量間存在多重共線性(multicollinearity);自變量之間不存在多重共線性,即稱其互相獨立。例11-2

研究胎兒受精齡Y/周與胎兒身長X1/cm、頭圍X2/cm,體重X3/g之間的依存關系。顯然,此處的3個解釋變量X1、X2、X3之間存在著高度的共線性,X1、X2、X3兩項對Y的過分貢獻只能用X2項的負系數(shù)抵消,造成其專業(yè)意義無法解釋而出現(xiàn)悖論。相關系數(shù)Correlation容忍度

Torelance方差膨脹因子

VIF條件數(shù)Conditionindex方差比例Varianceproportions,VP

方差相關矩陣VarianceMatrix可用來判斷變量之間的獨立性、或說多重共線性如果兩個自變量之間的相關系數(shù)超過0.9,則會帶來共線性問題,如果在0.8以下,一般不會出現(xiàn)多大問題。共線性診斷——1.兩個自變量之間的相關系數(shù)2.容忍度

Tolerance/方差膨脹因子

VIF容忍度=1/VIF經驗表明:VIF大于5或10時,存在嚴重的共線性;一般要求Tolerance必須大于0.1,或VIF必須小于10。3.條件數(shù)conditionindex/方差比例varianceproportions,VP

一般地,當條件數(shù)大于10,且有兩個以上的自變量對應的方差比例大于0.5時,可以認為這些自變量是嚴重相關的。

當模型診斷發(fā)現(xiàn)了共線性,應如何處理?刪除變量:根據(jù)偏相關系數(shù)大小,去掉其中一個對因變量影響最小的自變量,或根據(jù)方差比例(VP)的大小,去掉VP值大的自變量,重新作共線性檢查,直至多重共線性不存在為止;通徑分析最好的方法采用主成分回歸方法。4.啞變量的設置自變量X的數(shù)據(jù)類型數(shù)值變量分類變量二分類多分類有序多分類無序多分類等距不等距將有序變量或無序多分類變量轉換為多個二分類變量的過程稱為“啞元化”(dummying),得到的多個二分類變量稱為“啞變量”(dummyvariable)例:這種將k個多項無序分類轉化為k-1個二分類變量的過程叫分類變量的啞變量化,主要用在多因素分析,如多重線性回歸、Logistic回歸分析中。血型3個啞變量X1X2X3A100B010AB001O000參考類/參考變量表11-5用3個二分類的啞變量描述血型5.交互作用多重線線性回歸中,要注意自變量間是否存在交互作用;可通過引入新的自變量的方法,判斷兩個或多個原自變量間是否存在交互作用;如果存在交互作用,在模型中應納入交互相,在結果解釋時要考慮交互作用的影響。小結多重線性回歸用于研究一個反應變量與多個自變量之間的線性依存關系,常用于篩選危險因素、控制混雜因素、分析交互作用、預測和控制等。其前提條件是LINE,常常用殘差分析的方法考察資料是否滿足這4個條件;如不滿足,可嘗試變量變換,或更換回歸方程。其估計方程參數(shù)依據(jù)的是最小二乘法原則。偏回歸系數(shù)的含義是當其他自變量的取值固定時,自變量每改變一個單位,反應變量的平均改變的單位數(shù)。原始偏回歸系數(shù)用于構建回歸方程,標準化偏回歸系數(shù)用于比較自變量對反應變量的貢獻大小。確定系數(shù)和調整確定系數(shù)用于說明模型中自變量解釋變量的百分比,可用來評價方程擬合效果的好壞。復相關系數(shù)可用來說明某一個變量與多個變量的線性相關程度。變量篩選的目的是使議程盡量保留對回歸貢獻較大的重要變量而排除對回歸貢獻小的變量,以期用盡量簡潔的模型達到盡可能高的估計精度。當自變量存在較強的相關性的時候,回歸模型會出現(xiàn)多重共線性的現(xiàn)象,使得模型參數(shù)估計不穩(wěn)定或不易解釋。案例討論

預測人體吸入氧氣的效率。為了解和預測人體吸入氧氣的效率,某人收集了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論