生物醫(yī)學(xué)研究統(tǒng)計(jì)方法課件:第11章 多重線性回歸分析_第1頁
生物醫(yī)學(xué)研究統(tǒng)計(jì)方法課件:第11章 多重線性回歸分析_第2頁
生物醫(yī)學(xué)研究統(tǒng)計(jì)方法課件:第11章 多重線性回歸分析_第3頁
生物醫(yī)學(xué)研究統(tǒng)計(jì)方法課件:第11章 多重線性回歸分析_第4頁
生物醫(yī)學(xué)研究統(tǒng)計(jì)方法課件:第11章 多重線性回歸分析_第5頁
已閱讀5頁,還剩72頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、11 11 多重線性回歸分析多重線性回歸分析n身高身高:不僅受到:不僅受到遺傳因素遺傳因素的影響,而且還受到的影響,而且還受到營養(yǎng)狀營養(yǎng)狀況況、體育鍛煉情況體育鍛煉情況、居住環(huán)境因素居住環(huán)境因素的作用;的作用;n血壓血壓:除了與:除了與年齡年齡有關(guān)外,還與有關(guān)外,還與家族史家族史、飲食習(xí)慣飲食習(xí)慣、勞動強(qiáng)度勞動強(qiáng)度等因素有關(guān)。等因素有關(guān)。生物醫(yī)學(xué)研究領(lǐng)域中多因素相互作用現(xiàn)象非常普遍生物醫(yī)學(xué)研究領(lǐng)域中多因素相互作用現(xiàn)象非常普遍問題:問題:在影響疾病眾多因素中,哪些是主要因素?在影響疾病眾多因素中,哪些是主要因素?各個(gè)因素作用有多大?各個(gè)因素作用有多大?由于涉及到的自變量由于涉及到的自變量 X 的

2、增多,變量間的關(guān)系的增多,變量間的關(guān)系變的復(fù)雜變的復(fù)雜?多重線性回歸:多重線性回歸:是研究一個(gè)因變量和多個(gè)自變量是研究一個(gè)因變量和多個(gè)自變量之間線性關(guān)系的統(tǒng)計(jì)學(xué)分析方法。之間線性關(guān)系的統(tǒng)計(jì)學(xué)分析方法。目的目的:用回歸方程的方式定量地描述一個(gè)因變量用回歸方程的方式定量地描述一個(gè)因變量Y 和和多個(gè)自變量多個(gè)自變量X1、 X2、 X3、 、Xp 之間之間 的線性依存關(guān)的線性依存關(guān)系系?;貧w分析回歸分析1個(gè)因變量個(gè)因變量Y1個(gè)自變量個(gè)自變量X 2個(gè)以上自變量個(gè)以上自變量XY是數(shù)值是數(shù)值變量變量Y是分類是分類型變量型變量兩個(gè)因變量兩個(gè)因變量(結(jié)局分類變量(結(jié)局分類變量+時(shí)間)時(shí)間)生存分析生存分析Cox

3、回歸回歸簡單回歸簡單回歸Simple regression Logistic 回歸回歸Logistic regression 多重回歸多重回歸Multiple regression 常用的回歸分析中分類:常用的回歸分析中分類:曲線回歸線性回歸線性回歸 自變量自變量X 因變量因變量Y 統(tǒng)計(jì)方法統(tǒng)計(jì)方法單因單果單因單果1個(gè)個(gè)1個(gè)個(gè)簡單線性相關(guān)簡單線性相關(guān)simple linear correlation簡單線性回歸簡單線性回歸simple linear regression多因單果多因單果多個(gè)多個(gè)1個(gè)個(gè)多重相關(guān)多重相關(guān)multiple correlation多重回歸多重回歸multiple reg

4、ression多因多果多因多果多個(gè)多個(gè)多個(gè)多個(gè)典則相關(guān)典則相關(guān)cononical correlation多元回歸多元回歸multivariate regression單因單果單因單果(扣除其它變量影響扣除其它變量影響)1個(gè)個(gè)1個(gè)個(gè)部分偏相關(guān)部分偏相關(guān)partial correlation概念區(qū)分:概念區(qū)分:11.1 11.1 多重線性回歸的概述多重線性回歸的概述例例12-1 :試對大氣污染一氧化氮(:試對大氣污染一氧化氮(NO)的濃度和汽)的濃度和汽車流量、氣溫、氣濕、風(fēng)速等的關(guān)系進(jìn)行回歸分析。車流量、氣溫、氣濕、風(fēng)速等的關(guān)系進(jìn)行回歸分析。n 車流量、氣溫、氣濕、風(fēng)速車流量、氣溫、氣濕、風(fēng)速4

5、因素是否都對空氣中因素是否都對空氣中NO的濃度有影響?的濃度有影響?n 如何定量地描述這種影響?如何定量地描述這種影響?n 哪個(gè)因素對哪個(gè)因素對NO的影響最大?哪個(gè)因素影響的最???的影響最大?哪個(gè)因素影響的最?。縩 如何利用這些影響因素去預(yù)測空氣中如何利用這些影響因素去預(yù)測空氣中NO的濃度?如的濃度?如何預(yù)測?效果如何?何預(yù)測?效果如何?n 如果想在控制氣溫、氣濕和風(fēng)速的條件下,如何定如果想在控制氣溫、氣濕和風(fēng)速的條件下,如何定量地描述量地描述NO濃度與車流量的關(guān)系?濃度與車流量的關(guān)系?多重線性回歸多重線性回歸擬回答以下問題:擬回答以下問題:1. 多重線性回歸適用條件多重線性回歸適用條件u僅適

6、用于僅適用于1個(gè)應(yīng)變量個(gè)應(yīng)變量 y和和多個(gè)自變量多個(gè)自變量 x。u要求要求1個(gè)應(yīng)變量個(gè)應(yīng)變量 y和和該組因變量該組因變量 x 間滿足間滿足線性線性、獨(dú)立性獨(dú)立性、正態(tài)性正態(tài)性、方差齊性方差齊性的要求。的要求。u注意樣本中的極端值,必要時(shí)可剔除或進(jìn)行變注意樣本中的極端值,必要時(shí)可剔除或進(jìn)行變量變換。量變換。多重線性回歸多重線性回歸(multiple linar regression) 稱稱 為為y 的預(yù)測值,指對于某個(gè)確定的預(yù)測值,指對于某個(gè)確定x的群體,的群體,y 平平均值的估計(jì)。均值的估計(jì)。 b0:常數(shù)項(xiàng)常數(shù)項(xiàng)(constant),截距,截距 ( intercept );即所有自變;即所有自

7、變量量x 取值均為取值均為0時(shí),時(shí),y的平均估計(jì)值。的平均估計(jì)值。bi:變量:變量xi的偏回歸系數(shù)的偏回歸系數(shù)(partial regression coefficient),是總體參數(shù)是總體參數(shù)i 的估計(jì)值;的估計(jì)值;指在方程中其它自變量固定指在方程中其它自變量固定不變的情況下,不變的情況下, xi 每增加或減少一個(gè)計(jì)量單位,反應(yīng)每增加或減少一個(gè)計(jì)量單位,反應(yīng)變量變量Y 平均變化平均變化 bi個(gè)單位。個(gè)單位。2. 模型的基本結(jié)構(gòu):模型的基本結(jié)構(gòu):ppXbXbXbbY.22110ppYXXX.22110回歸系數(shù)的標(biāo)準(zhǔn)化:回歸系數(shù)的標(biāo)準(zhǔn)化:問題:對問題:對NO濃度的貢獻(xiàn),哪個(gè)因素作用的大一點(diǎn),濃

8、度的貢獻(xiàn),哪個(gè)因素作用的大一點(diǎn), 哪個(gè)小一些?哪個(gè)小一些?2.求求標(biāo)準(zhǔn)化偏回歸系數(shù)標(biāo)準(zhǔn)化偏回歸系數(shù): 用標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行回歸模型的擬合,算出它的方程,用標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行回歸模型的擬合,算出它的方程,此時(shí)所獲得的偏回歸系數(shù)此時(shí)所獲得的偏回歸系數(shù)b,叫叫。iiiiSXXX1.自變量數(shù)據(jù)的標(biāo)準(zhǔn)化:自變量數(shù)據(jù)的標(biāo)準(zhǔn)化:ppXbXbXbbY.22110b無單位,可用來比較各個(gè)自變量對反應(yīng)變量的貢獻(xiàn)大小無單位,可用來比較各個(gè)自變量對反應(yīng)變量的貢獻(xiàn)大小n未標(biāo)準(zhǔn)化的回歸系數(shù)未標(biāo)準(zhǔn)化的回歸系數(shù)(偏回歸系數(shù)):用來構(gòu)建回歸(偏回歸系數(shù)):用來構(gòu)建回歸方程,即方程中各自變量的斜率。方程,即方程中各自變量的斜率。n標(biāo)

9、準(zhǔn)化的回歸系數(shù)標(biāo)準(zhǔn)化的回歸系數(shù):用于綜合評價(jià)各解釋變量對因變:用于綜合評價(jià)各解釋變量對因變量量Y的貢獻(xiàn)大小,標(biāo)準(zhǔn)化的回歸系數(shù)越大,說明的貢獻(xiàn)大小,標(biāo)準(zhǔn)化的回歸系數(shù)越大,說明X對對Y 的影響幅度越大。的影響幅度越大。比較:比較:3. 多重線性回歸分析的基本步驟:多重線性回歸分析的基本步驟: 估計(jì)估計(jì)b0、 b1、 b2 、bP最小二乘法最小二乘法回歸方程和系數(shù)回歸方程和系數(shù) 的假設(shè)檢驗(yàn)的假設(shè)檢驗(yàn)列出回歸方程,統(tǒng)計(jì)應(yīng)用列出回歸方程,統(tǒng)計(jì)應(yīng)用方差分析和方差分析和 t 檢驗(yàn)檢驗(yàn)ppXbXbXbbY.22110預(yù)測和控制、影響因素分析預(yù)測和控制、影響因素分析關(guān)聯(lián)趨勢的圖形考察關(guān)聯(lián)趨勢的圖形考察u確定變量

10、篩選的方法確定變量篩選的方法u數(shù)據(jù)預(yù)處理:強(qiáng)影響點(diǎn)用多重共線性數(shù)據(jù)預(yù)處理:強(qiáng)影響點(diǎn)用多重共線性u模型診斷:殘差分析是否適合該模型(模型診斷:殘差分析是否適合該模型(Line)建模準(zhǔn)備建模準(zhǔn)備散點(diǎn)圖、散點(diǎn)圖矩陣、散點(diǎn)圖、散點(diǎn)圖矩陣、重疊重疊/三維散點(diǎn)圖三維散點(diǎn)圖回歸參數(shù)的估計(jì):回歸參數(shù)的估計(jì):最小二乘估計(jì)最小二乘估計(jì) (least square estimation)兩個(gè)自變量時(shí)回歸平面示意圖兩個(gè)自變量時(shí)回歸平面示意圖v用最小二乘法擬合直用最小二乘法擬合直線,使得線,使得反應(yīng)變量觀測反應(yīng)變量觀測值值Yi與與回歸方程求得估回歸方程求得估計(jì)值計(jì)值 之間的之間的殘差殘差(樣(樣本點(diǎn)到直線的垂直距離本點(diǎn)

11、到直線的垂直距離)平方和平方和達(dá)到最小。達(dá)到最小。 . Y 通過通過SPSS等統(tǒng)計(jì)軟件等統(tǒng)計(jì)軟件,擬合,擬合X1、X2 、X3 、X4關(guān)于空關(guān)于空氣中氣中NO濃度的多重線性回歸方程,得:濃度的多重線性回歸方程,得:43621035. 01055. 6004. 0116. 0142. 0XXXXY 還需要解決的三個(gè)問題:還需要解決的三個(gè)問題:n就總體而言,這種回歸關(guān)系是否存在?即總體回歸方程就總體而言,這種回歸關(guān)系是否存在?即總體回歸方程是否成立?是否成立?n回歸方程的效果如何?也即這四個(gè)變量能解釋反應(yīng)變量回歸方程的效果如何?也即這四個(gè)變量能解釋反應(yīng)變量Y的百分比是多少?的百分比是多少?n四個(gè)自

12、變量是否對反應(yīng)變量四個(gè)自變量是否對反應(yīng)變量Y的影響都有意義?的影響都有意義? 統(tǒng)計(jì)推斷統(tǒng)計(jì)推斷假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)回歸方程的假設(shè)檢驗(yàn)回歸方程的假設(shè)檢驗(yàn)(model test):):回歸系數(shù)的假設(shè)檢驗(yàn):回歸系數(shù)的假設(shè)檢驗(yàn):目的:檢驗(yàn)求得的回歸方程在總體中是目的:檢驗(yàn)求得的回歸方程在總體中是否成立,即是否至少有一個(gè)否成立,即是否至少有一個(gè)i 0;方法:單因素方差分析。方法:單因素方差分析。目的:即檢驗(yàn)各個(gè)偏回歸體系數(shù)目的:即檢驗(yàn)各個(gè)偏回歸體系數(shù)i是是否為否為0;方法:方法:t 檢驗(yàn)。檢驗(yàn)。統(tǒng)計(jì)推斷:統(tǒng)計(jì)推斷:(1) 回歸方程的假設(shè)檢驗(yàn):回歸方程的假設(shè)檢驗(yàn):總的來說,若該回歸方程成立,則

13、這些回歸系數(shù)里總的來說,若該回歸方程成立,則這些回歸系數(shù)里面至少有一個(gè)不為面至少有一個(gè)不為0,只要有一個(gè)不為,只要有一個(gè)不為0,這個(gè)方程,這個(gè)方程來說總的就是成立的。來說總的就是成立的。ppXbXbXbbY.22110H0:1=2=3=i=0H1:至少有一個(gè):至少有一個(gè) i 0(2)對各個(gè)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn))對各個(gè)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn) 問題:問題:通過假設(shè)檢驗(yàn)方程總的來說成立,通過假設(shè)檢驗(yàn)方程總的來說成立,1.即至少有即至少有1個(gè)個(gè)i 不為不為0,但到底哪些為,但到底哪些為0,哪些不為,哪些不為0?2.再者,即使總體回歸系數(shù)為零,也可能得到樣本再者,即使總體回歸系數(shù)為零,也可能得到樣本 偏回

14、歸系數(shù)不為偏回歸系數(shù)不為0的情況。的情況。方法:方法:t 檢驗(yàn)檢驗(yàn)回歸方程的解釋回歸方程的解釋: 這這3個(gè)因素對空氣中個(gè)因素對空氣中NO濃度濃度(污染污染)的影響有多大?的影響有多大? 1. 確定系數(shù)確定系數(shù)(coefficient of determination ,R2 ) 2. 復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù)(multiple correlation coefficient,R)1. 確定系數(shù)確定系數(shù)(coefficient of determination,R2)或或決定決定系數(shù)系數(shù):回歸平方和與總平方和之比?;貧w平方和與總平方和之比。u反映了一組自變量反映了一組自變量X對回歸效果的貢獻(xiàn),即對回

15、歸效果的貢獻(xiàn),即Y 的總變異的總變異中回歸關(guān)系所能解釋的百分比(中回歸關(guān)系所能解釋的百分比(variance account formula, VAF););u反映了回歸模型的擬合效果,可作為反應(yīng)擬合優(yōu)度反映了回歸模型的擬合效果,可作為反應(yīng)擬合優(yōu)度(goodness of fit)的指標(biāo))的指標(biāo)。本題:本題:787. 0081. 0064. 02總回歸SSSSR總殘差總回歸SSSSSSSSR122.復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù)( multiple correlation coefficient,R) 定義:為確定系數(shù)定義:為確定系數(shù)R2的算術(shù)平方根。的算術(shù)平方根。 u反映了隨機(jī)變量反映了隨機(jī)變量Y與一

16、組自變量與一組自變量X對(對(X1,X2,Xp) 之間的線性相關(guān)程度,即之間的線性相關(guān)程度,即Y 和該組自變量的密切程度。和該組自變量的密切程度。本題:本題:887. 0787. 0總回歸SSSSR總回歸SSSSR 【電腦實(shí)現(xiàn)電腦實(shí)現(xiàn)】SPSS1.數(shù)據(jù)錄入數(shù)據(jù)錄入多重線性回歸分析:多重線性回歸分析:2. SPSS過程過程【Method】(自變量的選入方法)(自變量的選入方法)1. Enter(強(qiáng)行進(jìn)入法)(強(qiáng)行進(jìn)入法)2. Stepwise(逐步法)(逐步法)3. Remove(強(qiáng)制剔除法)(強(qiáng)制剔除法)4. Backward(向后法)(向后法)5. Forward(向前法)(向前法) 自變量

17、篩選方法的選擇:自變量篩選方法的選擇:【Statistics 】Regression Coefficients:回歸系數(shù):回歸系數(shù)nEstimate:非標(biāo)準(zhǔn)化及標(biāo)準(zhǔn)化回歸系數(shù):非標(biāo)準(zhǔn)化及標(biāo)準(zhǔn)化回歸系數(shù)、標(biāo)準(zhǔn)誤,及其顯、標(biāo)準(zhǔn)誤,及其顯著性檢驗(yàn)結(jié)果(著性檢驗(yàn)結(jié)果(t值和值和P值)。值)。nConfidence intervals:非標(biāo)準(zhǔn)化回歸系數(shù)的:非標(biāo)準(zhǔn)化回歸系數(shù)的95%可信區(qū)間??尚艆^(qū)間。nModel fit:模型擬合優(yōu)度檢驗(yàn),給出復(fù)相關(guān)系數(shù):模型擬合優(yōu)度檢驗(yàn),給出復(fù)相關(guān)系數(shù)R,決定系,決定系數(shù)數(shù)R2,調(diào)整,調(diào)整R2及方差分析結(jié)果及方差分析結(jié)果 nR squared change:每剔出或引入

18、一個(gè)自變量所引趨同的:每剔出或引入一個(gè)自變量所引趨同的R2的變化量及相應(yīng)的的變化量及相應(yīng)的F值和值和P值。值。nDescriptives:輸出每個(gè)變量的均數(shù)、標(biāo)準(zhǔn)差,樣本容量,:輸出每個(gè)變量的均數(shù)、標(biāo)準(zhǔn)差,樣本容量,相關(guān)系數(shù)及單側(cè)檢驗(yàn)相關(guān)系數(shù)及單側(cè)檢驗(yàn)P值的矩陣。值的矩陣。 nPart and partial correlations:簡單相關(guān)系數(shù)及偏相關(guān)系數(shù)。:簡單相關(guān)系數(shù)及偏相關(guān)系數(shù)。nCollinearity diagnostics:輸出共線性診斷的統(tǒng)計(jì)量。:輸出共線性診斷的統(tǒng)計(jì)量。Residuals:用于選擇輸出殘差診斷的信息:用于選擇輸出殘差診斷的信息All cases:給出所:給出

19、所有觀察單位的殘差、標(biāo)準(zhǔn)化殘差和預(yù)測值。有觀察單位的殘差、標(biāo)準(zhǔn)化殘差和預(yù)測值。3. 結(jié)果及結(jié)果輸出:結(jié)果及結(jié)果輸出: 決定系數(shù)越大,說明構(gòu)建的回歸方程越好 Enter:強(qiáng)制引入法:強(qiáng)制引入法 未標(biāo)準(zhǔn)化的未標(biāo)準(zhǔn)化的 回歸系數(shù)及標(biāo)準(zhǔn)誤回歸系數(shù)及標(biāo)準(zhǔn)誤回歸系數(shù)回歸系數(shù)的的t t檢驗(yàn)檢驗(yàn)標(biāo)準(zhǔn)化的標(biāo)準(zhǔn)化的回歸系數(shù)回歸系數(shù)4321035. 0000006. 0004. 0116. 0142. 0 xxxxy11.2 11.2 自變量篩選自變量篩選收集資料時(shí),涉收集資料時(shí),涉及的自變量很多及的自變量很多n有些可能存在較大的測量誤差;有些可能存在較大的測量誤差;利用利用自變量篩選自變量篩選的準(zhǔn)則和方法,產(chǎn)生的

20、準(zhǔn)則和方法,產(chǎn)生“最優(yōu)變量最優(yōu)變量”子集,從而建立子集,從而建立預(yù)測效果的最優(yōu)模型預(yù)測效果的最優(yōu)模型。n有些自變量對反應(yīng)變量無影響或影有些自變量對反應(yīng)變量無影響或影響甚微;響甚微;n有的變量可能與其它的自變量存在有的變量可能與其它的自變量存在高度的相關(guān)性高度的相關(guān)性共線性共線性1:設(shè)為入選標(biāo)準(zhǔn);:設(shè)為入選標(biāo)準(zhǔn);2設(shè)為剔除標(biāo)準(zhǔn)設(shè)為剔除標(biāo)準(zhǔn)自變量篩選的常用方法:自變量篩選的常用方法: 后退法(后退法(backward regression) 前進(jìn)法前進(jìn)法(forward regression) 逐步法逐步法( stepwise regression) 最優(yōu)子集回歸法最優(yōu)子集回歸法(optimun

21、subsets regression)【Method】(自變量的選入方法)(自變量的選入方法)1. Enter(強(qiáng)行進(jìn)入法)(強(qiáng)行進(jìn)入法)2. Stepwise(逐步法(逐步法)3. Remove(強(qiáng)制剔除法)(強(qiáng)制剔除法)4. Backward(向后法)(向后法)5. Forward(向前法)(向前法) 自變量篩選方法的選擇:自變量篩選方法的選擇:M Mo od de el l S Su um mm ma ar ry yd d.808a.653.637.035801.851b.725.698.032640.887c.787.755.0293871.593Model123RR SquareAd

22、justedR SquareStd. Error ofthe EstimateDurbin-WatsonPredictors: (Constant), 車流量(X1)a. Predictors: (Constant), 車流量(X1), 風(fēng)速(X4)b. Predictors: (Constant), 車流量(X1), 風(fēng)速(X4), 氣溫(X2)c. Dependent Variable: NO(Y)d. 3. 結(jié)果及結(jié)果輸出:結(jié)果及結(jié)果輸出: 決定系數(shù)越大,說明構(gòu)建的回歸方程越好。 STEPWISE:逐步回歸方程的決定系數(shù):逐步回歸方程的決定系數(shù)A AN NO OV VA Ad d.053

23、1.05341.376.000a.02822.001.08123.0592.02927.623.000b.02221.001.08123.0643.02124.687.000c.01720.001.08123RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel123Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 車流量(X1)a. Predictors: (Constant), 車流量(X1), 風(fēng)速(X4)b. Predictors:

24、(Constant), 車流量(X1), 風(fēng)速(X4), 氣溫(X2)c. Dependent Variable: NO(Y)d. STEPWISE:逐步回歸方程的方差分析表:逐步回歸方程的方差分析表C Co oe ef ff fi ic ci ie en nt ts sa a-.135.035-3.829.001-.209-.062.158.025.8086.432.000.107.210-.050.049-1.027.316-.151.051.122.027.6234.476.000.065.179-.025.011-.325-2.338.029-.048-.003-.142.058-2.

25、452.024-.263-.021.116.025.5924.699.000.065.168-.035.010-.448-3.316.003-.057-.013.004.002.2732.430.025.001.008(Constant)車流量(X1)(Constant)車流量(X1)風(fēng)速(X4)(Constant)車流量(X1)風(fēng)速(X4)氣溫(X2)Model123BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Lower BoundUpper Bound95% Confidence Interva

26、l for BDependent Variable: NO(Y)a. 未標(biāo)準(zhǔn)化的未標(biāo)準(zhǔn)化的 回歸系數(shù)及標(biāo)準(zhǔn)誤回歸系數(shù)及標(biāo)準(zhǔn)誤回歸系數(shù)回歸系數(shù)的的t t檢驗(yàn)檢驗(yàn)標(biāo)準(zhǔn)化的標(biāo)準(zhǔn)化的回歸系數(shù)回歸系數(shù) STEPWISE:逐步回歸方程的參數(shù)估計(jì):逐步回歸方程的參數(shù)估計(jì)421035. 0004. 0116. 0142. 0 xxxy 回歸分析結(jié)果回歸分析結(jié)果:421035. 0004. 0116. 0142. 0 xxxy2. 影響因素分析:根據(jù)影響因素分析:根據(jù)SPSS輸出結(jié)果,可以認(rèn)為車流輸出結(jié)果,可以認(rèn)為車流量、氣溫和風(fēng)速是影響空氣中量、氣溫和風(fēng)速是影響空氣中NO濃度的主要因素:濃度的主要因素:u當(dāng)氣

27、溫、風(fēng)速保持不變的情況下,車流量增加當(dāng)氣溫、風(fēng)速保持不變的情況下,車流量增加1千輛,估千輛,估計(jì)計(jì)NO濃度平均升高濃度平均升高0.11610-6;u當(dāng)車流量、風(fēng)速保持不變的情況下,當(dāng)車流量、風(fēng)速保持不變的情況下,氣溫上升氣溫上升1,估,估計(jì)計(jì)NO濃度平均升高濃度平均升高0.00410-6;u當(dāng)車流量、氣溫保持不變的情況下,當(dāng)車流量、氣溫保持不變的情況下,風(fēng)速增加風(fēng)速增加1m/s,估計(jì)估計(jì)NO濃度平均減少濃度平均減少0.03510-6。3. 根據(jù)標(biāo)準(zhǔn)化偏回歸系數(shù),認(rèn)為作用車流量根據(jù)標(biāo)準(zhǔn)化偏回歸系數(shù),認(rèn)為作用車流量氣溫氣溫風(fēng)速。風(fēng)速。4. 根據(jù)確定系數(shù),方程根據(jù)確定系數(shù),方程3因素可解釋污染變異的

28、因素可解釋污染變異的78.7%。1. 回歸方程回歸方程 稱稱 為為y 的預(yù)測值,指對于某個(gè)確定的預(yù)測值,指對于某個(gè)確定x的群體,的群體,y 平平均值的估計(jì)。均值的估計(jì)。 b0:常數(shù)項(xiàng)常數(shù)項(xiàng)(constant),截距,截距 ( intercept );即所有自變;即所有自變量量x 取值均為取值均為0時(shí),時(shí),y的平均估計(jì)值。的平均估計(jì)值。bi:變量:變量xi的的偏回歸系數(shù)偏回歸系數(shù)(partial regression coefficient),指在方程中其它自變量固定不變的情況下,指在方程中其它自變量固定不變的情況下, xi 每增加每增加或減少一個(gè)計(jì)量單位,反應(yīng)變量或減少一個(gè)計(jì)量單位,反應(yīng)變量Y

29、 平均變化平均變化 bi個(gè)單位。個(gè)單位。5. 多重共線性分析的注意事項(xiàng):多重共線性分析的注意事項(xiàng):回歸分析回歸分析1個(gè)因變量個(gè)因變量Y1個(gè)自變量個(gè)自變量X 2個(gè)以上自變量個(gè)以上自變量XY是數(shù)值是數(shù)值變量變量Y是分類是分類型變量型變量兩個(gè)因變量兩個(gè)因變量(結(jié)局分類變量(結(jié)局分類變量+時(shí)間)時(shí)間)生存分析生存分析Cox回歸回歸簡單回歸簡單回歸Simple regression Logistic 回歸回歸Logistic regression 多重回歸多重回歸Multiple regression 引子引子 :回歸分析:回歸分析曲線回歸線性回歸回歸回歸分析分析簡單線性簡單線性:多重線性:多重線性:l

30、ogistic回歸回歸線性回歸線性回歸iiXXXY.22110kkkkxxxxkkeexXX1101101.1ln22110或110011)-1Ln(-)-1Ln()(LneORORXY只只1個(gè)個(gè)X: (簡單簡單)多個(gè)多個(gè)X:XXeeX0011ln0或11.3 11.3 多重線性回歸的多重線性回歸的 前提條件及注意事項(xiàng)前提條件及注意事項(xiàng)2. 多重線性回歸分析的注意事項(xiàng):多重線性回歸分析的注意事項(xiàng): 1. 前提條件和殘差分析前提條件和殘差分析模型假設(shè)診斷模型假設(shè)診斷2. 多重共線性的問題多重共線性的問題3. 啞變量的設(shè)置啞變量的設(shè)置4.交互作用交互作用11.3.2 線性回歸分析的前題條件:線性回

31、歸分析的前題條件: 線性(線性(linear) 獨(dú)立性(獨(dú)立性(independent) 正態(tài)性正態(tài)性 (normal) 等方差性(等方差性(equal variance)線性回歸分析的前題條件線性回歸分析的前題條件l i n enormal正態(tài)性正態(tài)性equal variance等方差性等方差性反應(yīng)變量反應(yīng)變量Y 的的總體平均值與總體平均值與自變量組合之自變量組合之間呈線性關(guān)系間呈線性關(guān)系在一定范圍內(nèi)任在一定范圍內(nèi)任意給定各個(gè)值,意給定各個(gè)值,則反應(yīng)變量服則反應(yīng)變量服從正態(tài)分布從正態(tài)分布在一定范圍內(nèi),在一定范圍內(nèi),對應(yīng)于不同對應(yīng)于不同X值,值,Y總體變異保持總體變異保持不變不變linear線

32、性線性independent獨(dú)立性獨(dú)立性指任意兩指任意兩個(gè)觀察值個(gè)觀察值互相獨(dú)立互相獨(dú)立1. 線性和方差齊性:線性和方差齊性:殘差散點(diǎn)圖殘差散點(diǎn)圖 residual plot模型假設(shè)診斷:模型假設(shè)診斷:LINE散點(diǎn)均勻分布在以散點(diǎn)均勻分布在以0 0為中心,與橫軸平為中心,與橫軸平行的帶狀區(qū)域內(nèi),可以認(rèn)為基本滿足線行的帶狀區(qū)域內(nèi),可以認(rèn)為基本滿足線性和方差齊性的假定條件。性和方差齊性的假定條件。散點(diǎn)呈現(xiàn)曲線趨勢,提示散點(diǎn)呈現(xiàn)曲線趨勢,提示資料不滿足線性的假定。資料不滿足線性的假定。散點(diǎn)隨預(yù)測值的變化散點(diǎn)隨預(yù)測值的變化而變化,提示資料不而變化,提示資料不滿足方差齊性的假定。滿足方差齊性的假定。散點(diǎn)

33、隨預(yù)測值的變化而變化散點(diǎn)隨預(yù)測值的變化而變化且呈曲線趨勢,提示資料不且呈曲線趨勢,提示資料不滿足線性和方差齊性的假定。滿足線性和方差齊性的假定。SPSS電腦實(shí)現(xiàn)電腦實(shí)現(xiàn)3. 線性和方差齊性檢驗(yàn)結(jié)果線性和方差齊性檢驗(yàn)結(jié)果殘差散點(diǎn)圖:殘差散點(diǎn)圖: 散點(diǎn)均勻分布在以散點(diǎn)均勻分布在以0為中心,與橫軸平行的帶狀區(qū)域?yàn)橹行?,與橫軸平行的帶狀區(qū)域內(nèi),可認(rèn)為基本滿足線性和方差齊性的假定條件。內(nèi),可認(rèn)為基本滿足線性和方差齊性的假定條件。2.正態(tài)性:正態(tài)性:殘差圖殘差圖residual plot 或或正態(tài)概率圖正態(tài)概率圖提示殘差滿提示殘差滿足正態(tài)分布足正態(tài)分布3. 獨(dú)立性:獨(dú)立性: 應(yīng)用應(yīng)用殘差圖殘差圖 或或Du

34、rbin-Watson統(tǒng)計(jì)量統(tǒng)計(jì)量判斷判斷 Durbin-Watson統(tǒng)計(jì)量的取值一般在統(tǒng)計(jì)量的取值一般在0-4之之間,如果殘差之間相互獨(dú)立,則取值在間,如果殘差之間相互獨(dú)立,則取值在2左右,左右,如果取值接近如果取值接近0或或4,則提示不滿足獨(dú)立性。,則提示不滿足獨(dú)立性。SPSS電腦實(shí)現(xiàn)電腦實(shí)現(xiàn)M Mo od de el l S Su um mm ma ar ry yd d.808a.653.637.035801.851b.725.698.032640.887c.787.755.0293871.593Model123RR SquareAdjustedR SquareStd. Error of

35、the EstimateDurbin-WatsonPredictors: (Constant), 車流量(X1)a. Predictors: (Constant), 車流量(X1), 風(fēng)速(X4)b. Predictors: (Constant), 車流量(X1), 風(fēng)速(X4), 氣溫(X2)c. Dependent Variable: NO(Y)d. 3. 獨(dú)立性檢驗(yàn):獨(dú)立性檢驗(yàn): 若殘差之間相互獨(dú)立,則取值在若殘差之間相互獨(dú)立,則取值在2左右左右。如果資料不滿足如果資料不滿足LINE的前提條件:的前提條件: 1. 不滿足線性條件不滿足線性條件 修改模型或采用曲線擬合;修改模型或采用曲線擬

36、合;2. 不滿足正態(tài)性、方差齊性條件不滿足正態(tài)性、方差齊性條件 變量變換:包括對數(shù)變換、平方根變換、變量變換:包括對數(shù)變換、平方根變換、倒數(shù)變換等;倒數(shù)變換等;3. 不滿足方差齊性:不滿足方差齊性: 采用其它方法估計(jì)偏回歸系數(shù)。采用其它方法估計(jì)偏回歸系數(shù)。11.3.3 多重共線性多重共線性在進(jìn)行多重線性回歸分析時(shí),除了要滿足在進(jìn)行多重線性回歸分析時(shí),除了要滿足LINE 外,外,還還要求各變量之間不能存在共線性,即各變量之間要求各變量之間不能存在共線性,即各變量之間要相互獨(dú)立要相互獨(dú)立。為此,需要進(jìn)行共線性診斷;。為此,需要進(jìn)行共線性診斷;當(dāng)自變量均為隨機(jī)變量時(shí),若它們之間高度相關(guān),當(dāng)自變量均為

37、隨機(jī)變量時(shí),若它們之間高度相關(guān),則稱變量間存在多重共線性則稱變量間存在多重共線性(multicollinearity);自自變量之間不存在多重共線性,即稱其互相獨(dú)立。變量之間不存在多重共線性,即稱其互相獨(dú)立。例例11-2 研究胎兒受精齡研究胎兒受精齡Y/周與胎兒身長周與胎兒身長X1/cm、頭圍、頭圍 X2/cm,體重,體重X3/g之間的依存關(guān)系。之間的依存關(guān)系。321007. 0159. 2693. 1012.11XXXY顯然,此處的顯然,此處的3個(gè)解釋變量個(gè)解釋變量X1、X2、X3 之間存在著之間存在著高度的共線性,高度的共線性, X1、X2、X3 兩項(xiàng)對兩項(xiàng)對Y 的過分貢獻(xiàn)只的過分貢獻(xiàn)只能

38、用能用X2 項(xiàng)的負(fù)系數(shù)抵消,造成其專業(yè)意義無法解釋項(xiàng)的負(fù)系數(shù)抵消,造成其專業(yè)意義無法解釋而出現(xiàn)悖論。而出現(xiàn)悖論。相關(guān)系數(shù)相關(guān)系數(shù) Correlation容忍度容忍度 Torelance方差膨脹因子方差膨脹因子 VIF條件數(shù)條件數(shù) Condition index方差比例方差比例Variance proportions, VP 方差相關(guān)矩陣方差相關(guān)矩陣Variance Matrix可用來判斷變量可用來判斷變量之間的獨(dú)立性、之間的獨(dú)立性、或說多重共線性或說多重共線性C Co or rr re el la at ti io on ns s1.000.808.017.279-.680.8081.000-

39、.141.395-.568.017-.1411.000-.073.384.279.395-.0731.000-.146-.680-.568.384-.1461.000.000.468.094.000.000.255.028.002.468.255.368.032.094.028.368.247.000.002.032.247.24242424242424242424242424242424242424242424242424NO(Y)車流量(X1)氣溫(X2)氣濕(X3)風(fēng)速(X4)NO(Y)車流量(X1)氣溫(X2)氣濕(X3)風(fēng)速(X4)NO(Y)車流量(X1)氣溫(X2)氣濕(X3)風(fēng)速

40、(X4)Pearson CorrelationSig. (1-tailed)NNO(Y)車流量(X1)氣溫(X2)氣濕(X3)風(fēng)速(X4)如果兩個(gè)自變量之間的相關(guān)系數(shù)超過如果兩個(gè)自變量之間的相關(guān)系數(shù)超過0.9,則會帶來共,則會帶來共線性問題,如果在線性問題,如果在0.8以下,一般不會出現(xiàn)多大問題。以下,一般不會出現(xiàn)多大問題。共線性診斷1.兩個(gè)自變量之間的相關(guān)系數(shù)2.容忍度容忍度 Tolerance /方差膨脹因子 VIFC Co oe ef ff fi ic ci ie en nt ts sa a-.135.035-3.829.001-.209-.062.158.025.8086.432.00

41、0.107.2101.0001.000-.050.049-1.027.316-.151.051.122.027.6234.476.000.065.179.6771.477-.025.011-.325-2.338.029-.048-.003.6771.477-.142.058-2.452.024-.263-.021.116.025.5924.699.000.065.168.6701.493-.035.010-.448-3.316.003-.057-.013.5831.716.004.002.2732.430.025.001.008.8441.185(Constant)車流量(X1)(Consta

42、nt)車流量(X1)風(fēng)速(X4)(Constant)車流量(X1)風(fēng)速(X4)氣溫(X2)Model123BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Lower BoundUpper Bound95% Confidence Interval for BToleranceVIFCollinearity StatisticsDependent Variable: NO(Y)a. 容忍度容忍度 =1/VIF經(jīng)驗(yàn)表明:經(jīng)驗(yàn)表明:VIF大于大于5或或10時(shí),存在嚴(yán)重的共線性;一時(shí),存在嚴(yán)重的共線性;一般要求般

43、要求Tolerance必須大于必須大于0.1,或,或 VIF必須小于必須小于10。C Co ol ll li in ne ea ar ri it ty y D Di ia ag gn no os st ti ic cs sa a1.9781.000.01.01.0229.566.99.992.7721.000.00.00.02.2173.574.00.04.48.01115.731.99.96.513.7551.000.00.00.01.00.2194.137.00.03.43.00.01814.367.02.67.54.41.00722.717.97.30.02.58Dimension121

44、231234Model123EigenvalueConditionIndex(Constant)車流量(X1)風(fēng)速(X4)氣溫(X2)Variance ProportionsDependent Variable: NO(Y)a. 3.條件數(shù)條件數(shù)condition index / 方差比例方差比例variance proportions, VP 一般地,當(dāng)一般地,當(dāng)條件數(shù)條件數(shù)大于大于10,且有兩個(gè)以上的自變量對,且有兩個(gè)以上的自變量對應(yīng)的應(yīng)的方差比例方差比例大于大于0.5時(shí),可以認(rèn)為這些自變量是嚴(yán)時(shí),可以認(rèn)為這些自變量是嚴(yán)重相關(guān)的。重相關(guān)的。 當(dāng)模型診斷發(fā)現(xiàn)了共線性,應(yīng)如何處理?當(dāng)模型診斷發(fā)

45、現(xiàn)了共線性,應(yīng)如何處理?刪除變量:根據(jù)偏相關(guān)系數(shù)大小,去掉其中一個(gè)對刪除變量:根據(jù)偏相關(guān)系數(shù)大小,去掉其中一個(gè)對因變量影響最小的自變量,或根據(jù)方差比例(因變量影響最小的自變量,或根據(jù)方差比例(VP)的大小,去掉的大小,去掉VP值大的自變量,重新作共線性檢查,值大的自變量,重新作共線性檢查,直至多重共線性不存在為止;直至多重共線性不存在為止;通徑分析通徑分析最好的方法采用主成分回歸方法。最好的方法采用主成分回歸方法。4. 啞變量的設(shè)置啞變量的設(shè)置自變量自變量X的的數(shù)據(jù)類型數(shù)據(jù)類型數(shù)值變量數(shù)值變量分類變量分類變量二分類二分類多分類多分類有序多分類有序多分類無序多分類無序多分類等距等距不等距不等距

46、將有序變量或無序多分類變量轉(zhuǎn)換為多個(gè)二分類變量將有序變量或無序多分類變量轉(zhuǎn)換為多個(gè)二分類變量的過程稱為的過程稱為“啞元化啞元化” (dummying),得到的多個(gè)二分類得到的多個(gè)二分類變量稱為變量稱為“啞變量啞變量”(dummy variable)例:例: 這種將這種將k個(gè)多項(xiàng)無序分類轉(zhuǎn)化為個(gè)多項(xiàng)無序分類轉(zhuǎn)化為k-1個(gè)二分類變量的過程個(gè)二分類變量的過程叫分類變量的啞變量化,主要用在多因素分析,如多重線叫分類變量的啞變量化,主要用在多因素分析,如多重線性回歸、性回歸、Logistic 回歸分析中?;貧w分析中。血型血型3個(gè)啞變量個(gè)啞變量X1X2X3A100B010AB001O000參考類參考類 /

47、參考變量參考變量表表11-5 用用3個(gè)二分類的啞變量描述血型個(gè)二分類的啞變量描述血型5. 交互作用交互作用n多重線線性回歸中,要注意自變量間是否存在交互多重線線性回歸中,要注意自變量間是否存在交互作用;作用;n可通過引入新的自變量的方法,判斷兩個(gè)或多個(gè)原可通過引入新的自變量的方法,判斷兩個(gè)或多個(gè)原自變量間是否存在交互作用;自變量間是否存在交互作用;n如果存在交互作用,在模型中應(yīng)納入交互相,在結(jié)如果存在交互作用,在模型中應(yīng)納入交互相,在結(jié)果解釋時(shí)要考慮交互作用的影響。果解釋時(shí)要考慮交互作用的影響。小小 結(jié)結(jié)多重線性回歸用于研究一個(gè)反應(yīng)變量與多個(gè)自變量之多重線性回歸用于研究一個(gè)反應(yīng)變量與多個(gè)自變量

48、之間的線性依存關(guān)系,常用于篩選危險(xiǎn)因素、控制混雜間的線性依存關(guān)系,常用于篩選危險(xiǎn)因素、控制混雜因素、分析交互作用、預(yù)測和控制等。因素、分析交互作用、預(yù)測和控制等。其前提條件是其前提條件是LINE,常常用殘差分析的方法考察資料,常常用殘差分析的方法考察資料是否滿足這是否滿足這4個(gè)條件;如不滿足,可嘗試變量變換,個(gè)條件;如不滿足,可嘗試變量變換,或更換回歸方程。或更換回歸方程。其估計(jì)方程參數(shù)依據(jù)的是最小二乘法原則。其估計(jì)方程參數(shù)依據(jù)的是最小二乘法原則。偏回歸系數(shù)的含義是當(dāng)其他自變量的取值固定時(shí),自偏回歸系數(shù)的含義是當(dāng)其他自變量的取值固定時(shí),自變量每改變一個(gè)單位,反應(yīng)變量的平均改變的單位數(shù)。變量每改

49、變一個(gè)單位,反應(yīng)變量的平均改變的單位數(shù)。原始偏回歸系數(shù)用于構(gòu)建回歸方程,標(biāo)準(zhǔn)化偏回歸系原始偏回歸系數(shù)用于構(gòu)建回歸方程,標(biāo)準(zhǔn)化偏回歸系數(shù)用于比較自變量對反應(yīng)變量的貢獻(xiàn)大小。數(shù)用于比較自變量對反應(yīng)變量的貢獻(xiàn)大小。確定系數(shù)和調(diào)整確定系數(shù)用于說明模型中自變量解確定系數(shù)和調(diào)整確定系數(shù)用于說明模型中自變量解釋變量的百分比,可用來評價(jià)方程擬合效果的好壞。釋變量的百分比,可用來評價(jià)方程擬合效果的好壞。復(fù)相關(guān)系數(shù)可用來說明某一個(gè)變量與多個(gè)變量的線復(fù)相關(guān)系數(shù)可用來說明某一個(gè)變量與多個(gè)變量的線性相關(guān)程度。性相關(guān)程度。變量篩選的目的是使議程盡量保留對回歸貢獻(xiàn)較大變量篩選的目的是使議程盡量保留對回歸貢獻(xiàn)較大的重要變量而排除對回歸貢獻(xiàn)小的變量,以期用盡的重要變量而排除對回歸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。