粗看_多元線性回歸分析_第1頁
粗看_多元線性回歸分析_第2頁
粗看_多元線性回歸分析_第3頁
粗看_多元線性回歸分析_第4頁
粗看_多元線性回歸分析_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十五章第十五章 多元線性回歸分析多元線性回歸分析(Multiple Linear Regression) Multiple linear regression Choice of independent variable Application 講述內(nèi)容講述內(nèi)容第一節(jié)第一節(jié) 多元線性回歸多元線性回歸第二節(jié)第二節(jié) 自變量選擇方法自變量選擇方法第三節(jié)第三節(jié) 多元線性回歸的應(yīng)用多元線性回歸的應(yīng)用 及其注意事項及其注意事項目的:作出以多個自變量估計應(yīng)變量的多元線性回歸方程。資料:應(yīng)變量為定量指標(biāo);自變量全部或大部分為定量指標(biāo),若有少量定性或等級指標(biāo)需作轉(zhuǎn)換。用途:解釋和預(yù)報。意義:由于事物間的聯(lián)系常

2、常是多方面的,一個應(yīng)變量的變化可能受到其它多個自變量的影響,如糖尿病人的血糖變化可能受胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂等多種生化指標(biāo)的影響。第一節(jié)第一節(jié) 多元線性回歸多元線性回歸 變量:變量:應(yīng)變量應(yīng)變量 1 個,自變量個,自變量m 個,共個,共 m+1 個。個。 樣本含量:樣本含量:n 數(shù)據(jù)格式見表數(shù)據(jù)格式見表15-1 回歸模型一般形式:回歸模型一般形式:eXXXYmm22110一、多元線性回歸模型一、多元線性回歸模型例號 X1 X2 Xm Y 1 X11 X12 X1m Y1 2 X21 X22 X2m Y2 n Xn1 Xn2 Xnm Yn 表15-1 多元回歸分析數(shù)據(jù)格式

3、條件條件(1)Y與mXXX,21之間具有線性關(guān)系。 (2)各例觀測值), 2 , 1(niYi相互獨立。 (3)殘差 e 服從均數(shù)為 0、 方差為2的正態(tài)分布, 它等價于對任意一組自變量mXXX,21值,應(yīng)變量 Y 具有相同方差,并且服從正態(tài)分布。 一般步驟一般步驟(1)求偏回歸系數(shù)mbbbb,210 mmXbXbXbbY22110建立回歸方程(2)檢驗并評價回歸方程檢驗并評價回歸方程及各自變量的作用大小及各自變量的作用大小 二、多元線性回歸方程的建立 例15-1 27名糖尿病人的血清總膽固醇、甘油三脂、空腹胰島素、糖化血紅蛋白、空腹血糖的測量值列于表15-2中,試建立血糖與其它幾項指標(biāo)關(guān)系的

4、多元線性回歸方程??偰懝檀?甘油三脂 胰島素 糖化血 血糖 (mmol/L) (mmol/L) (U/ml) 紅蛋白(%) (mmol/L) 序號 i X1 X2 X3 X4 Y 1 5.68 1.90 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8 12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.60 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.90 8.50 12.60 8.5 11.1 8 7.08 3.00 6.75 11.5 12.1

5、 9 3.85 2.11 16.28 7.9 9.6 10 4.65 0.63 6.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 1.97 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 8.4 14 6.19 1.18 1.42 6.9 9.6 15 6.13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 8.0 10.1 17 6.40 2.40 4.53 10.3 14.8 18 6.06 3.67 12.79 7.1 9.1 19 5.09 1.03 2.53 8.9 10.8 20 6

6、.13 1.71 5.28 9.9 10.2 21 5.78 3.36 2.96 8.0 13.6 22 5.43 1.13 4.31 11.3 14.9 23 6.50 6.21 3.47 12.3 16.0 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.20 10.5 20.0 26 5.84 0.92 8.61 6.4 13.3 27 3.84 1.20 6.45 9.6 10.4 表15-2 27名糖尿病人的血糖及有關(guān)變量的測量結(jié)果 2221102)()(mmXbXbXbbYYYQmYmmmmmYmmYmmlblblbllblblbllblbl

7、bl22112222212111212111)(22110mmXbXbXbYb求偏導(dǎo)數(shù)()() , , j=1,2,m()(), 1,2,ijijiijjijjjYjjjXXlXXXXX XinXYlXXYYX Yjmn43216382027060351501424094335X.X.X.X.Y原 理最小二乘法三、假設(shè)檢驗及其評價 012:0mH, 1:jH各 (j=1,2, ,m)不全為 0, 0.05 1. 方差分析法:方差分析法:殘回總SSSSSS殘回殘回(MSMSmnSSmSSF) 1/(一)對回歸方程) 1(mn ,mFF變異來源 自由度 SS MS F P 總變異 n-1 SS總

8、回 歸 m SS回 SS回 /m MS回/MS殘 殘 差 n-m-1 SS殘 SS殘 /(n-m-1) 表15-4 例15-1的方差分析表 變異來源 自由度 SS MS F P 總變異 26 222.5519 回 歸 4 133.7107 33.4277 8.28 0.01 殘 差 22 88.8412 4.0382 表15-3 多元線性回歸方差分析表查 F 界值表得31. 4)22,4(01. 0F,31. 4F,01. 0P, 在05. 0水平上拒絕 H0,接受 H1認(rèn)為所建回歸方程具有統(tǒng)計學(xué)意義。 (0.05)(0.05)102 R,說明自變量mXXX,21能夠解釋Y變化的百分比,其值愈

9、接近于 1,說明模型對數(shù)據(jù)的擬合程度愈好。本例 6008. 05519.2227107.1332R 表明血糖含量變異的 60%可由總膽固醇、 甘油三脂、胰島素和糖化血紅蛋白的變化來解釋。 21SSSSRSSSS回殘總總2. 決定系數(shù)決定系數(shù)R 2:3.復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù) 可用來度量應(yīng)變量 Y 與多個自變量間的線性相關(guān)程度,亦即觀察值Y與估計值Y之間的相關(guān)程度。 計算公式:2RR,本例7751060080.R 若m=1自變量,則有| r |R,r為簡單相關(guān)系數(shù)。 (二)對各自變量 指明方程中的每一個自變量對Y的影響(即方差分析和決定系數(shù)檢驗整體)。含義 回歸方程中某一自變量jX的偏回歸平方和表

10、示模型中含有其它 m-1 個自變量的條件下該自變量對 Y的回歸貢獻(xiàn), 相當(dāng)于從回歸方程中剔除jX后所引起的回歸平方和的減少量, 或在 m-1個自變量的基礎(chǔ)上新增加jX引起的回歸平方和的增加量。 1. 偏回歸平方和 )(jXSS回表示偏回歸平方和,其值愈大說明相應(yīng)的自變量愈重要。 ()/1/(1)jjSSXFSSnm回殘一般情況下,m-1 個自變量對 Y 的回歸平方和由重新建立的新方程得到,而不是簡單地把jjXb從有 m 個自變量的方程中剔出后算得。 12 1, 1nm平方和(變異) 回歸方程中 包含的自變量 SS回 SS殘 4321X,X,X,X 133.7107 88.8412 432X,X

11、,X 133.0978 89.4540 431XX,X 121.7480 100.8038 421XX,X 113.6472 108.9047 321XX,X 105.9168 116.6351 表表15-5 對例對例15-1數(shù)據(jù)作回歸分析的部分中間結(jié)果數(shù)據(jù)作回歸分析的部分中間結(jié)果 各自變量的偏回歸平方和可以通過擬合包含不同各自變量的偏回歸平方和可以通過擬合包含不同自變量的回歸方程計算得到,表自變量的回歸方程計算得到,表15-515-5給出了例給出了例15-115-1數(shù)數(shù)據(jù)分析的部分中間結(jié)果。據(jù)分析的部分中間結(jié)果。 11234234()(,)(,) 133.7107-133.0978=0.61

12、29SSXSSXXXXSSX XX回回回 21234134()(,)(,) 133.7107-121.748011.9627SSXSSXXXXSSX XX回回回 31234124()(,)(,) 133.7107-113.647220.0635SSXSSXXXXSSX XX回回回 41234123()(,)(,) 133.7107-105.916827.7939SSXSSXXXXSSX XX回回回 152. 0) 1427( /8412.881 /6129. 01F, 962. 2) 1427/(8412.881 /9627.112F 968. 4) 1427/(8412.881 /0635.

13、203F , 883. 6) 1427/(8412.881 /7939.274F 結(jié)結(jié)果果2. t 檢驗法 是一種與偏回歸平方和檢驗完全等價的一種方法。計算公式為jbjjSbt檢驗假設(shè): H0:0j,jt服從自由度為1mn的 t 分布。如果12mn ,/jt|t |,則在(0.05)水平上拒絕 H0,接受 H1,說明jX與Y有線性回歸關(guān)系。 jb為偏回歸系數(shù)的估計值,jbS是jb的標(biāo)準(zhǔn)誤。 390036560142401.t 721120420351502.t 229212140270603.t 623224330638204.t 結(jié)結(jié) 果果結(jié)結(jié) 論論0742222050.t,/.,074.2

14、|34 tt, P值 均 小 于0.05, 說 明3b和4b有 統(tǒng) 計 學(xué) 意義 , 而1b和2b則 沒 有 統(tǒng) 計 學(xué) 意 義 。 3標(biāo)準(zhǔn)化回歸系數(shù) 變量標(biāo)準(zhǔn)化是將原始數(shù)據(jù)減去相應(yīng)變量的均數(shù),然后再除以該變量的標(biāo)準(zhǔn)差。()jjjjXXXS 計算得到的回歸方程稱作標(biāo)準(zhǔn)化回歸方程,相應(yīng)的回歸系數(shù)即為標(biāo)準(zhǔn)化回歸系數(shù)。 YjjYYjjjjSSbllbb注意:注意: 一般回歸系數(shù)一般回歸系數(shù)有單位,用來解釋各自有單位,用來解釋各自變量對應(yīng)變量的影響,表示在其它自變量保變量對應(yīng)變量的影響,表示在其它自變量保持不變時,持不變時, 增加或減少一個單位時增加或減少一個單位時Y Y的平的平均變化量均變化量 。不

15、能用各。不能用各 來比較各來比較各 對對 的影響大小。的影響大小。 標(biāo)準(zhǔn)化回歸系數(shù)標(biāo)準(zhǔn)化回歸系數(shù)無單位,用來比較各無單位,用來比較各自變量對應(yīng)變量的影響大小,自變量對應(yīng)變量的影響大小, 越大,越大, 對對 的影響越大。的影響越大。jXjbjXYjbjXY11.5934S ,22.5748S ,33.6706S ,41.8234S ,2.9257YS 0776. 09257. 25934. 11424. 01b 309309257257482351502.b 339509257267063270603.b 397709257282341638204.b 結(jié)結(jié)論論結(jié)果顯示, 對血糖影響大小的順序依

16、次為糖化血紅蛋白)(4X、 胰島素)(3X、 甘油三脂)(2X和總膽固醇)(1X。 第二節(jié) 自變量選擇方法 目的目的:使得預(yù)報和(或)解釋效果好一、全局擇優(yōu)法目的:預(yù)報效果好意義:對自變量各種不同的組合所建立 的回歸方程進(jìn)行比較 擇優(yōu)。選擇方法:1校正決定系數(shù)2cR選擇法,其計算公式為 總殘MSMSpnnRRc111)1 (122 n 為樣本含量,2R為包含)(mpp個自變量的回歸方程的決定系數(shù)。2cR的變化規(guī)律是:當(dāng)2R相同時,自變量個數(shù)越多2cR越小。所謂“最優(yōu)”回歸方程是指2cR最大者。 2. pC選擇法 )1(2)()(pnMSSSCmpp殘殘 pSS)(殘是由)(mpp個自變量作回歸

17、 的誤差平方和,mMS)(殘是從全部 m 個自 變量的回歸模型中得到的殘差均方。 當(dāng)由 p 個自變量擬合的方程理論上為最優(yōu)時,pC的期望值是 p+1,因此應(yīng)選擇pC最接近 p+1 的回歸方程為最優(yōu)方程。 如果全部自變量中沒有包含對 Y有主要作用的變量,則不宜用pC方法選擇自變量。 例15-2 用全局擇優(yōu)法對例15-1數(shù)據(jù)的自變量進(jìn)行選擇。 方 程 中 的 自 變 量 2cR pC 方 程 中 的 自 變 量 2cR pC X2,X3,X4 0.546 3.15 X2,X3 0.408 9.14 X1,X2,X3,X4 0.528 5.00 X1,X3 0.375 10.78 X1,X3,X4

18、0.488 5.96 X4 0.347 11.63 X1,X2,X4 0.447 7.97 X1 0.284 14.92 X1,X4 0.441 7.42 X1,X2 0.275 15.89 X2,X4 0.440 7.51 X3 0.231 17.77 X3,X4 0.435 7.72 X2 0.179 20.53 X1,X2,X3 0.408 9.88 m=4, 故回歸方程擬合數(shù)為4212115m 。 最優(yōu)組合均為X2,X3,X4,即由甘油三脂、胰島素和糖化血紅蛋白與血糖建立的回歸方程最優(yōu)。 二、逐步選擇法1. 1.前進(jìn)法,回歸方程中的自變量從無到有、從少到多逐個引入回歸方程。此法已基本淘

19、汰。 2. 后退法,先將全部自變量選入方程,然后逐步剔除無統(tǒng)計學(xué)意義的自變量。 剔除自變量的方法是在方程中選一個偏回歸平方和最小的變量,作F檢驗決定它是否剔除,若無統(tǒng)計學(xué)意義則將其剔除,然后對剩余的自變量建立新的回歸方程。重復(fù)這一過程,直至方程中所有的自變量都不能剔除為止。理論上最好,建議使用采用此法。 3.逐步回歸法,逐步回歸法是在前述兩種方法的基礎(chǔ)上,進(jìn)行雙向篩選的一種方法。該方法本質(zhì)上是前進(jìn)法。 檢驗水準(zhǔn)檢驗水準(zhǔn)的設(shè)置:小樣本定為的設(shè)置:小樣本定為 0.10 或或 0.15,大樣本定大樣本定為為 0.05。 值定得越小表示選取自變量的標(biāo)準(zhǔn)越嚴(yán),被選入的自值定得越小表示選取自變量的標(biāo)準(zhǔn)越嚴(yán)

20、,被選入的自變量個數(shù)相對也較少;反之,變量個數(shù)相對也較少;反之,值定得越大表示選取自變量值定得越大表示選取自變量的標(biāo)準(zhǔn)越寬,被選入的自變量個數(shù)也就相對較多。的標(biāo)準(zhǔn)越寬,被選入的自變量個數(shù)也就相對較多。 注意: 選入自變量的檢驗水準(zhǔn)注意: 選入自變量的檢驗水準(zhǔn)入要小于或等于剔除自變要小于或等于剔除自變量的檢驗水準(zhǔn)量的檢驗水準(zhǔn)出。 例 15-3 試用逐步回歸方法分析例 15-1 數(shù)據(jù)(100.入,15. 0出) 。 步 驟 (l) 引 入 變 量 剔 除 變 量 變 量 個 數(shù)p 2R ( )()lSSXj回 ( ) lSS殘 F值 P值 1 X4 1 0.372 82.714 139.837 1

21、4.788 0.0007 2 X1 2 0.484 25.076 114.762 5.244 0.0311 3 X3 3 0.547 13.958 100.804 3.185 0.0875 4 X2 4 0.601 11.963 88.841 2.962 0.0993 5 X1 3 0.598 0.613 88.841 0.152 0.7006 表15-7 逐步回歸過程 變異來源 自由度 SS MS F P 總變異 26 222.5519 回 歸 3 133.098 44.366 11.41 0.0001 殘 差 23 89.454 3.889 表15-8 例15-3方差分析表 “最優(yōu)”回歸方

22、程為4326632. 02871. 04023. 04996. 6XXXY 結(jié)果表明:血糖的變化與甘油三脂、胰島素和糖化血紅蛋白有線性回歸關(guān)系,其中與胰島素負(fù)相關(guān)。由標(biāo)準(zhǔn)化回歸系數(shù)看出,糖化血紅蛋白對空腹血糖的影響最大。 表15-9 例15-3的回歸系數(shù)的估計及檢驗結(jié)果 變 量 回歸 系數(shù)b 標(biāo)準(zhǔn)誤 bS 標(biāo)準(zhǔn)回 歸系數(shù)b t 值 P值 常數(shù)項 6.4996 2.3962 0 2.713 0.0124 X2 0.4023 0.1540 0.3541 2.612 0.0156 X3 0.2870 0.1117 0.3601 2.570 0.0171 X4 0.6632 0.2303 0.4133

23、 2.880 0.0084 第三節(jié) 多元線性回歸的應(yīng)用及注意事項 一、多元線性回歸的應(yīng)用1. 影響因素分析 例如影響例如影響高血壓的因素高血壓的因素可能有可能有年齡年齡、飲飲食習(xí)慣食習(xí)慣、吸煙狀況、吸煙狀況、工作緊張度工作緊張度和和家族史家族史等,在影響高血壓的眾多可疑因素中,需等,在影響高血壓的眾多可疑因素中,需要研究哪些因素有影響,哪些因素影響較要研究哪些因素有影響,哪些因素影響較大。大。 在臨床試驗中,則可能由于種種原因難以在臨床試驗中,則可能由于種種原因難以保證各組的指標(biāo)基線相同,如在保證各組的指標(biāo)基線相同,如在年齡年齡、病病情情等指標(biāo)不一致出現(xiàn)混雜的情況下,如何等指標(biāo)不一致出現(xiàn)混雜的

24、情況下,如何對不同的治療方法進(jìn)行比較等。對不同的治療方法進(jìn)行比較等。 這些問題都可以利用這些問題都可以利用回歸分析回歸分析來處理。來處理??刂苹祀s因素控制混雜因素( (confounding factor) )的一個的一個簡單辦法就是將其引入回歸方程中,簡單辦法就是將其引入回歸方程中,與其與其他主要變量一起進(jìn)行分析他主要變量一起進(jìn)行分析 2. 估計與預(yù)測 如由兒童的如由兒童的心臟橫徑心臟橫徑、心臟縱徑心臟縱徑和和心臟寬心臟寬徑徑估計估計心臟的表面積心臟的表面積;由胎兒的;由胎兒的孕齡孕齡、頭頭頸頸、胸徑胸徑和和腹徑腹徑預(yù)測預(yù)測出生兒出生兒體重體重等。等。 3. 統(tǒng)計控制 逆估計。 例如采用射頻

25、治療儀治療腦腫瘤,腦例如采用射頻治療儀治療腦腫瘤,腦皮質(zhì)的皮質(zhì)的毀損半徑毀損半徑與與射頻溫度射頻溫度及及照射時間照射時間有有線性回歸關(guān)系,建立回歸方程后可以按預(yù)線性回歸關(guān)系,建立回歸方程后可以按預(yù)先給定的腦皮質(zhì)毀損半徑,確定最佳控制先給定的腦皮質(zhì)毀損半徑,確定最佳控制射頻溫度和照射時間。射頻溫度和照射時間。 二、多元線性回歸應(yīng)用的注意事項二、多元線性回歸應(yīng)用的注意事項(1)定量,非線性 線性 (2)定性,轉(zhuǎn)為定量: (0,1)變量,啞變量,偽變量,指示變量。 1指標(biāo)的數(shù)量化指標(biāo)的數(shù)量化 分2類,可用一個(0,1)變量。如性別0 1 X男女 分k類,k-1個(0,1)變量,如血型。 血型 X1

26、X2 X3 O 0 0 0 A 1 0 0 B 0 1 0 AB 0 0 1 編號 X1 X2 X3 Y 1 1 0 0 2 0 0 0 3 0 1 0 n 0 0 1 數(shù)據(jù)格式回歸方程 建立回歸方程建立回歸方程 0112233Ybb Xb Xb Xb1 :相當(dāng)相當(dāng)A 型相對于型相對于O 型的差別型的差別b2 :相當(dāng):相當(dāng)B 型相對于型相對于O 型的差別型的差別b3 :相當(dāng):相當(dāng)AB 型相對于型相對于O 型的差別型的差別 (3)等級 定量。 一般是將等級從弱到強轉(zhuǎn)換為 (或 )如文化程度分為小學(xué)、中學(xué)、大學(xué)、大學(xué)以上四個等級。Y為經(jīng)濟收入。1 1 2 3 X小學(xué)中學(xué)大學(xué) 4 大學(xué)以上 011Ybb X解釋:b(b1)反映X(X1) 增加1個單位, 增加b個單位(如:50

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論