衛(wèi)生管理統(tǒng)計學(xué):第十三章 多重線性回歸與相關(guān)_第1頁
衛(wèi)生管理統(tǒng)計學(xué):第十三章 多重線性回歸與相關(guān)_第2頁
衛(wèi)生管理統(tǒng)計學(xué):第十三章 多重線性回歸與相關(guān)_第3頁
衛(wèi)生管理統(tǒng)計學(xué):第十三章 多重線性回歸與相關(guān)_第4頁
衛(wèi)生管理統(tǒng)計學(xué):第十三章 多重線性回歸與相關(guān)_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第十三章多重線性回歸與相關(guān)(multiplelinearregression&correlation)要求:1.掌握多重回歸模型主要指標的統(tǒng)計意義2.了解偏相關(guān)系數(shù)的統(tǒng)計意義3.理解多重線性回歸的應(yīng)用條件4.會用SPSS過程建立多重線性回歸模型及應(yīng)用第一節(jié)多重線性回歸的概念及其統(tǒng)計描述一元線性回歸是描述一個應(yīng)變量與一個自變量間線性依存的一種分析方法。但醫(yī)學(xué)研究中,一種事物現(xiàn)象的數(shù)量關(guān)系往往與多種事物現(xiàn)象的數(shù)量變化有關(guān),如肺活量與年齡、體重、胸圍等有關(guān)。這些事物現(xiàn)象間的關(guān)系在應(yīng)變量的取值上可以是確定型的與概率型的;在幾何上可以是線性的,也可以是非線性的。多重線性回歸是確定型的線性回歸,是研究一個應(yīng)變量與多個自變量間線性依存關(guān)系數(shù)量變化規(guī)律的一種方法。例13-1為了研究糖尿病患者體內(nèi)脂聯(lián)素水平的有關(guān)影響因素,某醫(yī)師測定了30名患者的體重指數(shù)BMI(kg/m2)、病程DY(年)、瘦素LEP(ng/ml)、空腹血糖FPG(mmol/L)及脂聯(lián)素ADI(ng/ml)水平,測定數(shù)據(jù)如下:例號體重指數(shù)x1病程x2瘦素x3空腹血糖x4脂聯(lián)素y124.2210.05.7513.629.36224.223.09.326.214.31319.0315.02.5011.126.08423.393.05.669.719.62………………3029.393.020.567.56.12脂聯(lián)素水平及有關(guān)影響因素的檢測數(shù)據(jù)一、數(shù)據(jù)與模型觀察單位應(yīng)變量自變量yX1X2…Xk1y1X11X12…X1k2y2X21X22…X2k………………nynXn1Xn2…Xnk多重線性回歸原始數(shù)據(jù)形式回歸模型假定y與x1,x2,,…,xp間存在線性關(guān)系,則y滿足多重線性回歸模型:按最小二乘法估計原理(leastsquaresmethod),計算式中的各項偏回歸系數(shù)的估計值bi,則估計模型為:二、偏回歸參數(shù)的估計1.計算基本統(tǒng)計量2.建立正規(guī)方程組(normalequations)例13-1的回歸統(tǒng)計結(jié)果回歸方程:

Parameter

StandardVariableDFEstimate

Error

t

P

Intercept1

58.19937

11.57542

5.03

<.0001x1

1

-1.02978

0.53022

-1.94

0.0635x2

1

-0.13113

0.21129

-0.62

0.5405x3

1

-0.81130

0.25270

-3.21

0.0036x4

1

-0.57873

0.44750

-1.29

0.2077偏回歸系數(shù)的標準化

Parameter

Standard

Standardized

VariableDFEstimate

Error

t

P

Estimate

Intercept1

58.19937

11.57542

5.03

<.0001

0

x1

1

-1.02978

0.53022

-1.94

0.0635

-0.34312

x2

1

-0.13113

0.21129

-0.62

0.5405

-0.06653

x3

1

-0.81130

0.25270

-3.21

0.0036

-0.56620

x4

1

-0.57873

0.44750

-1.29

0.2077

-0.13939

標準化偏回歸系數(shù)的公式計算例號體重指數(shù)x1病程x2瘦素x3空腹血糖x4脂聯(lián)素y124.2210.05.7513.629.36224.223.09.326.214.31………………3029.393.020.567.56.12均數(shù)24.90036.757010.07308.070018.8290標準差3.047114.640106.382192.202539.14500脂聯(lián)素水平及有關(guān)影響因素的檢測數(shù)據(jù)多重線性回歸方程的SPSS過程例13-1的SPSS過程例13-1的回歸SPSS參數(shù)確定例13-1的回歸SPSS結(jié)果第二節(jié)多重線性回歸方程的假設(shè)檢驗?zāi)康模嚎疾旎貧w方程是否符合資料特點1.方差分析法

H0:β1=β2=…=βp

=0

統(tǒng)計量:例13-1資料的方差分析analysisofVariance變異來源SSdfMSFP總變異2425.30129回歸模型1773.3434443.33617.000<0.0001殘差651.9582526.078結(jié)論:

由這4個變量構(gòu)成的回歸方程解釋糖尿病患者體內(nèi)的脂聯(lián)素變化是有統(tǒng)計學(xué)意義的。2.偏回歸系數(shù)的t檢驗法在多重回歸分析中,可能有的自變量對應(yīng)變量的影響很強,而有的較弱,甚至完全沒有作用。這樣就有必要對自變量進行選擇,使回歸方程只包含對應(yīng)變量有統(tǒng)計學(xué)意義的自變量。對某一自變量xj的統(tǒng)計學(xué)檢驗等價于對其相應(yīng)的偏回歸系數(shù)βj作統(tǒng)計學(xué)假設(shè)檢驗。例13-1資料的偏回歸系數(shù)的t檢驗

Parameter

Standard

StandardizedVariableDFEstimate

Error

t

P

Estimate

Intercept1

58.19937

11.57542

5.03

<.0001

0x1

1

-1.02978

0.53022

-1.94

0.0635

-0.34312x2

1

-0.13113

0.21129

-0.62

0.5405

-0.06653

x3

1

-0.81130

0.25270

-3.21

0.0036

-0.56620x4

1

-0.57873

0.44750

-1.29

0.2077

-0.13939第三節(jié)復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù)1.確定系數(shù)R2(coefficientofdetermination)用于評價在

y

的總變異中,由x變量組建立的線性回歸方程所能解釋的比例。對R2的假設(shè)檢驗等價于對回歸方程的方差分析。H0:總體確定系數(shù)R2=0例13-1的確定系數(shù)2.復(fù)相關(guān)系數(shù)R

(multiplecorrelationcoefficient)確定系數(shù)的平方根R稱為復(fù)相關(guān)系數(shù),0≤R≤1,它表示p個自變量共同對應(yīng)變量線性相關(guān)的密切程度。例13-1的復(fù)相關(guān)系數(shù):3.校正確定系數(shù)R2α(adjustedR-square)例13-1的校正確定系數(shù):4.偏相關(guān)系數(shù)(partialcorrelationcoefficient)冷飲銷售量、游泳人數(shù)與氣溫數(shù)據(jù)冷飲銷售量(元)游泳人數(shù)(人)氣溫(C0)冷飲銷售量(元)游泳人數(shù)(人)氣溫(C0)x1x2x3x1x2x3267722296901593353978143074017613645192431780193137528106632889223138618125333996274939655136934冷飲銷售量與游泳人數(shù)的相關(guān)性冷飲銷售量與氣溫的相關(guān)性游泳人數(shù)與氣溫的相關(guān)性扣除氣溫因素后,冷飲銷售量與游泳人數(shù)的相關(guān)性偏相關(guān)系數(shù)統(tǒng)計量在一共只有3個變量(不分自變量與因變量)時,偏相關(guān)系數(shù)的公式為:冷飲銷售量(x1)、游泳人數(shù)(x2)與氣溫(x3)各變量間pearson相關(guān)系數(shù)

x1x2

x3x11.00000

0.97239

0.98909

x20.97239

1.00000

0.97617

x30.98909

0.97617

1.00000

x1x2x11.000000.21495

x20.214951.00000

p=0.5509

x2x3x21.000000.41860x30.418601.00000

p=0.2286

x1

x3x11.000000.78728

x30.787281.00000

p=0.0069偏相關(guān)系數(shù)計算的SPSS過程偏相關(guān)系數(shù)r12.3的參數(shù)設(shè)計偏相關(guān)系數(shù)r12.3結(jié)果結(jié)論:冷飲銷售量與游泳人數(shù)的相關(guān)性在0.05水平下沒有顯著性意義。冷飲銷售量(x1)、游泳人數(shù)(x2)與氣溫(x3)的偏相關(guān)SAS程序DATAA;INPUTx1-x3;cards;267722293978143045192431528106632618125333655136934690159335740176136780193137889223138996274939;PROC

CORR;

varx1x2x3;run;proc

corr;

varx1x2;partialx3;run;proc

corr;

varx2x3;partialx1;run;proc

corr;

varx1x3;partialx2;RUN;脂聯(lián)素水平與各自變量的相關(guān)系數(shù)和偏相關(guān)系數(shù)自變量簡單相關(guān)系數(shù)偏相關(guān)系數(shù)系數(shù)P值系數(shù)P值體重指數(shù)x1-0.7758<0.001-0.362000.064病程x20.010980.954-0.124000.538瘦素x3-0.81053<0.001-0.540120.004空腹血糖x4-0.051300.788-0.25050.208第四節(jié)自變量篩選(1)向后剔除法(backwardselection)

先建立一個包含全部自變量的回歸方程,然后每次剔除一個偏回歸系數(shù)最小且無統(tǒng)計學(xué)意義的自變量,由多到少直至不能剔除時為止。(2)向前引入法(forwardselection)

回歸方程由一個自變量開始,每次引入一個偏回歸平方和最大且具有統(tǒng)計學(xué)意義的變量,由少到多直至無顯著性變量可引入。(3)逐步篩選法(stepwiseselection)

取上述兩種方法的優(yōu)點,在向前引入一個新自變量之后,都應(yīng)重新對前已選入自變量進行檢查,以評價有無保留在方程中的價值。為此,引入和剔除交替進行,直至無具有統(tǒng)計學(xué)意義的新變量可以引入,同時也無可剔除的無統(tǒng)計學(xué)意義的自變量。篩選方法:例13-1資料自變量的篩選糖尿病患者體內(nèi)脂聯(lián)素水平(y)與體重指數(shù)(x1)、病程(x2)、瘦素(x3)、空腹血糖(x4)的變量篩選。

Parameter

Standard

StandardizedVariableDFEstimate

Error

t

P

Estimate

Intercept1

58.19937

11.57542

5.03

<.0001

0x1

1

-1.02978

0.53022

-1.94

0.0635

-0.34312x2

1

-0.13113

0.21129

-0.62

0.5405

-0.06653

x3

1

-0.81130

0.25270

-3.21

0.0036

-0.56620x4

1

-0.57873

0.44750

-1.29

0.2077

-0.13939backwardselectionforwardselectionstepwiseselection篩選準則—(確定系數(shù)準則)1.R21篩選準則—(殘差均方準則)2.MS誤差

0篩選準則—(MallowsC.L準則)3.Cp

選模型自變量個數(shù)+1=P+11例13-1的Cp例13-1的所有可能子集回歸的參數(shù)估計與統(tǒng)計量R2Ra2CpMS殘p模型參數(shù)估計截距x1x2x3x40.0001-0.035666.989486.607518.683-0.02164--0.0026-0.033066.755886.389920.549----0.213070.0028-0.071068.736989.571320.389-0.02813--0.216810.60180.587611.030634.489276.805-2.32839---0.60500.575712.738135.484078.711-2.32943---0.232920.61810.589911.513234.300980.243-2.39703-0.25576--0.62050.576713.297735.404081.7800-2.39629-0.24967--0.200300.65700.64475.901929.712430.528---1.16141-0.65770.63237.835730.748930.902--0.05265-1.16319-0.69040.66744.795027.812137.159---1.20368-0.768870.69060.65506.770128.856837.355--0.03239-1.20456-0.764970.70690.68523.259726.329253.481-1.08707-0.75294-0.71320.68014.673426.753856.521-1.17699-0.16084-0.72548-0.72700.69553.390425.466955.818-0.94934--0.83812-0.608160.73120.68825.000026.078358.199-1.02981-0.13199-0.81072-0.57865*第五節(jié)多重線性回歸的應(yīng)用【例13-3】

對8名學(xué)生的身高(x1)、體重(x2)、體重指數(shù)(x3)與肺活量(y)進行回歸分析。資料如下:一、多重共線問題身高(x1)體重(x2)體重指數(shù)(x3)肺活量(y)135.128.50.0015611.85139.833.80.0017292.03163.651.20.0019132.64146.848.10.0022322.29156.851.90.0021112.42158.261.80.0024692.75154.248.80.0020522.39146.541.80.0019482.32其中:體重指數(shù)=體重/身高2計算各變量的相關(guān)系數(shù)x1x2x3yx11.000000.88720.638530.94149x20.88721.000000.917260.95521X30.638530.917261.000000.79655Y0.941490.955210.796551.00000相關(guān)系數(shù)估計與假設(shè)檢驗結(jié)論:整體回歸效果很好。R2=0.954,F(xiàn)=27.677(P=0.004)回歸參數(shù)估計所有p值均大于0.05解決的辦法1.采用逐步回歸方法篩選變量2.人為將高度相關(guān)的變量合成新變量例13-3資料逐步回歸結(jié)果二、自變量交互效應(yīng)問題【例13-4】

假若有A、B兩種藥品對帕金森綜合征有改善作用,而且相信聯(lián)合用藥效果比兩種藥單獨用之和還要好。為探討聯(lián)合用藥方案的可行性,進行了隨機平行對照臨床試驗,結(jié)果如下。試對療效緩解時間進行回歸分析。病例號A藥(x1)B藥(x2)緩解時間(y)病例號A藥(x1)B藥(x2)緩解時間(y)112439324021441103437316371136344183312383252241134237624381444357263515463382832164732交互變量設(shè)計交互作用由某些自變量的乘積組成新變量。如:交互模型參數(shù)確定交互模型假設(shè)檢驗交互模型輸出三、資料合并問題【例13-5】

某社區(qū)男性和女性各19名的收縮壓y與年齡x的數(shù)據(jù)如表所示:男性女性年齡(x)收縮壓(y)年齡(x)收縮壓(y)451314713538126381283912438133…………35123351264413341136研究者建立三個不同的回歸方程:試判斷男女合并資料后回歸是否合理?混雜因素的識別性別是否為收縮壓的混雜因素,這是回歸分析的同質(zhì)性判斷問題,需要對不同性別的回歸方程的的性別回歸系數(shù)是否有顯著性差異進行假設(shè)檢驗。若沒有顯著性差異可以合并。設(shè)Z為性別變量(Z=1為男性,Z=0為女性),在有k個其他自變量時,可考慮建立線性方程組:例13-5的分析結(jié)果結(jié)果顯示:性別與年齡的交互項所對應(yīng)的回歸系數(shù)具有顯著性差異(P=0.036),可認為男女血壓對年齡的回歸系數(shù)不同,性別是一個混雜因素,資料不宜合并。四、通經(jīng)分析(pathanalysis)【例13-6】觀察680名新生兒的出生體重(y)及其母親的年齡(x1)、產(chǎn)次(x2)、孕周(x3)、產(chǎn)前體重(x4)資料如下,進行回歸分析。變量回歸系數(shù)標準誤tP標化回歸系數(shù)截距00.020410.001.00000x10.003200.024390.130.89660.00320x20.001800.024770.070.94210.00180x30.678260.0246527.510.00000.67826x40.254980.026119.770.00000.25498結(jié)果顯示:

x1、x2對y的貢獻很小。從專業(yè)知識得到,x1、x2是通過x3與x4間接影響y的。變量間的相關(guān)系數(shù)x1x2x3x4yx11.0000.5090.3000.3820.305x20.5091.0000.3000.4200.314x30.3000.3001.0000.5500.820x40.3820.4200.5501.0000.630y0.305

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論