《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》最新版Ch10回歸分析(72H)_第1頁(yè)
《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》最新版Ch10回歸分析(72H)_第2頁(yè)
《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》最新版Ch10回歸分析(72H)_第3頁(yè)
《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》最新版Ch10回歸分析(72H)_第4頁(yè)
《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》最新版Ch10回歸分析(72H)_第5頁(yè)
已閱讀5頁(yè),還剩79頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Medical Statistics 醫(yī)學(xué)統(tǒng)計(jì)學(xué)回歸分析Regression Analysis主要內(nèi)容 直線回歸的定義(掌握) 直線回歸方程的估計(jì)(掌握) 回歸方程的解釋(掌握) 回歸系數(shù)的t檢驗(yàn)(掌握) 回歸方程中變異的分解(掌握) 回歸方程的方差分析(掌握) 與回歸有關(guān)的區(qū)間估計(jì)(熟悉) 兩直線回歸方程的比較(了解) 過(guò)定點(diǎn)的直線回歸(了解) 相關(guān)與回歸的區(qū)別和聯(lián)系(掌握) 回歸分析的正確應(yīng)用(掌握) 其他類型的回歸(了解)周長(zhǎng)C這兩個(gè)關(guān)系有什么不同?YabX體重 X體表面積Y1112131415165.05.56.06.5半徑r123424 6 8 2CrYabX直線回歸的定義 宏觀上來(lái)

2、講,體重和體表面積呈直線關(guān)系,但并不能用來(lái)描述。所以我們用“hat”表示估計(jì)值,給定x時(shí)y的條件均數(shù)YabXYabX Y 因變量,響應(yīng)變量 (dependent variable, response variable) X 自變量,解釋變量 (independent variable, explanatory variable) b 回歸系數(shù),斜率 (regression coefficient, slope) a 截距 (intercept) YabX不同斜率時(shí)回歸直線的表現(xiàn)0YabX b0YabX bXY0YabX bRegression 釋義小插曲:為什么叫”回歸“? F. Galton

3、 K.Pearson小插曲:為什么叫”回歸“?分析實(shí)例:3歲男童體重與體表面積編號(hào)體重X體表面積Y111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.0751016.06.411合計(jì)133.457.266繪制散點(diǎn)圖體重 X體表面積Y1112131415165.05.56.06.5X(1)Y(2)11.05.28311.85.29912.05.35812.35.29213.15.60213.76.01414.45.83014.96.10215.26.07516.06.411直

4、線回歸方程的求解:最小二乘原理bXaY 1112131415165.05.56.06.5目標(biāo):使點(diǎn)到回歸直線的綜合距離為最小!iiYY直線回歸方程的求解XXXYllnXXnYXXYXXYYXXb/)()(222XbYaniiiniiibXaYYYYYQ12122)()(最小二乘法(Least Square Method)回歸方程的估計(jì) 對(duì)于本例,經(jīng)計(jì)算得5.93961.543924.90407266. 544.13XYYYXXlllYX5.93960.238524.90405.7266-13.44 0.2385=2.5212baYbX回歸方程3歲男童體重和體表面積間的直線回歸方程XY2385.

5、 05212. 2回歸直線體重 X體表面積Y1112131415165.05.56.06.5(12, 5.3832)(15, 6.0987)(13.44,5.7266)回歸直線的有關(guān)性質(zhì)直線通過(guò)均點(diǎn) 直線上方各點(diǎn)到直線的縱向距離之和 = 直線下方各點(diǎn)到直線的縱向距離之和即: 各點(diǎn)到該回歸線縱向距離平方和較到其它任何直線者為小。 0)(YY 22bXaYYY),(YX回歸系數(shù)和回歸方程的意義及性質(zhì)回歸系數(shù)和回歸方程的意義及性質(zhì)b 的意義a 的意義 和 的意義 的意義bXaY YY21 niiiYY Y回歸系數(shù)的解釋b的涵義:體重增加1(kg),則體表面積平均遞增0.2385 (103cm2 )。

6、體重為X1(kg)的3歲男童,其平均體表面積比體重為X(kg)的3歲男童之平均體表面積多0.2385(103cm2)。XY2385. 05212. 2a 的意義bXaY a 截距(intercept, constant)X=0 時(shí),Y的估計(jì)值a的單位與Y值相同當(dāng)X可能取0時(shí),a才有實(shí)際意義。估計(jì)值 的意義 X=12kg, =5.3832 (103cm2) 即體重為12kg的3歲男童 其體表面積之均數(shù)的估計(jì)值為5.3832 (103cm2) 給定X時(shí),Y的均數(shù)的估計(jì)值。 當(dāng) 時(shí), 這里的均數(shù)是給定X的條件下,由回歸方程估計(jì)得到的,故又稱條件均數(shù)(conditional mean)。YYXX YY

7、 編號(hào)(1)體重(kg),X(2)體表面積(103cm2),Y(3)(4)(5)111.05.2835.1450.138211.85.2995.336-0.037312.05.3585.383-0.025412.35.2925.455-0.163513.15.6025.646-0.044613.76.0145.7890.225714.45.8305.956-0.126814.96.1026.0750.027915.26.0756.146-0.0711016.06.4116.3370.074合計(jì)133.457.26657.2660.000YYY殘差體重 X體表面積Y1112131415165.0

8、5.56.06.5YY 殘差平方和 (residual sum of squares). 綜合表示點(diǎn)距直線的距離。 在所有的直線中,回歸直線的殘差平方和是最小的。(最小二乘) 的意義 2)(YY直線回歸系數(shù)的t檢驗(yàn)回歸系數(shù)也有抽樣誤差!檢驗(yàn)方法針對(duì)回歸系數(shù)b的檢驗(yàn):t檢驗(yàn)針對(duì)整個(gè)回歸方程的檢驗(yàn):方差分析直線回歸系數(shù)的t檢驗(yàn)總體回歸系數(shù) =0,則回歸關(guān)系不存在。H0:總體回歸系數(shù)為0, =0;H1:總體回歸系數(shù)不為0,0;=0.05。.2 2Y XbXXY XsslYYsn0 2bbbtns,直線回歸系數(shù)的t檢驗(yàn)Y的剩余標(biāo)準(zhǔn)差扣除X的影響(即回歸所能解釋的部分)后Y本身的變異程度什么叫做本身的變

9、異?甲在學(xué)習(xí)某學(xué)科之前,只知曉該學(xué)科10%的知識(shí)點(diǎn),如果當(dāng)時(shí)去考試,不一定恰好考10分,但是大約會(huì)在10分附近波動(dòng);如果他考了12分。甲在學(xué)習(xí)某學(xué)科1周,知曉該學(xué)科40%的知識(shí)點(diǎn),如果當(dāng)時(shí)去考試,不一定恰好考40分,但是大約會(huì)在40分附近波動(dòng);如果他考了36分。甲在學(xué)習(xí)某學(xué)科5周,知曉該學(xué)科80%的知識(shí)點(diǎn),如果當(dāng)時(shí)去考試,不一定恰好考80分,但是大約會(huì)在80分附近波動(dòng);如果他考了85分。甲在學(xué)習(xí)某學(xué)科10周,知曉該學(xué)科95%的知識(shí)點(diǎn),如果當(dāng)時(shí)去考試,不一定恰好考95分,但是大約會(huì)在95分附近波動(dòng); 如果他考了92分。在本例中,從成績(jī)來(lái)看,四次成績(jī)波動(dòng)很大,但請(qǐng)注意,這四次這么大的波動(dòng),并非主要

10、是由于考生考運(yùn)等原因造成的,而是由于不同的學(xué)習(xí)時(shí)間導(dǎo)致對(duì)知識(shí)掌握程度不同。只有將學(xué)習(xí)時(shí)間這個(gè)影響因素去除,2(12-10)、-4 (36-40)、5(85-80)、-3(92-95),這些分?jǐn)?shù)的差別才是一種變異,即考生各次考試間的變異。直線回歸系數(shù)的t檢驗(yàn) 名詞辨析: Y的變異 Y本身的變異 Y 體重增加量(g)X 進(jìn)食量(g)600 650 700 750 800 850 900 950120140160180200154.42gSY22.63iiYY0SY.X12.39H0:總體回歸系數(shù)0,即體重與體表面積無(wú)回歸關(guān)系;H1:總體回歸系數(shù)0,即體重與體表面積有回歸關(guān)系。 =0.05。 =10

11、-2=8按=8查t界值表,得P0.001。按 =0.05水準(zhǔn)拒絕H0,接受H1??梢哉J(rèn)為體重與體表面積之間有回歸關(guān)系。.12620210127318. 0XYs0.12620.0252824.9040bs 435. 902528. 02385. 0bt回歸系數(shù)與相關(guān)系數(shù)的假設(shè)檢驗(yàn)rbtt 結(jié)果等價(jià)。因變量總變異的分解X P (X,Y)YY)(YY )( YYY)(YY YYYYY-=-YY+- 實(shí)際上是原始觀察值Y的離均差平方和,又稱為總離均差平方和,或總變異,記為SS總。 回歸直線與Y的均數(shù)之距離平方和,稱為回歸平方和反映在總平方和中可以用X解釋的部分,記為SS回。 為原始觀察值離回歸直線的

12、縱向距離平方和,又稱剩余平方和,記為SS剩。在總變異中,扣除由X解釋的部分后剩余的部分,或不能由X解釋的部分。YYYYYY222111nnniiiYYYYYY2)(YY2)(YY2)(YYY的總變異分解 222 YYYYYY ?;乜係SSSSS 112nn總回??偦厥;貧w方程的方差分析MSSSFMSSS回歸回歸回歸剩余剩余剩余H0:體重與體表面積間無(wú)直線回歸關(guān)系;H1:體重與體表面積間有直線回歸關(guān)系。=0.05。列方差分析表變異來(lái)源SSMSF回 歸1.416611.416689.01剩 余0.127380.0159總變異1.543990.1715F=89.01,今1=1,2=8,查F界值表,得

13、P0.01,按 =0.05水準(zhǔn)拒絕H0,接受H1,故可認(rèn)為3歲男童的體重與體表面積之間有線性回歸關(guān)系。.0.01590.1261Y Xs直線回歸中三種假設(shè)檢驗(yàn)間的關(guān)系在直線回歸中,相關(guān)系數(shù)的假設(shè)檢驗(yàn),回歸系數(shù)的假設(shè)檢驗(yàn),以及回歸方程的方差分析結(jié)果等價(jià)。Fttbr 與直線回歸有關(guān)的區(qū)間估計(jì)回歸系數(shù)的可信區(qū)間估計(jì)(掌握)估計(jì)值 的可信區(qū)間估計(jì)(了解)個(gè)體Y值的容許區(qū)間估計(jì)(了解)Y總體回歸系數(shù) 的可信區(qū)間估計(jì)根據(jù) t 分布原理估計(jì):2 0 nsbtbb ,bnstb2, 總體回歸系數(shù) 的可信區(qū)間估計(jì)根據(jù) t 分布原理估計(jì):本例中已計(jì)算得sb=0.025282 0 nsbtbb ,bnstb2, ,

14、232= 0.23852.3060 0.02528 0.2385+2.3060 0.02528=( 0.1802 0.2968) (10 cm /kg)nbbts,復(fù)習(xí) 可信區(qū)間 容許區(qū)間均數(shù)的可信區(qū)間: 均數(shù)界值標(biāo)準(zhǔn)誤 個(gè)體的容許區(qū)間(參考值范圍): 均數(shù)界值標(biāo)準(zhǔn)差 的可信區(qū)間估計(jì) Y 樣本 總體Y的總平均給定X時(shí)Y的平均 (Y的條件均數(shù)) YYY 22.2,2,)()(1XXXXnstYstYXYnYn 根據(jù) t t 分布原理:X=12時(shí),求 的95%可信區(qū)間 =13.44,lXX=24.9040, =0.1262。 當(dāng)X=12 時(shí), =5.3832 5.38322.3060.0540=5

15、.25875.5077 即體重為12kg的3歲男童,估計(jì)其平均體表面積為5.3832(103cm2),95可信區(qū)間為(5.2587,5.5077) (103cm2)。Y XXYs. Y0540. 09040.24)1244.13(1011262. 02YsY的容許區(qū)間估計(jì) 給定 X 時(shí) Y 的估計(jì)值是 Y 的均數(shù)的一個(gè)估計(jì)。 給定X 時(shí) Y 值的容許區(qū)間是 Y 值的可能范圍。 Y的100(1- )%容許限: 22.2,2,)()(11XXXXnstYstYXYnYn 5.38322.3060.1372=5.06665.6998即體重為12kg的3歲男童,估計(jì)有95的人體表面積在5.0666到5

16、.6998 (103cm2/kg)之間。1373. 09040.24)1244.13(10111262. 02Ys剩余標(biāo)準(zhǔn)差、條件標(biāo)準(zhǔn)誤、條件標(biāo)準(zhǔn)差 22.2,2,)()(1XXXXnstYstYXYnYn 22.2,2,)()(11XXXXnstYstYXYnYn 抽樣誤差抽樣誤差個(gè)體變異估計(jì)值、95%可信區(qū)間和95%容許區(qū)間1112131415164.55.05.56.06.57.0體表面積Y(103cm2)體重X(Kg)兩直線回歸方程的比較在實(shí)際工作中,有時(shí)需要對(duì)兩條回歸方程進(jìn)行比較,以推斷相應(yīng)的兩總體回歸直線是否平行,是否重疊。決定直線回歸方程的參數(shù)是回歸系數(shù)b和截距a,兩回歸直線平行

17、,等價(jià)于1=2 ;兩回歸直線重疊,等價(jià)于1=2且1=2。在第十章例10.3中已對(duì)成年男子和女子的心率與心臟左室電機(jī)械收縮時(shí)間的線性相關(guān)進(jìn)行了比較。這里,對(duì)該資料進(jìn)行回歸分析,并對(duì)兩個(gè)回歸方程進(jìn)行比較。1、散點(diǎn)圖 50607080901003003504004502、分別建立回歸方程,并進(jìn)行假設(shè)檢驗(yàn)?zāi)凶樱簍=5.941,=10,P0.001女子:t=7.317,=10,P0.10,按 = 0.10水準(zhǔn),不拒絕H0,可認(rèn)為兩總體回歸系數(shù)相等,即兩條直線平行。2526. 03714. 0)7561. 1(6623. 1t斜率相等,說(shuō)明兩條回歸線平行,但還不能說(shuō)明兩條回歸線重合。若需進(jìn)一步了解這兩條回

18、歸線是否重合,還須檢驗(yàn)兩條回歸線的截距是否相等。如果斜率不等,則沒(méi)有必要對(duì)截距進(jìn)行檢驗(yàn)。(P130)過(guò)定點(diǎn)的直線回歸醫(yī)學(xué)研究中應(yīng)用直線回歸,經(jīng)常會(huì)遇到一種特殊情況,即所求回歸直線除了要根據(jù)若干對(duì)觀察值進(jìn)行最佳擬合外,還要求所擬合的直線必須經(jīng)過(guò)某一定點(diǎn)(X0,Y0)。這在應(yīng)用光電比色分析、熒光分析、火焰光度測(cè)定以及同位素測(cè)定等實(shí)驗(yàn)方法來(lái)繪制標(biāo)準(zhǔn)直線時(shí)常會(huì)遇到。 設(shè)有n對(duì)觀察值及定點(diǎn)(X0,Y0),求經(jīng)過(guò)此定點(diǎn)并擬合此n對(duì)(X,Y) 值的直線回歸方程為: 00YYb XX=n-1 2000)()(XXYYXXb20)(XXssXYbbsbt 在用熒光光度法測(cè)定全血硒的研究中,分別取不同硒含量的標(biāo)準(zhǔn)

19、液,消化后測(cè)定其熒光強(qiáng)度,試作標(biāo)準(zhǔn)直線。 含硒量(g)X熒光強(qiáng)度Y(X-X0)2= X2(Y-Y0)2= Y2(X-X0)(Y-Y0)= XY0.0254.360.00062519.0096000.1090000.0509.310.00250086.6761000.4655000.10017.130.010000293.4369001.7130000.15025.030.022500626.5009003.7545000.20033.220.0400001103.5684006.644000合計(jì)0.0756252129.19190012.6860007488.167075625. 068600

20、0.12bXY7488.167熒光強(qiáng)度Y00.025 0.05 0.075 0.1 0.125 0.15 0.175 0.2 05 10 15 20 25 30 35 硒含量X (g)直線回歸與直線相關(guān)的聯(lián)系 均表示線性關(guān)系; 符號(hào)相同:共變方向一致; 假設(shè)檢驗(yàn)結(jié)果相同:是否存在共變關(guān)系;總回SSSSrbbrllrblllrllbyxxyxxyyyyxxxyxxxy 2. , ,決定系數(shù) R直線回歸與直線相關(guān)的區(qū)別 r 沒(méi)有單位,b有單位;所以,相關(guān)系數(shù)與單位無(wú)關(guān),回歸系數(shù)與單位有關(guān); 相關(guān)表示相互關(guān)系;回歸表示數(shù)量依存關(guān)系; 對(duì)資料的要求不同: 當(dāng)X和Y都是隨機(jī)的,可以進(jìn)行相關(guān)和回歸分析;

21、當(dāng)Y是隨機(jī)的(X是控制的),理論上只能作回歸而不能作相關(guān)分析; I型回歸:X是精確控制的; II型回歸:X是隨機(jī)的。 由X推算Y: 由Y推算X:YbaXXbaYYXYXXYXY. 相關(guān)和回歸分析的正確應(yīng)用作直線回歸分析要有實(shí)際意義充分利用散點(diǎn)圖?;貧w系數(shù)的統(tǒng)計(jì)學(xué)意義。不能僅根據(jù)回歸系數(shù)假設(shè)檢驗(yàn)之P值判斷回歸效果的優(yōu)劣。對(duì)于判斷大樣本回歸系數(shù)的統(tǒng)計(jì)學(xué)意義尤其要謹(jǐn)慎。要想說(shuō)明回歸的貢獻(xiàn)大小,需用決定系數(shù)r2作定量的度量?;貧w關(guān)系可以內(nèi)插,不宜外延;應(yīng)用條件(LINELINE):線性(linear)獨(dú)立(independent)給定X時(shí),Y正態(tài)分布(normal)等方差(equal variance

22、)直線回歸不允許任意外推體重 X體表面積Y1112131415165.05.56.06.5內(nèi)插(Interpolate)外推(extrapolate)我國(guó)19401988年間不同月份的男性嬰兒死亡率()的季節(jié)性分析 男性嬰兒死亡率()月份事故發(fā)生數(shù)與時(shí)間的關(guān)系170事故數(shù)時(shí)間 (月)0102030405060708090 100 110 120 130 140 150 160400500600700800900100011001200給定X時(shí),Y是正態(tài)分布、等方差示意圖給定X時(shí),Y是正態(tài)分布、不等方差示意圖男性年齡與血糖的關(guān)系 (方差隨自變量的增加而增加)glucoseage203040506

23、0708036912其他的回歸分析多元線性回歸多元Logistic回歸時(shí)間序列回歸模型Poisson回歸等等廣義線性模型族多元線性回歸分析 考察多個(gè)因素對(duì)某一個(gè)結(jié)果的影響。 排除干擾因素(混雜因素)的影響,考察所關(guān)心的因素對(duì)結(jié)果的影響。01 1ppYbb xb x研究初生兒體重與胎兒的孕齡,頭徑,胸徑的關(guān)系 孕齡(天)頭徑(mm)胸徑(mm)新生兒體重(g)X1X2X3Y12891011093900228286842500327010210134004284989632005275101100310062851019432007270981033100825997802400928510910

24、2380010268103953200112801079935001226711290350013271100102300014283101106370015287102106390016273103102300017276102983100182761061033650參數(shù)估計(jì)結(jié)果變量回歸系數(shù)標(biāo)準(zhǔn)誤tPx122.166.093.640.003x242.648.604.960.000 x320.367.082.880.012截距-9181.341769.60-5.190.0001239181.3422.1642.6420.36yxxx 用多元回歸模型來(lái)預(yù)測(cè)孕齡為280天,頭徑為100mm,胸徑為100mm的胎兒,估計(jì)其出生體重為多少?9181.3422.16 28042.64 10020.36 1003325.23yg Logistic回歸模型若觀察結(jié)果為二分類的,可以使用Logistic回歸模型01 1Logitlog1ppPPbb xb xP研究產(chǎn)婦狀況(經(jīng)產(chǎn)、初產(chǎn))對(duì)電針引產(chǎn)成功率的影響,需要考慮胎膜狀況的干擾。胎膜x2產(chǎn)婦狀況x1例數(shù)成功失敗成功率已破初產(chǎn)3312587377.9%經(jīng)產(chǎn)6760790.0%未破初產(chǎn)27317010362.3%經(jīng)產(chǎn)100683268.0%建模結(jié)果變量OR標(biāo)準(zhǔn)誤ZP模型1產(chǎn)婦狀況1.35.271.470.1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論