醫(yī)學(xué)統(tǒng)計(jì)學(xué)-回歸與相關(guān)_第1頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)-回歸與相關(guān)_第2頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)-回歸與相關(guān)_第3頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)-回歸與相關(guān)_第4頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)-回歸與相關(guān)_第5頁
已閱讀5頁,還剩99頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

醫(yī)學(xué)統(tǒng)計(jì)學(xué)歡迎學(xué)習(xí)2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

醫(yī)學(xué)統(tǒng)計(jì)學(xué)

第十一章回歸與相關(guān)分析

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

本章學(xué)習(xí)重點(diǎn)1、直線回歸與相關(guān)的概念;2、直線回歸方程的建立;3、回歸系數(shù)、相關(guān)系數(shù)的建設(shè)檢驗(yàn);4、直線回歸與相關(guān)的區(qū)別和聯(lián)系;5、直線回歸與相關(guān)的應(yīng)用。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編回歸與相關(guān)概述什么是標(biāo)準(zhǔn)體重,如何測(cè)量?

男性:身高(cm)-105=標(biāo)準(zhǔn)體重(kg)女性:身高(cm)-100=標(biāo)準(zhǔn)體重(kg)

北方人理想體重=(身高cm-150)×0.6+50(kg)南方人理想體重=(身高cm-150)×0.6+48(kg)2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

回歸與相關(guān)是研究變量之間相互關(guān)系的統(tǒng)計(jì)分析方法,它是一類雙變量或多變量統(tǒng)計(jì)分析方法(本章主要介紹雙變量分析方法),在實(shí)際之中有著廣泛的應(yīng)用。如年齡與體重、年齡與血壓、身高與體重、體重與肺活量、體重與體表面積、毒物劑量與動(dòng)物死亡率、污染物濃度與污染源距離等都要運(yùn)用回歸與相關(guān)方法對(duì)資料進(jìn)行統(tǒng)計(jì)分析。

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

變量之間的關(guān)系:(1)直線關(guān)系(線性關(guān)系);(2)曲線關(guān)系(非線性關(guān)系)。在回歸與相關(guān)分析中,直線回歸與相關(guān)是最簡單的一種,是本章主要內(nèi)容。

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編直線回歸分析:分析兩個(gè)變量間的數(shù)量關(guān)系,目的是用一個(gè)變量推算另一個(gè)變量(建立回歸方程)。

直線相關(guān)分析:分析兩個(gè)變量之間有無相關(guān)關(guān)系以及相關(guān)的性質(zhì)(正、負(fù)相關(guān))和相關(guān)的密切程度。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編第一節(jié)直線回歸

一、直線回歸的概念“回歸”一詞首先由英國生物統(tǒng)計(jì)學(xué)家S.F.Galton(1885)提出,他發(fā)現(xiàn),高個(gè)子的父代其子代平均身高不是更高,而是稍矮;相反,矮個(gè)子的父代其子代平均身高不是更矮,而是稍高于其父代水平,他把這種身高趨向種族穩(wěn)定的現(xiàn)象稱為“回歸”。目前回歸的含義已經(jīng)演變成變量之間的某種數(shù)量依存關(guān)系。

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編函數(shù)關(guān)系:確定的關(guān)系。例如園周長與半徑:y=2πr?;貧w關(guān)系:不確定的關(guān)系(隨機(jī)的關(guān)系)。例如血壓和年齡的關(guān)系,稱為直線回歸(linearregression)。

北方人理想體重=(身高cm-150)×0.6+50(kg)

變量間的關(guān)系2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

變量間的回歸關(guān)系

由于生物間存在變異,故兩相關(guān)變量之間的關(guān)系具有某種不確定性,如同性別、同年齡的人,其肺活量與體重有關(guān),肺活量隨體重的增加而增加,但體重相同的人其肺活量并不一定相等。因此,散點(diǎn)呈直線趨勢(shì),但并不是所有的散點(diǎn)均在同一條直線上,肺活量與體重的關(guān)系與嚴(yán)格對(duì)應(yīng)的函數(shù)關(guān)系不同,它們之間是一種回歸關(guān)系,稱直線回歸。這種關(guān)系是用直線回歸方程來定量描述。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編回歸分析涉及到兩個(gè)變量,X與Y,其中X稱自變量,Y為因變量或反應(yīng)變量。回歸分析對(duì)資料的要求Y—必須是呈正態(tài)分布的隨機(jī)變量。可以是非隨機(jī)變量:年齡、藥物濃度或劑量—Ⅰ型回歸也可以是隨機(jī)變量:身高、體重、血清膽固醇的含量,血紅蛋白的含量—Ⅱ型回歸X2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

X與Y:年齡與身高藥物劑量與動(dòng)物死亡率肺活量與體重身高與體重、年齡與體重、年齡與血壓、體重與體表面積、毒物劑量與動(dòng)物死亡率、污染物濃度與污染源距離2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編例如:年齡(X)與尿肌酐含量(Y)研究;身高(X)與(Y)體重研究人為確定隨機(jī)變量兩個(gè)都是隨機(jī)變量2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編由X推算Y的直線回歸方程一般表達(dá)式(11-1)a稱為截距,b為回歸系數(shù),即直線的斜率。ab>0yx2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編2、回歸系數(shù)b的統(tǒng)計(jì)學(xué)意義b>0時(shí),Y隨X增大而增大;b<0時(shí),Y隨X的增大而減少;b=0時(shí),X與Y無直線關(guān)系。b的統(tǒng)計(jì)學(xué)意義是:X每增(減)一個(gè)單位,Y平均改變b個(gè)單位。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編b>0b<0b>0b<0d2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編b=0b=0b=0b=0d2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

二、直線回歸方程的建立

式中、分別是X、Y的均數(shù);為X的離均差平方和;為X與Y的離均差積和,按下式計(jì)算。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編回歸分析的步驟1、用原始數(shù)據(jù)繪制散點(diǎn)圖;2、求a和b(如果呈直線關(guān)系)3、對(duì)回歸系數(shù)b作假設(shè)檢驗(yàn)(方法:a.F檢驗(yàn)b.t檢驗(yàn)c.用r檢驗(yàn)來代替)。

4、如果x與y存在直線關(guān)系(b假設(shè)檢驗(yàn)的結(jié)果P<0.05),列出回歸方程。否則,不列回歸方程。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編例11.12/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

(1)畫散點(diǎn)圖2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編求ΣX、ΣY、ΣX2、ΣY2及ΣXY;本例:ΣX=592.6、ΣY=1428.70;ΣX2=41222.14,ΣY2=220360.47;ΣXY=91866.46計(jì)算、、lxx、lyy、lxy;(2)計(jì)算a、b2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編(4)列出回歸方程:(3)對(duì)回歸系數(shù)b作假設(shè)檢驗(yàn)(見下)2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

三、回歸系數(shù)b的假設(shè)檢驗(yàn)

所建立的回歸方程,不一定都有意義,必須對(duì)回歸方程和回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)。直線回歸方程一般只對(duì)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

P(X,Y)

Y

X

圖11.2應(yīng)變量Y的平方和劃分示意

Y的離均差平方和的劃分2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編P為散點(diǎn)圖上任意一點(diǎn),其縱向距離(縱坐標(biāo))被回歸直線和Y值的均數(shù)分割三段:第一段:表示P點(diǎn)與回歸直線的縱向距離,即實(shí)測(cè)值Y與估計(jì)值之差,稱剩余或殘差。第二段:即估計(jì)值與均數(shù)之差,它與回歸系數(shù)的大小有關(guān)。|b|值越大,的差值也越大,反之越小。當(dāng)b=0時(shí),則=也就是回歸直線并不能使殘差減小。第三段:,是應(yīng)變量Y的均數(shù)。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編上述三個(gè)線段的代數(shù)和為:=++

移項(xiàng)得:=+對(duì)上式兩邊同時(shí)平方后求和可以得到:其中:稱總平方和,用SS總表示,稱回歸平方和,用SS回表示;稱剩余平方和,用SS剩表示。

1、三種平方和的關(guān)系是:SS總=SS回+SS剩

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編2、三種平方和的意義(1)SS總,為Y值的離均差平方和,說明未考慮X與Y的回歸關(guān)系時(shí)Y總的變異。(2)SS回,它反映在Y的變異中由于X與Y的直線關(guān)系而使Y變異減少的部分,也是在總平方和中可以用X解析的部分。SS回越大,說明回歸效果越好。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編3、三種平方和的自由度及其關(guān)系如下

υ總=n-1,υ回=1,υ剩=n-2υ總=υ回+υ剩

(3)SS剩,反映X對(duì)Y的線性影響之外其它因素對(duì)Y的變異的作用,也是在總平方和中無法用X解析的部分。SS剩越小,說明回歸方程的估計(jì)誤差越小。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編SS回及SS剩的計(jì)算方法

1、先計(jì)算SS剩,再反推SS回SS剩的計(jì)算采用直接法進(jìn)行,見表11.1;SS剩=7746.2189,SS總=16242.101,則SS回=SS總-SS剩=16242.101-7746.2189=8495.8821。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編2、先計(jì)算SS回,再反推SS剩SS回=blxy=(lxy)2/lxx本例lxx=6104.664,lxy=7201.70,lyy=16242.101,則SS回=(7201.70)2/6104.664=8495.878379SS剩=SS總-SS回=16242.101-8495.878379=7746.222622/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

(三)b的假設(shè)檢驗(yàn)方法

1、方差分析方法將SS總分解為SS回和SS剩兩部分后,按下式計(jì)算F值:MS回,MS剩分別為回歸均方及剩余均方,求出F值后查F界值表確定P值,按所取檢驗(yàn)水準(zhǔn)推斷結(jié)論。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編2、t檢驗(yàn)法按下列公式計(jì)算t值:上式中,Sb為樣本回歸系數(shù)的標(biāo)準(zhǔn)誤,Sy.x為剩余標(biāo)準(zhǔn)差,也稱回歸標(biāo)準(zhǔn)差,它表示應(yīng)變量Y的觀察值對(duì)于回歸直線的離散程度;Sy.x可以作為回歸方程估計(jì)的精度指標(biāo)。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編(四)例1.1回歸系數(shù)b的假設(shè)檢驗(yàn)

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編1、t檢驗(yàn)方法假設(shè)及檢驗(yàn)水準(zhǔn)H0:β=0H1:β≠0α=0.05本例n=10,SS剩=7746.2189

,lxx=306.6667,b=1.17972/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

按v=8查t界值表得,t0.02,8=2.821,t0.01,8=3.2501由于t0.01,8>t>t0.02,8,故0.02>P>0.01,按α=0.05水準(zhǔn),拒絕H0,接受H1,故可以認(rèn)為SAH患者血清IL-6和腦積液IL-6之間有直線關(guān)系,所求回歸方程存在。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

2、方差分析方法

假設(shè)及檢驗(yàn)水準(zhǔn)同前

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編方差分析表

變異來源自由度SSMSFP

回歸18495.8838495.8838.7740.018殘差87746.2161968.277總變異916242.1000注意:t2=F2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編按v1=1,v2=8,查F界值表得,F(xiàn)0.05,1,8=5.32,F0.01,1,8=11.26,0.05>P>0.01,按α=0.05水準(zhǔn),拒絕H0,接受H1,故可以認(rèn)為SAH患者血清IL-6和腦積液IL-6之間有直線關(guān)系,所求回歸方程存在。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編直線回歸分析的區(qū)間估計(jì)(一)總體回歸系數(shù)β的估計(jì)用樣本回歸系數(shù)b估計(jì)總體回歸系數(shù)β,方法如下:β95%可信區(qū)間是:(b-t0.05,(n-2)Sb,b+t0.05,(n-2)Sb),縮寫為b±t0.05,(n-2)Sb

Sb為回歸系數(shù)的標(biāo)準(zhǔn)誤,n-2為自由度。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

(二)總體均數(shù)

的區(qū)間估計(jì)是總體中當(dāng)X為某定值X0時(shí)Y的總體均數(shù)。而將X的值代入回歸方程中所求得的為樣本均數(shù),是的估計(jì)值。比如,SAH患者(指總體),血清IL-6為50的人,其腦脊液IL-6平均含量就是,而往往未知,可以通過來估計(jì),計(jì)算方法如下:2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編(1-)的可信區(qū)間是:(-tα,n-2,+tα,n-2),縮寫為±tα,n-2

是的標(biāo)準(zhǔn)誤。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編例11.4利用例11.1的結(jié)果,計(jì)算當(dāng)X0=50時(shí),的95%可信區(qū)間。的95%可信區(qū)間為:(109.43,154.47)其含義是:當(dāng)血清IL-6為50時(shí),腦脊液的IL-6的總體均數(shù)為131.95(點(diǎn)值估計(jì)),95%可信區(qū)間為:109.43-154.47(區(qū)間估計(jì))。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編(三)個(gè)體值Y的容許區(qū)間當(dāng)即總體中,當(dāng)X為某定值時(shí),個(gè)體值Y的波動(dòng)范圍,個(gè)體值Y的離散程度用Sy(稱個(gè)體值的標(biāo)準(zhǔn)差)來表示,其計(jì)算方法如下:當(dāng)X與接近,且n充分大時(shí),可用Sy.x代替Sy。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編個(gè)體值Y的1-α容許區(qū)間計(jì)算方法如下:2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編例11.4利用例11.1的結(jié)果,計(jì)算當(dāng)X0=50時(shí),相應(yīng)個(gè)體值的95%容許區(qū)間。經(jīng)計(jì)算,得:當(dāng)X0=50時(shí),相應(yīng)個(gè)體值的95%容許區(qū)間為:(56.73,207.16)其含義是:當(dāng)血清IL-6為50時(shí),有95%的病人其腦脊液的IL-6的含量在56.73-207.16范圍內(nèi)。即在100個(gè)血清IL-6為50的病人中,有95個(gè)病人的腦脊液的IL-6的含量在56.73-207.16范圍內(nèi)。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編四、直線回歸方程的應(yīng)用1、描述兩變量間依存的數(shù)量關(guān)系。=72.961+1.1797X就是描述SAH患者第1天腦脊液IL-6隨血清IL-6變化的定量表達(dá)式。2、利用回歸方程進(jìn)行預(yù)測(cè)這是回歸方程重要的應(yīng)用方面。將預(yù)報(bào)因子(自變量X)代入回歸方程,對(duì)預(yù)報(bào)量(應(yīng)變量Y)進(jìn)行估計(jì)。預(yù)報(bào)量的波動(dòng)范圍可按求個(gè)體值Y的容許區(qū)間進(jìn)行計(jì)算。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編例某地防疫站根據(jù)近10年來乙腦發(fā)病率(1/10萬,預(yù)報(bào)量Y)與相應(yīng)前一年7月份日照時(shí)間(小時(shí),預(yù)報(bào)因子X)建立回歸方程,將乙腦發(fā)病率作平方根反正弦變換,即取y=sin-1,求得回歸方程:=-1.197+0.0068X,Sy.x=0.0223,=237.43,lxx=5690,n=10。已知1990年7月份日照時(shí)間X=260,試估計(jì)1991年該地乙腦發(fā)病率(設(shè)α=0.05)。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

(1)、求個(gè)體值Y的離散度Sy

(2)、求X=260時(shí),=-1.197+0.0068(260)=0.571α=0.05時(shí),t0.05,8=2.30695%容許區(qū)間是:(-t0.05(n-2)Sy,+t0.05(n-2)Sy)(0.571-2.306×0.0243,0.571+2.306×0.0243)=(0.5150,0.6270)2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編取原函數(shù),Y=(siny)2,得乙腦發(fā)病率95%容許區(qū)間(0.0000808,0.0001197),故可預(yù)測(cè)該地1991年乙腦發(fā)病率有95%的可能在8.08~11.97/10萬之間。(注:將y還原時(shí),角度單位定為度)2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編3、用容易測(cè)量的指標(biāo)估計(jì)不易測(cè)量的指標(biāo)4、利用回歸方程制定醫(yī)學(xué)參考值范圍體重(易)→體表面積(難)計(jì)算個(gè)體值Y的容許區(qū)間。如年齡與身高有線性關(guān)系,可根據(jù)回歸方程估計(jì)年齡為X時(shí),身高的波動(dòng)范圍(容許區(qū)間),即醫(yī)學(xué)參考值范圍。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編5、利用回歸進(jìn)行統(tǒng)計(jì)控制統(tǒng)計(jì)控制是利用回歸方程進(jìn)行逆估計(jì),也就是已知y之后反推x。如要求y在一定范圍內(nèi)波動(dòng)時(shí),可按求Y的容許區(qū)間來推算x的取值來實(shí)現(xiàn)。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編例:某市環(huán)境監(jiān)測(cè)站在交通點(diǎn)連續(xù)測(cè)定30天,每天定時(shí)采樣3次,測(cè)得大氣中NO2濃度Y(mg/m3)與當(dāng)時(shí)汽車流量X(輛/小時(shí)),共90對(duì)數(shù)據(jù),求得回歸方程:=-0.064866+0.000133X,

剩余標(biāo)準(zhǔn)差Sy.x=0.032522,若NO2的最大容許濃度為0.15/m3,則汽車流量應(yīng)如何控制?設(shè)α=0.05。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編分析:NO2的濃度以過高為異常,應(yīng)求個(gè)體值y的單側(cè)波動(dòng)范圍的上限值,其95%的波動(dòng)范圍是:+t(0.05,v)Sy=-0.064866+0.000133X+t(0.05,v)Sy要求NO2的最高容許濃度為0.15,即:-0.064866+0.000133X+t(0.05,v)Sy=0.152/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編單側(cè)t0.05,(90-2)=1.662,以Sy.x代替Sy,帶入上式得:-0.064866+0.000133X+1.662×0.032522=0.15解上式得:X=1209.13(輛/小時(shí))即只要把汽車流量控制在1209輛/小時(shí)以下,就有95%的可能使NO2濃度不超過0.15mg/m3。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編(1)作回歸分析要有實(shí)際意義。(2)進(jìn)行直線回歸分析前,應(yīng)繪制散點(diǎn)圖。作用:①看散點(diǎn)是否呈直線趨勢(shì);②有無異常點(diǎn)、高杠桿點(diǎn)和強(qiáng)影響點(diǎn);五、應(yīng)用直線回歸分析應(yīng)注意的問題異常點(diǎn)2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編(3)注意建立線性回歸模型的基本條件

線性、獨(dú)立性、正態(tài)性、方差齊性(4)直線回歸方程的適用范圍以求回歸方程時(shí)X的實(shí)測(cè)值范圍為限;若無充分理由證明超過該范圍還是直線,應(yīng)避免外延。(5)兩變量有線性關(guān)系,不一定是因果關(guān)系,也不一定表明兩變量間確有內(nèi)在聯(lián)系。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

一、直線相關(guān)的概念

在實(shí)際應(yīng)用中若只需了解兩個(gè)隨機(jī)變量之間相互關(guān)系的情況,而不要求由X推算Y,此時(shí)就宜進(jìn)行直線相關(guān)分析(積差相關(guān)分析)。

1、相關(guān)分析的目的分析隨機(jī)變量X與Y是否有直線相關(guān)關(guān)系以及相關(guān)的性質(zhì)和相關(guān)的密切程度等(暫不考慮X和Y數(shù)量上的關(guān)系)。直線相關(guān)的性質(zhì)可通過散點(diǎn)圖直觀地說明。

第二節(jié)直線相關(guān)2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

直線相關(guān)的性質(zhì)(1)正相關(guān)(Y隨X的增大而增大,如散點(diǎn)在一直線上,稱完全正相關(guān));(2)負(fù)相關(guān)(Y隨X的增大而減小,如散點(diǎn)在一直線上,稱完全負(fù)相關(guān));

(3)零相關(guān):散點(diǎn)分布呈圓形等,反映兩變量間無直線關(guān)系,也可能存在曲線關(guān)系。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

2、相關(guān)分析對(duì)資料的要求要求X與Y均呈正態(tài)分布的隨機(jī)變量,稱雙變量正態(tài)分布資料。

3、相關(guān)分析方法相關(guān)分析是通過計(jì)算相關(guān)系數(shù)r(稱積差相關(guān)系數(shù))來定量地描述隨機(jī)變量X與Y之間的關(guān)系。計(jì)算r之后,還要對(duì)r是否來自ρ=0的總體進(jìn)行假設(shè)檢驗(yàn)(采用t檢驗(yàn)或直接查r界值表確定P值。

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編注意:通過相關(guān)分析認(rèn)為X與Y有相關(guān)關(guān)系,并不一定是因果關(guān)系,可能是一種伴隨關(guān)系,即X與Y同時(shí)受到另外一個(gè)因素的影響。因此,相關(guān)分析的任務(wù)就是對(duì)兩變量之間的關(guān)系給以定量的描述。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編二、相關(guān)系數(shù)的意義及計(jì)算

1、r的計(jì)算方法

式中l(wèi)xy稱X和Y的離均差積和,lxx稱X的離均差平方和;lyy稱Y的離均差平方和。

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

2、相關(guān)系數(shù)r的意義

r稱為積差相關(guān)系數(shù),沒有單位,它反映具有直線關(guān)系的兩個(gè)變量間,相關(guān)關(guān)系的密切程度和相關(guān)性質(zhì)的指標(biāo),取值范圍是-1≤r≤1。r為正表示正相關(guān),r為負(fù)表示負(fù)相關(guān),r的絕對(duì)值越大,則變量間的關(guān)系越密切;|r|=1,稱為完全正(或負(fù))相關(guān)。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編3、相關(guān)系數(shù)的計(jì)算例11.5對(duì)例11.1的資料計(jì)算SAH患者血清IL-6和腦脊液IL-6的相關(guān)系數(shù)。因?yàn)檠錓L-6和腦脊液IL-6均是隨機(jī)變量,且呈正態(tài)分布(可經(jīng)檢驗(yàn)證明),兩變量呈直線趨勢(shì)(見圖11.1),故可進(jìn)行直線相關(guān)分析。已知:lxx=6104.66,lyy=16242.10,lxy=7201.70

即血清IL-6和腦脊液IL-6的相關(guān)系數(shù)r=0.74952/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

三、相關(guān)系數(shù)的假設(shè)檢驗(yàn)根據(jù)樣本資料計(jì)算所得的相關(guān)系數(shù)r,稱樣本相關(guān)系數(shù),由于存在抽樣誤差,盡管r不為0,尚不能說明兩變量之間有直線相關(guān)關(guān)系。因此,要對(duì)r是否來自ρ=0的總體進(jìn)行假設(shè)檢驗(yàn)。可用t檢驗(yàn)或直接查附表15,r界值表確定P值。檢驗(yàn)統(tǒng)計(jì)量t值的計(jì)算方法如下:2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

對(duì)例11.5計(jì)算所得r進(jìn)行檢驗(yàn),以說明血清IL-6和腦脊液IL-6是否有直線相關(guān)關(guān)系。H0:ρ=0,血清IL-6和腦脊液IL-6之間無直線相關(guān)關(guān)系H1:ρ≠0,血清IL-6和腦脊液IL-6之間有直線相關(guān)關(guān)系α=0.05本例:n=10,r=0.7232,按式(11.19)得:ν=10-2=8,查附表2,t界值表得,t0.02,8=2.896,t0.01,8=2.998。因?yàn)閠0.01,8>t>t0.02,8,所以0.02>P>0.01。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

按α=0.05水準(zhǔn),拒絕H0,接受H1,可以認(rèn)為血清IL-6和腦脊液IL-6之間呈正的直線相關(guān)關(guān)系。也可以按直接查附表15,r界值表(P280),確定P值。r0.02,8=0.715,r0.01,8=0.765。r0.02,8<r<r0.01,8,故0.02>P>0.01,結(jié)論同上。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編直線回歸與相關(guān)的區(qū)別和聯(lián)系一、區(qū)別

1、對(duì)資料要求不同(1)回歸分析要求因變量Y是服從正態(tài)分布的隨機(jī)變量,X是可以精確測(cè)量和嚴(yán)格控制的變量,一般稱Ⅰ型回歸,即只能由X作自變量推算Y。(2)相關(guān)分析要求兩個(gè)變量X、Y是均服從正態(tài)分布的隨機(jī)變量,即雙變量正態(tài)分布。對(duì)這種資料進(jìn)行回歸分析稱Ⅱ型回歸,可以求出兩個(gè)方程:2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編由X推算Y的方程:由Y推算X的方程:

2、應(yīng)用不同:說明兩變量間依存變化的數(shù)量關(guān)系用回歸,說明變量間的相關(guān)關(guān)系用相關(guān)。

3、意義不同:b表示X每增(減)一個(gè)單位,Y平均改變b個(gè)單位;r說明具有直線關(guān)系的兩個(gè)變量間相關(guān)關(guān)系的密切程度與相關(guān)的方向。

4、算方法不同。

5、取值范圍不同;-1≤r≤1,-∞<b<+∞。

6、b有單位,r沒有單位。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編二、聯(lián)系1、對(duì)一組數(shù)據(jù)若同時(shí)計(jì)算r與b,則它們的正負(fù)號(hào)是一致的。2、r和b的假設(shè)檢驗(yàn)是等價(jià)的,即對(duì)同一資料,兩者的t值相等()。在實(shí)際中常采用對(duì)r的檢驗(yàn)來代替對(duì)b的檢驗(yàn)。3、可用回歸解析相關(guān)。

r的平方,即r2,稱決定系數(shù),它說明回歸平方和(SS回)占總平方和(SS總)的比重,其取值范圍在0~1之間。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

上式說明,當(dāng)SS總固定不變時(shí),SS回的大小取決于r2。r2越大,則SS回就越大;SS回是由于引入了相關(guān)變量后使總平方和減少的部分。SS回越接近SS總,則r2越接近1,說明引入相關(guān)變量的效果越好。在臨床研究中,若r2達(dá)到0.7以上,就可認(rèn)為回歸效果不錯(cuò);但在實(shí)驗(yàn)室研究中,如標(biāo)準(zhǔn)曲線的配制,r2的要求很高,達(dá)到0.95以上。

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

可通過r2的大小來確定兩變量間相關(guān)關(guān)系的實(shí)際意義。例如r=0.2,n=100時(shí),可以認(rèn)為兩變量間有直線相關(guān)關(guān)系,但r2=0.04,表示回歸平方和在總平方和中僅占4%,即X對(duì)Y的影響僅占4%,實(shí)際意義不大。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編等級(jí)相關(guān)分析適用資料(1)不服從雙變量正態(tài)分布而不宜作積差相關(guān)分析;(2)總體分布型未知;(3)原始數(shù)據(jù)用等級(jí)表示。第三節(jié)秩相關(guān)(等級(jí)相關(guān))2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

一、Spearman等級(jí)相關(guān)與積差相關(guān)分析一樣,等級(jí)相關(guān)分析是用等級(jí)相關(guān)系數(shù)rs來說明兩個(gè)具有直線關(guān)系的兩個(gè)變量間相關(guān)的密切程度與相關(guān)方向。rs計(jì)算方法如下:上式中,為每對(duì)觀察值Xi、Yi的秩次Ui、Vi之差,n為對(duì)子數(shù)。

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編rs為樣本等級(jí)相關(guān)系數(shù),是總體等級(jí)相關(guān)系數(shù)ρs的估計(jì)值,其取值范圍是:-1≤rs≤1。rs的意義同r。求出rs后還要檢驗(yàn)rs是否來自ρs=0的總體,才能確定兩變量間是否存在直線相關(guān)關(guān)系。對(duì)rs的假設(shè)檢驗(yàn)可用查表法(附表16,rs界值表),或用下式作u檢驗(yàn)(當(dāng)n>50時(shí),用該法)。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

例11.6某地作肝癌病因研究,調(diào)查了10個(gè)鄉(xiāng)肝癌死亡率(1/10萬)與食物中黃曲酶毒素相對(duì)含量(以最高就含量為10),見表11.6(2)、(4)欄。試作等級(jí)相關(guān)分析。

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

表11.6等級(jí)相關(guān)系數(shù)計(jì)算表

黃曲霉毒素肝癌死亡率相對(duì)含量(1/10萬)dd2編號(hào)XUYV10.7121.53-2421.0218.920031.7314.412443.7446.57-3954.0527.341165.1664.69-3975.5746.361185.7834.253995.9977.610-111010.01055.1824

合計(jì)-----422/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編分析步驟如下:H0:ρs=0,即黃曲酶毒素含量與肝癌死亡率無直線關(guān)系H1:ρs≠0,即黃曲酶毒素含量與肝癌死亡率有直線關(guān)系α=0.05分別對(duì)X、Y的觀察值從小到大編秩,若有相同的觀察值則取平均秩次;求每對(duì)觀察值秩次之差值d、d2及Σd2。本例Σd2=42。

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編計(jì)算rs:n=10,查附表16,rs界值表得:rs(0.02,10)=0.745,P=0.02,按α=0.05水準(zhǔn),拒絕H0,接受H1,可以認(rèn)為黃曲霉毒素與肝癌死亡率之間存在正相關(guān)。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編三、rs的校正當(dāng)X及Y中,相同的秩次個(gè)數(shù)較多時(shí)(如等級(jí)資料),宜用下式計(jì)算校正rs。

上式Tx(或Ty)=Σ(t3-t)/12,t為X(或Y)中相同秩次的個(gè)數(shù)。顯然,當(dāng)Tx=Ty=0時(shí),式(11.23)與(11.21)相等。(11.23)2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編假設(shè)上例中,黃曲酶毒素相對(duì)含量,1~5號(hào)鄉(xiāng)相等,這5個(gè)鄉(xiāng)平均秩次皆為(1+2+3+4+5)/5=3,則t=5;6~8號(hào)鄉(xiāng)相同,平均秩次為7,則t=3;9~10號(hào)鄉(xiāng)相同,平均秩次為9.5,則t=2。而肝癌發(fā)病率沒有相同的秩次,故Tx=[(53-5)+(33-3)+(23-2)]/12=12.5;Ty=0據(jù)此假設(shè)算得Σd2=33.5,則:2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編今以n=10,查附表15,0.02>P>0.01。如不校正0.01>P>0.005,可見若相同秩次較多時(shí),如不校正,則rs偏大,而P值偏小。

2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

一、曲線擬合的意義在醫(yī)學(xué)研究中,兩變量之間的關(guān)系有時(shí)不呈直線而呈曲線關(guān)系。如藥物在體內(nèi)的濃度與時(shí)間的關(guān)系,兒童年齡與身長發(fā)育的關(guān)系等都不是簡單的直線關(guān)系,這種資料就不能用直線回歸分析,有時(shí)可以通過適當(dāng)?shù)淖兞孔儞Q使之直線化,從而擴(kuò)大了直線回歸的應(yīng)用。

第四節(jié)曲線擬合2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

1、曲線擬合:就是用適當(dāng)?shù)那€方程來描述變量之間的變化關(guān)系。曲線擬合最基本方法是曲線直線化,即通過適當(dāng)?shù)淖兞孔儞Q,使曲線關(guān)系變?yōu)橹本€關(guān)系,然后用直線回歸分析方法求出直線方程,然后還原為曲線方程。

2、直接使用變量變換后的直線回歸:若兩變量呈曲線趨勢(shì),常使用直線化回歸方程,繪制標(biāo)準(zhǔn)曲線。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編二、曲線擬合步驟

1、選定曲線類型

指數(shù)曲線示意圖2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編

2、將變量作對(duì)數(shù)變換選定X(或K-X)或Y(或K-Y)進(jìn)行對(duì)數(shù)變換,K為常量,使變換后的兩變量呈直線關(guān)系。也可以將實(shí)測(cè)數(shù)據(jù)在半對(duì)數(shù)坐標(biāo)紙上作直線化嘗試。2/7/2023廣西醫(yī)科大學(xué)衛(wèi)統(tǒng)黃高明編3、按求直線回歸方程的方法求直線化方程;4、將直線化方程轉(zhuǎn)為曲線方程,作曲線圖。

表11.7某地氰化物濃度與污染源距離的關(guān)系━━━━━━━━━━━━━━━━━━━━━與污染源氰化物距離(m)濃度(mg/m3)XYy=lgYY(1)(2)(3)(4)─────────────────────500.687-0.16300.5841000.398-0.40010.3641500.200-.069900.2272000.121-0.91720.1422500.090-1.0458

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論