醫(yī)學統(tǒng)計學—相關回歸_第1頁
醫(yī)學統(tǒng)計學—相關回歸_第2頁
醫(yī)學統(tǒng)計學—相關回歸_第3頁
醫(yī)學統(tǒng)計學—相關回歸_第4頁
醫(yī)學統(tǒng)計學—相關回歸_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、相關回歸相關回歸 前面所研究的都是某個隨機變量,對其進行統(tǒng)計描述前面所研究的都是某個隨機變量,對其進行統(tǒng)計描述和統(tǒng)計推斷(單變量研究)。但在醫(yī)學科研中,常要分析和統(tǒng)計推斷(單變量研究)。但在醫(yī)學科研中,常要分析變量間的關系,如年齡和血壓、身高和體重、體重和體表變量間的關系,如年齡和血壓、身高和體重、體重和體表面積等。面積等。變量間的關系:變量間的關系:1、確定性關系、確定性關系 (1)因果關系)因果關系 (函數(shù)關系)(函數(shù)關系) (2)伴隨關系)伴隨關系2、非確定性關系(、非確定性關系(1)因果關系)因果關系 (2)伴隨關系)伴隨關系編 號 1 2 3 4 5 6 7 8 9 10 11 12

2、 13 X(kg) 25.5 19.5 24.0 20.5 25.0 22.0 21.5 23.5 26.5 23.5 22.0 20.0 28.0 Y(cm) 9.2 7.8 9.4 8.6 9.0 8.8 9.0 9.4 9.7 8.8 8.5 8.2 9.9 第一節(jié)第一節(jié) 直線回歸直線回歸直線回歸方程:表示兩變量不確定的函數(shù)關系,對觀察值直線回歸方程:表示兩變量不確定的函數(shù)關系,對觀察值最具代表性、但各觀察點并不完全在一直線上,具有某種最具代表性、但各觀察點并不完全在一直線上,具有某種不確定性關系的方程稱為直線回歸方程。不確定性關系的方程稱為直線回歸方程。一、概念一、概念bXaY(一)一

3、)x和和y的地位不同:的地位不同:x是自變量,是自變量,y應變量應變量1、如果兩變量存在因果關系,原因變量為自變量,結、如果兩變量存在因果關系,原因變量為自變量,結果變量為應變量;果變量為應變量;2、如不存在因果關系或不明確是否存在因果關系,較、如不存在因果關系或不明確是否存在因果關系,較穩(wěn)定易測量的為自變量,不易測量的為應變量。穩(wěn)定易測量的為自變量,不易測量的為應變量。(二)線性回歸模型及其應用條件二)線性回歸模型及其應用條件iiiXY線性回歸模型的前提條件是:線性(線性回歸模型的前提條件是:線性(linear)linear)、獨立獨立( (independent)independent),

4、正態(tài)正態(tài)( (normal)normal),等方等方差差( (equal variance)equal variance)1 1、線性是指應變量、線性是指應變量Y Y的總體平均值與自變量的總體平均值與自變量X X呈呈線性關系。線性關系。2、獨立獨立是指任意兩個觀察單位之間相互獨立。否則會是指任意兩個觀察單位之間相互獨立。否則會使參數(shù)估計值不夠準確和精確。使參數(shù)估計值不夠準確和精確。3 3、正態(tài)性正態(tài)性是指對任意給定的是指對任意給定的x x值,值,y y均服從正態(tài)分布,均服從正態(tài)分布,該正態(tài)分布的均數(shù)就是回歸直線上與該正態(tài)分布的均數(shù)就是回歸直線上與x x值相對應的那個值相對應的那個點的縱坐標。點

5、的縱坐標。 4 4、等方差、等方差是指在自變量的取值范圍內,是指在自變量的取值范圍內,X不論取什么不論取什么值,值,Y都具有相同的方差。若這一條件不滿足,回歸都具有相同的方差。若這一條件不滿足,回歸系數(shù)的估計有偏性,其置信區(qū)間及假設檢驗均不可靠系數(shù)的估計有偏性,其置信區(qū)間及假設檢驗均不可靠。 二、具體方法和步驟二、具體方法和步驟(一)直線回歸方程表達式(一)直線回歸方程表達式a為截距,回歸直線與縱軸交點到原點的距離為截距,回歸直線與縱軸交點到原點的距離a0: 交點在橫軸上方交點在橫軸上方a0 b0 b=0 統(tǒng)計學意義:統(tǒng)計學意義:x每改變一個單位,每改變一個單位,y平均改變平均改變b各單位。各

6、單位。應用最小二乘法原理求應用最小二乘法原理求a,b(最小二乘法原理可保證各實最小二乘法原理可保證各實測點至回歸直線的縱向距離的平方和最小。)測點至回歸直線的縱向距離的平方和最小。)XXXYllXXYYXXb2)()(XbYa最小二乘法最小二乘法即要求殘差平方和達到最小。達到最小。 2121iiniiniBXAYYYQQ值達到最小,值達到最小,a a和和b b應是下面方程組的解。應是下面方程組的解。 00BQAQ解以上方程組得:解以上方程組得:XbYallXXYYXXbXXXYiniiini211(二)具體步驟(二)具體步驟例:某醫(yī)生研究兒童體重與心臟橫徑的關系,測得例:某醫(yī)生研究兒童體重與心

7、臟橫徑的關系,測得13名名8歲正常男童的體重與心臟橫徑,數(shù)據(jù)見下表試作回歲正常男童的體重與心臟橫徑,數(shù)據(jù)見下表試作回歸分析。歸分析。 編號體重(kg,X)心臟橫徑(cm,Y)125.59.2219.57.8324.09.4420.58.6525.09.0622.08.8721.59.0823.59.4926.59.71023.58.81122.08.51220.08.21328.09.913名8歲健康男童體重與心臟橫徑的關系 1、以體重作為自變量,心臟橫徑作為因變量,作散點、以體重作為自變量,心臟橫徑作為因變量,作散點圖,發(fā)現(xiàn)呈直線趨勢,可擬合直線回歸方程。圖,發(fā)現(xiàn)呈直線趨勢,可擬合直線回歸方

8、程。圖10.1 13名8歲健康男童體重與心臟橫徑的關系7.588.599.51018202224262830體重(kg,X)心臟橫徑(cm,Y)本例 13n , 5 .301x, 75.70722x, 3 .116y , 63.10442y, 65.2713xy 19.23x , 95. 8y 2692.80135 .30175.7072222nxxlxx 1923. 4133 .11663.1044222nyylyy 3846.16133 .1165 .30165.2713nyxxylxy 故 2041. 02692.803846.16xxxyllb, 2121. 419.232041. 0

9、95. 8xbya 2、求、求a,b3、列出回歸方程、列出回歸方程xy2041. 02121. 44、在自變量的實測范圍內取相距較遠且易讀數(shù)的兩個、在自變量的實測范圍內取相距較遠且易讀數(shù)的兩個值,繪出回歸直線。值,繪出回歸直線。5、回歸方程的檢驗回歸方程的檢驗 (1)方差分析法)方差分析法其基本思想是將應變量其基本思想是將應變量Y的總變異的總變異SS總總分解為分解為SS回歸回歸和和SS剩余剩余,然后利用,然后利用F檢驗來判斷回歸方程是否成立。檢驗來判斷回歸方程是否成立。SS總即2)(YY,為 Y 的離均差平方和(total sum of squares) ,反映未考慮 X 與 Y的回歸關系時

10、Y 的變異,其意義可通過圖 12.2 加以說明。 P(X,Y) Y )(YY )(YY )(YY Y X X 圖 12.2 應變量 Y 的平方和劃分示意圖 任一點任一點P的縱坐標被回歸直線與均數(shù)的縱坐標被回歸直線與均數(shù) 截成三段:截成三段:第一段第一段 ,表示實測點,表示實測點P與回歸直線的縱向距離,與回歸直線的縱向距離,即實際值即實際值Y與估計值與估計值 之差,稱為剩余或殘差。之差,稱為剩余或殘差。第二段第二段 ,即,即Y估計值估計值 與均數(shù)與均數(shù) 之差,它與之差,它與回歸系數(shù)的大小有關。回歸系數(shù)的大小有關。|b|值越大,值越大, 也越大,反之也越大,反之亦然。當亦然。當b=0時,時, 亦為

11、零,則亦為零,則 = ,也就是回歸直線不能使殘差也就是回歸直線不能使殘差 減小。減小。)(YY YY)(YY Y)(YY )(YY )(YY )(YY )(YY 第三段第三段 ,是應變量,是應變量Y的均數(shù)。的均數(shù)。上述三段的代數(shù)和為:上述三段的代數(shù)和為:Y= + + 移項:移項:Y- = + P點是散點圖中任取的一點,將所有點都按上法處理,并點是散點圖中任取的一點,將所有點都按上法處理,并將等式兩端平方后再求和,將等式兩端平方后再求和,則有:則有: 上式用符號表示為:上式用符號表示為: SS總總=SS回回+SS剩剩 YY)(YY )(YY Y)(YY )(YY 222)()()(YYYYYYH

12、0:總體回歸系數(shù)總體回歸系數(shù) =0,即,即8歲男童心臟橫徑與體重之間歲男童心臟橫徑與體重之間不存在直線關系不存在直線關系H1:總體回歸系數(shù)總體回歸系數(shù) 0,即,即8歲男童心臟橫徑與體重之間歲男童心臟橫徑與體重之間存在直線關系存在直線關系 =0.051923. 4yylSS總, 121n總 3444. 32691.803846.1622xxxyxyllblSS回歸, 1回歸 8479. 03444. 31923. 4回歸總剩余SSSSSS, 112n剩余 39.43118479. 013444. 3剩余剩余回歸回歸剩余回歸SSSSMSMSF 查方差分析用的查方差分析用的F界值表,得界值表,得P0

13、.01,按按 =0.05水準拒絕水準拒絕H0,接受接受H1,認為認為8歲健康男童心臟橫徑與體重之間存在歲健康男童心臟橫徑與體重之間存在直線關系。直線關系。變異來源 SS MS F P 總 4.1923 12 回歸 3.3444 1 3.3444 43.39 0.01 剩余 0.8479 11 0.0771 資料的方差分析表資料的方差分析表(2)t檢驗:檢驗:H0:總體回歸系數(shù)總體回歸系數(shù) =0,即,即8歲男童心臟橫徑與體重之歲男童心臟橫徑與體重之間不存在直線關系間不存在直線關系H1:總體回歸系數(shù)總體回歸系數(shù) 0,即,即8歲男童心臟橫徑與體重之歲男童心臟橫徑與體重之間存在直線關系間存在直線關系

14、=0.052776. 00771. 0剩余MSSxy, 03098. 02692.802776. 0 xxxyblss 59. 603098. 02041. 0bsbt 按按 =11查查t界值表,得界值表,得P0.01,按按 =0.05水準拒絕水準拒絕H0,接接受受H1,認為認為8歲健康男童心臟橫徑與體重之間存在直線關歲健康男童心臟橫徑與體重之間存在直線關系。系。6、總體回歸系數(shù)、總體回歸系數(shù)的區(qū)間估計的區(qū)間估計根據(jù)參數(shù)估計原理,回歸系數(shù)根據(jù)參數(shù)估計原理,回歸系數(shù)b是總體回歸系數(shù)是總體回歸系數(shù)的的點估計,正像樣本均數(shù)不一定恰好等于總體均數(shù)一點估計,正像樣本均數(shù)不一定恰好等于總體均數(shù)一樣,需要通

15、過下面公式對總體回歸系數(shù)樣,需要通過下面公式對總體回歸系數(shù)進行區(qū)間估進行區(qū)間估計。計。),() 2() 2(bnbnStbStb (二)Y的區(qū)間估計 Y 是指總體中自變量 X 為某一定值 X0時,Y的總體均數(shù)。 對Y的估計可計算可信區(qū)間: ),()2()2(YnYnStYStY (12.16) 式中YS即Y的標準誤,可按下式計算: 220.)()(1XXXXnSSXYY (12.17) 式中 SY.X為剩余標準差。當XX0時,nSSXYY/.,此時,可信區(qū)間的范圍最窄,預測精度相對較高。 三、區(qū)間估計三、區(qū)間估計 (一(一)總體回歸系數(shù)的區(qū)間估計總體回歸系數(shù)的區(qū)間估計(三)個體Y值的容許區(qū)間

16、總體中,X為一定值時,個體Y值的波動范圍,可按下式求出: ),() 2() 2(YnYnStYStY (12.18) 式中SY為X取一定值時,個體Y值的標準差,其計算公式為 220.)()(11XXXXnSSXYY (12.19) 以上是給定某一個以上是給定某一個 時所對應的時所對應的 的置信區(qū)間和的置信區(qū)間和個體個體Y值的容許區(qū)間。若考慮值的容許區(qū)間。若考慮X的所有可能的取值,總體的所有可能的取值,總體均數(shù)的點估計就是根據(jù)樣本測量數(shù)據(jù)求得的回歸直均數(shù)的點估計就是根據(jù)樣本測量數(shù)據(jù)求得的回歸直線線 ,其,其 置信區(qū)間的上下限連起來置信區(qū)間的上下限連起來形成一個弧形區(qū)帶,稱為回歸直線的置信帶形成一

17、個弧形區(qū)帶,稱為回歸直線的置信帶(confidence band););而個體而個體Y值的值的100(1- )%容許容許區(qū)間的上下限連接起來形成的區(qū)帶稱為區(qū)間的上下限連接起來形成的區(qū)帶稱為Y值的預測帶值的預測帶(prediction band)。)。例例8.1中中8歲健康男童心臟橫徑依歲健康男童心臟橫徑依體重變化的回歸直線及其體重變化的回歸直線及其95%置信帶和置信帶和95%預測帶見圖預測帶見圖8-3。0 xX y bXaY)%1 (100圖8-3 8歲健康男童心臟橫徑與體重的回歸直線及其95%置信帶和個體Y值95%預測帶示意圖77.588.599.51010.5111820222426283

18、0體重(X,kg)心臟橫徑(Y,cm)四、回歸方程的應用四、回歸方程的應用(一一)定量描述兩變量之間的依存關系定量描述兩變量之間的依存關系對回歸系數(shù)對回歸系數(shù)b進行假設檢驗時,若有統(tǒng)計學意義進行假設檢驗時,若有統(tǒng)計學意義, 可認為可認為兩變量間存在直線回歸關系,則直線回歸方程即為兩個兩變量間存在直線回歸關系,則直線回歸方程即為兩個變量間依存關系的定量表達式。變量間依存關系的定量表達式。(二二)利用回歸方程進行預測利用回歸方程進行預測 1、點估計、點估計 2、 的置信區(qū)間的置信區(qū)間3 3、把預報因子(即自變量、把預報因子(即自變量x)代入回歸方程對預報量代入回歸方程對預報量(即因變量(即因變量Y

19、)進行估計,即可得到個體進行估計,即可得到個體Y值的容許區(qū)間。值的容許區(qū)間。例例10.4的結果即體重為的結果即體重為25.0kg的的8歲健康男童,估計其心歲健康男童,估計其心臟橫徑有臟橫徑有95%的可能性在的可能性在(8.6692,9.9610)cm的范圍內。的范圍內。 y (三三)利用回歸方程進行統(tǒng)計控制利用回歸方程進行統(tǒng)計控制 規(guī)定規(guī)定Y值的變化,通過控制值的變化,通過控制X的范圍來實現(xiàn)統(tǒng)計控制的的范圍來實現(xiàn)統(tǒng)計控制的目標目標,所以統(tǒng)計控制是利用回歸方程進行的逆估計。所以統(tǒng)計控制是利用回歸方程進行的逆估計。五、應用直線回歸的注意事項五、應用直線回歸的注意事項1、作回歸分析要有實際意義作回歸

20、分析要有實際意義 。2 2、直線回歸分析的資料,一般要求應變量、直線回歸分析的資料,一般要求應變量Y是來自正是來自正態(tài)總體的隨機變量,自變量態(tài)總體的隨機變量,自變量X可以是正態(tài)隨機變量,也可以是正態(tài)隨機變量,也可以是精確測量和嚴密控制的值??梢允蔷_測量和嚴密控制的值。 3、進行回歸分析時,應先繪制散點圖進行回歸分析時,應先繪制散點圖(scatter plot)。判斷有無直線趨勢判斷有無直線趨勢發(fā)現(xiàn)異常點發(fā)現(xiàn)異常點4 4、回歸直線可以內插,不要外延。、回歸直線可以內插,不要外延。 回歸殘差圖,以回歸殘差圖,以y為橫坐標,以標準化殘差為縱坐標。為橫坐標,以標準化殘差為縱坐標。Y181716151

21、41312標準化殘差2.01.51.0.50.0-.5-1.0-1.5-2.0第二節(jié)第二節(jié) 直線相關直線相關一、目的一、目的直線相關分析是描述兩變量間是否有直線關系以及直線直線相關分析是描述兩變量間是否有直線關系以及直線關系的方向和密切程度的分析方法。關系的方向和密切程度的分析方法。 二、應用條件二、應用條件用于雙變量正態(tài)分布用于雙變量正態(tài)分布(bi-variable normal distribution)資資料料,一般說來,兩個變量都是隨機變動的,不分主次,處一般說來,兩個變量都是隨機變動的,不分主次,處于同等地位。于同等地位。 三、相關的性質:三、相關的性質:直線相關的性質可由散點圖直觀

22、地說明直線相關的性質可由散點圖直觀地說明 正相關、負相關、完全正相關、完全負相關、零相關正相關、負相關、完全正相關、完全負相關、零相關 (a)0r1 (b)-1r50時,進行時,進行u檢驗,統(tǒng)計量檢驗,統(tǒng)計量u值的計算公式為:值的計算公式為: 1nrus例例10.7 在肝癌病因研究中,某地調查了在肝癌病因研究中,某地調查了10個鄉(xiāng)的肝癌個鄉(xiāng)的肝癌死亡率(死亡率(1/10萬)與種食物中黃曲霉毒素相對含量(最萬)與種食物中黃曲霉毒素相對含量(最高含量為高含量為10),見表),見表12.1。試作等級相關分析。試作等級相關分析。黃曲霉毒素相對含量 肝癌死亡率(1/10 萬) 鄉(xiāng)編號 (1) X (2)

23、 秩次 (3) Y (4) 秩次 (5) d (6)=(3)-(5) d2 (7) 1 0.7 1 21.5 3 2 4 2 1.0 2 18.9 2 0 0 3 1.7 3 14.4 1 2 4 4 3.7 4 46.5 7 -3 9 5 4.0 5 27.3 4 1 1 6 5.1 6 64.6 9 -3 9 7 5.5 7 46.3 6 1 1 8 5.7 8 34.2 5 3 9 9 5.9 9 77.6 10 1 1 10 10.0 10 55.1 8 2 4 合計 42 肝癌死亡率與黃曲霉毒素相對含量肝癌死亡率與黃曲霉毒素相對含量YXYXsTnnTnndTTnnr26/26/6/3

24、323第五節(jié)第五節(jié) 曲線擬合曲線擬合實際工作中,變量間未必都有線性關系,如服藥后血藥實際工作中,變量間未必都有線性關系,如服藥后血藥濃度與時間的關系;疾病療效與療程長短的關系;毒物濃度與時間的關系;疾病療效與療程長短的關系;毒物劑量與致死率的關系等常呈曲線關系。曲線擬合(劑量與致死率的關系等常呈曲線關系。曲線擬合(curve fitting)是指選擇適當?shù)那€類型來擬合觀測數(shù)據(jù),并用是指選擇適當?shù)那€類型來擬合觀測數(shù)據(jù),并用擬合的曲線方程分析兩變量間的關系。曲線擬合的方法擬合的曲線方程分析兩變量間的關系。曲線擬合的方法很多(包括曲線直線化和直接擬和曲線方程),本節(jié)只很多(包括曲線直線化和直接擬

25、和曲線方程),本節(jié)只介紹曲線直線化。介紹曲線直線化。一、曲線直線化的意義一、曲線直線化的意義曲線直線化是曲線擬合的重要手段之一。對于某些非線曲線直線化是曲線擬合的重要手段之一。對于某些非線性的資料可以通過簡單的變量變換使之直線化,這樣就性的資料可以通過簡單的變量變換使之直線化,這樣就可以按最小二乘法原理求出變換后變量的直線方程,在可以按最小二乘法原理求出變換后變量的直線方程,在實際工作中常利用此直線方程繪制資料的標準工作曲線,實際工作中常利用此直線方程繪制資料的標準工作曲線,同時根據(jù)需要可將此直線方程還原為曲線方程,實現(xiàn)對同時根據(jù)需要可將此直線方程還原為曲線方程,實現(xiàn)對資料的曲線擬合。資料的曲

26、線擬合。二、常用的非線性函數(shù)二、常用的非線性函數(shù)1.指數(shù)函數(shù)指數(shù)函數(shù)(exponential function) Y=aebX (12.29)對式(對式(12.29)兩邊取對數(shù),得)兩邊取對數(shù),得lnY=lna+bX (12.30)b0時,時,Y隨隨X增大而增大;增大而增大;b0,X0) (12.34) 式中b0時,Y隨X增大而增大;b0,a0 k=1時的直線化方程時的直線化方程xbaYY1ln5、多項式函數(shù)(多項式函數(shù)(polynomial functionpolynomial function):):ppxbxbxbaY221221xbxbaY該曲線形如拋物線該曲線形如拋物線 三、利用線性回歸擬合曲線的一般步驟三、利用線性回歸擬合曲線的一般步驟 (一)繪制散點圖,選擇合適的曲線類型(一)繪制散點圖,選擇合適的曲線類型一般根據(jù)資料性質結合專業(yè)知識便可確定資料的曲線類型,一般根據(jù)資料性質結合專業(yè)知識便可確定資料的曲線類型,不能確定時,可在方格坐標紙上繪制散點圖,根據(jù)散點的不能確定時,可在方格坐標紙上繪制散點圖,根據(jù)散點的分布,選擇接近的、合適的曲線類型。分布,選擇接近的、合適的曲線類型。(二)進行變量變換(二)進行變量變換Y Y=f(Y),X=f(Y),X=g(X

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論