




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、華中科技大學(xué)公衛(wèi)學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)系蔣紅衛(wèi)蔣紅衛(wèi)Email: JHWCCC21CN.COM學(xué)習(xí)目標(biāo)學(xué)習(xí)目標(biāo) 了解了解LogisticLogistic回歸模型的建立和假設(shè)檢驗(yàn);回歸模型的建立和假設(shè)檢驗(yàn); 了解了解LogisticLogistic回歸模型的應(yīng)用領(lǐng)域;回歸模型的應(yīng)用領(lǐng)域; 掌握掌握LogisticLogistic回歸模型系數(shù)的解釋,及回歸系數(shù)回歸模型系數(shù)的解釋,及回歸系數(shù)與與OROR值之間的關(guān)系;值之間的關(guān)系; 掌握掌握LogisticLogistic回歸過程步;回歸過程步; 掌握啞變量的設(shè)置和結(jié)果的解釋;掌握啞變量的設(shè)置和結(jié)果的解釋; 掌握多元掌握多元LogisticLogist
2、ic回歸模型的逐步過程法和系數(shù)回歸模型的逐步過程法和系數(shù)的解釋;的解釋; 了解條件了解條件LogisticLogistic回歸的應(yīng)用;回歸的應(yīng)用; 掌握條件掌握條件LogisticLogistic回歸的回歸的SASSAS程序;程序;概述概述 線性回歸模型和廣義線性回歸模型要求因變量是線性回歸模型和廣義線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關(guān)系。當(dāng)因變量是分類型變量時(shí),且自變量與因關(guān)系。當(dāng)因變量是分類型變量時(shí),且自變量與因變量沒有線性關(guān)系時(shí),線性回歸模型的假設(shè)條件變量沒有線性關(guān)系時(shí),線性回歸模型的假設(shè)條件遭到破壞。這時(shí),最好的
3、回歸模型是遭到破壞。這時(shí),最好的回歸模型是LogisticLogistic回回歸模型,它對因變量的分布沒有要求,從數(shù)學(xué)角歸模型,它對因變量的分布沒有要求,從數(shù)學(xué)角度看,度看,LogisticLogistic回歸模型非常巧妙地避開了分類回歸模型非常巧妙地避開了分類型變量的分布問題,補(bǔ)充完善了線性回歸模型和型變量的分布問題,補(bǔ)充完善了線性回歸模型和廣義線性回歸模型的缺陷。從醫(yī)學(xué)研究角度看,廣義線性回歸模型的缺陷。從醫(yī)學(xué)研究角度看,LogisticLogistic回歸模型解決了一大批實(shí)際應(yīng)用問題,回歸模型解決了一大批實(shí)際應(yīng)用問題,對醫(yī)學(xué)的發(fā)展起著舉足輕重的作用。對醫(yī)學(xué)的發(fā)展起著舉足輕重的作用。 非條
4、件非條件LogisticLogistic回歸回歸 LogisticLogistic回歸分析在醫(yī)學(xué)回歸分析在醫(yī)學(xué)研究研究中應(yīng)用廣泛。中應(yīng)用廣泛。目前目前主要是用于流行病學(xué)研究中危險(xiǎn)因素主要是用于流行病學(xué)研究中危險(xiǎn)因素的篩選,但它同時(shí)具有良好的判別和預(yù)測的篩選,但它同時(shí)具有良好的判別和預(yù)測功能,尤其是在資料類型不能滿足功能,尤其是在資料類型不能滿足FisherFisher判別和判別和BayesBayes判別的條件時(shí),更顯示出判別的條件時(shí),更顯示出LogisticLogistic回歸判別的優(yōu)勢和效能。本研究對回歸判別的優(yōu)勢和效能。本研究對LogisticLogistic回歸方程的判別分析進(jìn)行了探討。
5、回歸方程的判別分析進(jìn)行了探討。非條件非條件LogisticLogistic回歸回歸 醫(yī)學(xué)研究中經(jīng)常需要分析分類型變量的問題。比如,生存醫(yī)學(xué)研究中經(jīng)常需要分析分類型變量的問題。比如,生存與死亡、有病與無病、有效與無效、感染與未感染等二分與死亡、有病與無病、有效與無效、感染與未感染等二分類變量。研究者關(guān)心的問題是,哪些因素導(dǎo)致了人群中有類變量。研究者關(guān)心的問題是,哪些因素導(dǎo)致了人群中有些人患某種病而有些人不患某種病,哪些因素導(dǎo)致了某種些人患某種病而有些人不患某種病,哪些因素導(dǎo)致了某種治療方法出現(xiàn)治愈、顯效、好轉(zhuǎn)和無效等不同的效果等。治療方法出現(xiàn)治愈、顯效、好轉(zhuǎn)和無效等不同的效果等。這類問題,實(shí)質(zhì)上
6、是一個(gè)回歸問題,因變量就是上述提到這類問題,實(shí)質(zhì)上是一個(gè)回歸問題,因變量就是上述提到的這些分類型變量,自變量的這些分類型變量,自變量x x是與之有關(guān)的一些因素。但是與之有關(guān)的一些因素。但是,這樣的問題卻不能直接用線性回歸分析方法解決,其是,這樣的問題卻不能直接用線性回歸分析方法解決,其根本原因在于因變量是分類型變量,嚴(yán)重違背了線性回歸根本原因在于因變量是分類型變量,嚴(yán)重違背了線性回歸分析對數(shù)據(jù)的假設(shè)條件。那么應(yīng)該怎樣解決這個(gè)問題呢?分析對數(shù)據(jù)的假設(shè)條件。那么應(yīng)該怎樣解決這個(gè)問題呢?非條件非條件LogisticLogistic回歸回歸 研究者將所研究的問題轉(zhuǎn)換一個(gè)角度,不研究者將所研究的問題轉(zhuǎn)換
7、一個(gè)角度,不是直接分析是直接分析y y與與x x的關(guān)系,而是分析的關(guān)系,而是分析y y取某個(gè)取某個(gè)值的概率值的概率P P與與x x的關(guān)系。例如,令的關(guān)系。例如,令y y為為1 1,0 0變量,變量,y=1y=1表示有病,表示有病,y=0y=0表示未患??;表示未患病;x x是與患病有關(guān)的危險(xiǎn)因素。如果是與患病有關(guān)的危險(xiǎn)因素。如果P P表示患病表示患病的概率,即的概率,即P P=prob=prob(y=1y=1),那么研究患),那么研究患病的概率病的概率P P與危險(xiǎn)因素與危險(xiǎn)因素x x的關(guān)系就不是很困的關(guān)系就不是很困難的事情了。難的事情了。非條件非條件LogisticLogistic回歸回歸 分析
8、因變量分析因變量y y取某個(gè)值的概率取某個(gè)值的概率P P與自變量與自變量x x的關(guān)系,就是尋的關(guān)系,就是尋找一個(gè)連續(xù)函數(shù),使得當(dāng)找一個(gè)連續(xù)函數(shù),使得當(dāng)x x變化時(shí),它對應(yīng)的函數(shù)值變化時(shí),它對應(yīng)的函數(shù)值P P不超不超出出00,11范圍。數(shù)學(xué)上這樣的函數(shù)是存在且不唯一的,范圍。數(shù)學(xué)上這樣的函數(shù)是存在且不唯一的,LogisticLogistic回歸模型就是滿足這種要求的函數(shù)之一。與線性回歸模型就是滿足這種要求的函數(shù)之一。與線性回歸分析相似,回歸分析相似,LogisticLogistic回歸分析的基本原理就是利用一回歸分析的基本原理就是利用一組數(shù)據(jù)擬合一個(gè)組數(shù)據(jù)擬合一個(gè)LogisticLogistic
9、回歸模型,然后借助這個(gè)模型揭回歸模型,然后借助這個(gè)模型揭示總體中若干個(gè)自變量與一個(gè)因變量取某個(gè)值的概率之間示總體中若干個(gè)自變量與一個(gè)因變量取某個(gè)值的概率之間的關(guān)系。具體地說,的關(guān)系。具體地說,LogisticLogistic回歸分析可以從統(tǒng)計(jì)意義上回歸分析可以從統(tǒng)計(jì)意義上估計(jì)出在其它自變量固定不變的情況下,每個(gè)自變量對因估計(jì)出在其它自變量固定不變的情況下,每個(gè)自變量對因變量取某個(gè)值的概率的數(shù)值影響大小。變量取某個(gè)值的概率的數(shù)值影響大小。 LogisticLogistic回歸模型有條件與非條件之分,前者適用于配對回歸模型有條件與非條件之分,前者適用于配對病例對照資料的分析,后者適用于隊(duì)列研究或非
10、配對的病病例對照資料的分析,后者適用于隊(duì)列研究或非配對的病例例- -對照研究成組資料的分析。對照研究成組資料的分析。問題的提出問題的提出 在流行病學(xué)研究中,經(jīng)常遇到因變量為離散型分在流行病學(xué)研究中,經(jīng)常遇到因變量為離散型分類變量的情況。如治療效果的無效好轉(zhuǎn)、顯效、類變量的情況。如治療效果的無效好轉(zhuǎn)、顯效、痊愈;不同染毒劑量下小白鼠的存活或死亡;在痊愈;不同染毒劑量下小白鼠的存活或死亡;在某種暴露下的發(fā)病與不發(fā)病等。最常見的情況是某種暴露下的發(fā)病與不發(fā)病等。最常見的情況是因變量為二分變量的問題。因變量為二分變量的問題。 多元線性回歸的局限性多元線性回歸的局限性 經(jīng)典流行病學(xué)統(tǒng)計(jì)分析方法經(jīng)典流行病
11、學(xué)統(tǒng)計(jì)分析方法分層分析的局限性分層分析的局限性1.1.兩種主要的流行病學(xué)設(shè)計(jì)兩種主要的流行病學(xué)設(shè)計(jì)1 1)病歷對照研究)病歷對照研究2 2)隊(duì)列研究)隊(duì)列研究2.2.判斷結(jié)局(疾?。┖捅┞叮ㄒ蛩兀┞?lián)系強(qiáng)弱的指標(biāo)判斷結(jié)局(疾?。┖捅┞叮ㄒ蛩兀┞?lián)系強(qiáng)弱的指標(biāo)1 1) 相對危險(xiǎn)度:相對危險(xiǎn)度:RR = p1 / p0 RR = p1 / p0 p1: p1: 暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率 p0: p0: 不暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率(對照)不暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率(對照)2 2)比值比:)比值比: OR = P(D=1|E=1)/P(D=0|E=1) /
12、OR = P(D=1|E=1)/P(D=0|E=1) / P(D=1|E=0)/P(D=0|E=0) P(D=1|E=0)/P(D=0|E=0) D=1: D=1: 患某種疾病,患某種疾病, D=0D=0:不患某種疾?。翰换寄撤N疾病 E=1: E=1: 暴露于某個(gè)危險(xiǎn)因素,暴露于某個(gè)危險(xiǎn)因素, E=0: E=0: 不暴露于某個(gè)危險(xiǎn)因素不暴露于某個(gè)危險(xiǎn)因素 可以簡單地表述成:可以簡單地表述成:OR = (p1 / q1) / (p0 / q0) OR = (p1 / q1) / (p0 / q0) p1 : p1 : 暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率 q1 : q1
13、: 暴露于某個(gè)危險(xiǎn)因素下不發(fā)病的概率暴露于某個(gè)危險(xiǎn)因素下不發(fā)病的概率 p0 : p0 : 不暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率不暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率 q0 : q0 : 不暴露于某個(gè)危險(xiǎn)因素下不發(fā)病的概率不暴露于某個(gè)危險(xiǎn)因素下不發(fā)病的概率 能夠描述病因?qū)W意義的指標(biāo)是能夠描述病因?qū)W意義的指標(biāo)是RRRR OROR本身沒有病因?qū)W意義本身沒有病因?qū)W意義 OROR的病因?qū)W意義主要體現(xiàn)在發(fā)病率的病因?qū)W意義主要體現(xiàn)在發(fā)病率/ /患病率比較患病率比較低的情形,此時(shí),低的情形,此時(shí),OROR近似于近似于RRRR OROR值是描述暴露與疾病關(guān)聯(lián)強(qiáng)度的指標(biāo)值是描述暴露與疾病關(guān)聯(lián)強(qiáng)度的指標(biāo)l分層分析中,可以分別
14、計(jì)算出分層后的分層分析中,可以分別計(jì)算出分層后的各層各層OROR值,如果發(fā)現(xiàn)與總的值,如果發(fā)現(xiàn)與總的OROR有較大有較大的差異,則可以認(rèn)為該風(fēng)層因素是混雜的差異,則可以認(rèn)為該風(fēng)層因素是混雜因素。必須對該因素進(jìn)行因素。必須對該因素進(jìn)行MHMH調(diào)整,調(diào)調(diào)整,調(diào)整后的整后的OROR值才能真正反映因素和結(jié)局值才能真正反映因素和結(jié)局間的關(guān)系。間的關(guān)系。l如果當(dāng)分層后各層的如果當(dāng)分層后各層的OROR值經(jīng)過一致性值經(jīng)過一致性檢驗(yàn)發(fā)現(xiàn):各層間的檢驗(yàn)發(fā)現(xiàn):各層間的OROR值有統(tǒng)計(jì)學(xué)差值有統(tǒng)計(jì)學(xué)差異,這時(shí)說明分析因素在分層因素的不異,這時(shí)說明分析因素在分層因素的不同水平上與結(jié)局變量的聯(lián)系強(qiáng)度是不同同水平上與結(jié)局變
15、量的聯(lián)系強(qiáng)度是不同的,這時(shí)分層因素和研究因素存在這交的,這時(shí)分層因素和研究因素存在這交互作用(效應(yīng)修飾作用)。這時(shí)應(yīng)該分互作用(效應(yīng)修飾作用)。這時(shí)應(yīng)該分層報(bào)告層報(bào)告OROR值,而不能計(jì)算調(diào)整值,而不能計(jì)算調(diào)整OROR值。值。l分層分析的局限性分層分析的局限性l只能控制少數(shù)因素(分層因素過多只能控制少數(shù)因素(分層因素過多,每個(gè)格子中的樣本例數(shù)太少),每個(gè)格子中的樣本例數(shù)太少)l定量資料需要分組,信息丟失定量資料需要分組,信息丟失l不能對因素作用大小進(jìn)行定量分析不能對因素作用大小進(jìn)行定量分析(交互作用)(交互作用) 經(jīng)過數(shù)理統(tǒng)計(jì)學(xué)家證明:把疾病概率 P 轉(zhuǎn)換成 pp1ln,會(huì)使該回歸方程的統(tǒng)計(jì)性
16、能更好一些。而且,在經(jīng)過轉(zhuǎn)換以后, pp1ln的值域?yàn)?到+,而且這些 pp1ln值都可以和在大于0小于1范圍內(nèi)的P值相對應(yīng)。統(tǒng)計(jì)學(xué)中,常把 pp1ln稱為 Logit 變換。 yy = logy = log2 2x x01二、二、Logistic Logistic 回歸原理回歸原理Logistic 回回歸歸方方程程: pp1ln = nnxx 110 , 而而且且有有: )()(1101101nnnnxxxxeep Logistic 模型中系數(shù)的意義:模型中系數(shù)的意義: 回歸系數(shù)的流行病學(xué)意義是:在其它自變量都回歸系數(shù)的流行病學(xué)意義是:在其它自變量都不變的條件下,當(dāng)因素不變的條件下,當(dāng)因素X
17、 X變化一個(gè)測量單位時(shí)所引起的變化一個(gè)測量單位時(shí)所引起的OROR值自然對數(shù)的改變量。值自然對數(shù)的改變量。 pp1ln = 11x 111xepp 1XOR= 00111111 XXXXqpqp=001111111.1.xxxxpppp =1111xxee=0111ee = 1e 三、三、Logistic Logistic 回歸和回歸和OROR值間的關(guān)系值間的關(guān)系假設(shè)建立了如下的假設(shè)建立了如下的logisticlogistic回歸方程:回歸方程:Logit P = Logit P = + x + xx x 為二分變量,當(dāng)暴露時(shí),取值為為二分變量,當(dāng)暴露時(shí),取值為1 1; 不暴露時(shí),取值為不暴露時(shí)
18、,取值為0 0。所以所以暴露暴露時(shí)時(shí), ,Logit(PLogit(P1 1) = ) = + + , 比值比值(odds) = exp( + )(odds) = exp( + )所以所以不暴露不暴露時(shí)時(shí), , Logit(PLogit(P0 0) = ) = , 比值比值(odds) = exp()(odds) = exp()則,暴露對于不暴露的比值比則,暴露對于不暴露的比值比(odds ratio)(odds ratio)為:為:OR =OR = exp( + ) / exp() = exp()exp( + ) / exp() = exp()以四格表為例來說明最大似然求解的意義及過程。以四
19、格表為例來說明最大似然求解的意義及過程。四格表的一般表達(dá)形式四格表的一般表達(dá)形式發(fā)病發(fā)病(y=1)(y=1)不發(fā)病不發(fā)病(y=0) (y=0) 暴露暴露(x=1)(x=1)a ab b 不暴露不暴露(x=0)(x=0)c cd d 合計(jì)合計(jì)a+ca+cb+db+d 暴露者發(fā)病概率暴露者發(fā)病概率 p p1 1 = a /(a+b); = a /(a+b); 不暴露者發(fā)病概率不暴露者發(fā)病概率 p p0 0= c/(c+d)= c/(c+d)OR= ad/(bc)OR= ad/(bc)四、四、Logistic Logistic 回歸最大似然建?;貧w最大似然建模用發(fā)病概率來表示四格表,可以得到四格表的
20、另外一種表示形式:用發(fā)病概率來表示四格表,可以得到四格表的另外一種表示形式:四格表的另外一種表達(dá)形式四格表的另外一種表達(dá)形式(1)(1)發(fā)病發(fā)病(y=1)(y=1)不發(fā)病不發(fā)病(y=0) (y=0) 暴露暴露(x=1)(x=1) p p1 1 1- 1- p p1 1 不暴露不暴露(x=0)(x=0) p p0 0 1- 1- p p0 0 暴露者發(fā)病概率暴露者發(fā)病概率: p: p1 1 = exp( = exp( + x)/1+ + x)/1+ exp(exp( + x) + x) 暴露者不發(fā)病概率暴露者不發(fā)病概率: q: q0 0= 1- p= 1- p1 1 = 1/ = 1/ 1+ 1
21、+ exp(exp( + x) + x); ;不暴露者發(fā)病概率不暴露者發(fā)病概率: p: p0 0 = exp( = exp()/1+ )/1+ exp(exp() 不暴露者不發(fā)病概率不暴露者不發(fā)病概率: q: q0 0= 1- p= 1- p0 0 = 1/ = 1/1+ 1+ exp(exp() ; ;用發(fā)病概率來表示四格表,可以得到四格表的另外一種表示形式:用發(fā)病概率來表示四格表,可以得到四格表的另外一種表示形式:四格表的另外一種表達(dá)形式四格表的另外一種表達(dá)形式(2)(2)發(fā)病發(fā)病(y=1)(y=1)不發(fā)病不發(fā)病(y=0)(y=0) 暴露暴露(x=1) e(x=1) e( ( + ) +
22、)/1+ /1+ e e ( ( + ) + ) 1/ 1/ 1+ 1+ e e ( ( + ) + ) 不暴露不暴露(x=0) (x=0) e e /1+ /1+ e e 1/ 1/ 1+ 1+ e e 因?yàn)樗母癖淼乃膫€(gè)實(shí)際數(shù)為因?yàn)樗母癖淼乃膫€(gè)實(shí)際數(shù)為a,b,ca,b,c及及d d, 故可構(gòu)造似然函數(shù)為:故可構(gòu)造似然函數(shù)為:L = L = e e( ( + ) + )/1+ /1+ e e ( ( + ) + ) a a 1/ 1/ 1+ 1+ e e ( ( + ) + ) b be e /1+ /1+ e e c c 1/ 1/ 1+ 1+ e e d d 取對數(shù),有取對數(shù),有Ln (L
23、) = a (Ln (L) = a ( + ) + ) a ln1+e a ln1+e( + )( + ) b ln1+e b ln1+e ( + )( + ) + c + c c ln 1+e c ln 1+e d ln1+e d ln1+e 對以上似然函數(shù)分別求對對以上似然函數(shù)分別求對 和和 的一階偏導(dǎo)數(shù),再令兩個(gè)偏導(dǎo)數(shù)為的一階偏導(dǎo)數(shù),再令兩個(gè)偏導(dǎo)數(shù)為零,就可以解得零,就可以解得 和和 的估計(jì)值。的估計(jì)值。v在經(jīng)典流行病學(xué)分析里對因素的統(tǒng)計(jì)學(xué)意義檢驗(yàn)在經(jīng)典流行病學(xué)分析里對因素的統(tǒng)計(jì)學(xué)意義檢驗(yàn)是檢驗(yàn)是檢驗(yàn)OROR值是否為值是否為1 1v對于對于LogisticLogistic回歸來說,對模型
24、中變量的統(tǒng)計(jì)學(xué)回歸來說,對模型中變量的統(tǒng)計(jì)學(xué)檢驗(yàn)就是對檢驗(yàn)其回歸系數(shù)是否為檢驗(yàn)就是對檢驗(yàn)其回歸系數(shù)是否為0 0v一般常用的方法有三種:似然比檢驗(yàn)、一般常用的方法有三種:似然比檢驗(yàn)、WaldWald檢驗(yàn)檢驗(yàn)、比分檢驗(yàn)、比分檢驗(yàn)五、五、Logistic Logistic 回歸模型的統(tǒng)計(jì)學(xué)回歸模型的統(tǒng)計(jì)學(xué)檢驗(yàn)檢驗(yàn)1 1)似然比檢驗(yàn))似然比檢驗(yàn)似然比檢驗(yàn)的原理是通過分析模型中變量似然比檢驗(yàn)的原理是通過分析模型中變量變化對似然比的影響,來檢驗(yàn)增加變化對似然比的影響,來檢驗(yàn)增加/ /減少的自減少的自變量是否對應(yīng)變量有統(tǒng)計(jì)學(xué)上的顯著意義。變量是否對應(yīng)變量有統(tǒng)計(jì)學(xué)上的顯著意義。 檢驗(yàn)統(tǒng)計(jì)量:檢驗(yàn)統(tǒng)計(jì)量:G =
25、 -2 Ln (LkG = -2 Ln (Lk1) - Ln (Lk) 1) - Ln (Lk) Ln (Lk Ln (Lk1)1)為不包含檢驗(yàn)變量時(shí)模型的對數(shù)為不包含檢驗(yàn)變量時(shí)模型的對數(shù)似然值似然值 Ln (Lk)Ln (Lk)為包含檢驗(yàn)變量時(shí)模型的對數(shù)似然為包含檢驗(yàn)變量時(shí)模型的對數(shù)似然值值v當(dāng)檢驗(yàn)一個(gè)變量時(shí)則當(dāng)檢驗(yàn)一個(gè)變量時(shí)則GG服從自由度為服從自由度為1 1的的 2 2 分分布布v當(dāng)對模型整個(gè)進(jìn)行檢驗(yàn)時(shí)就是相當(dāng)于模型中所當(dāng)對模型整個(gè)進(jìn)行檢驗(yàn)時(shí)就是相當(dāng)于模型中所有有n n個(gè)變量的回歸系數(shù)都為個(gè)變量的回歸系數(shù)都為0 0, GG服從自由度服從自由度為為n n的的 2 2 分布分布2 2)Wal
26、d Wald 統(tǒng)計(jì)量檢驗(yàn)回歸系數(shù)是否為統(tǒng)計(jì)量檢驗(yàn)回歸系數(shù)是否為0 0對于方程內(nèi)單個(gè)自變量的檢驗(yàn),采用對于方程內(nèi)單個(gè)自變量的檢驗(yàn),采用Wald Wald 統(tǒng)計(jì)量。統(tǒng)計(jì)量。W = / SW = / S S S 為為 的標(biāo)準(zhǔn)誤。的標(biāo)準(zhǔn)誤。其臨界值可取標(biāo)準(zhǔn)正態(tài)分布的臨界值。同時(shí),其臨界值可取標(biāo)準(zhǔn)正態(tài)分布的臨界值。同時(shí),WW2 2遵遵循自由度為循自由度為1 1的卡方分布。的卡方分布。 的的9595可信區(qū)間為:可信區(qū)間為: ( 1.961.96 S S , 1.961.96 S S )OROR的的9595可信區(qū)間為:可信區(qū)間為: ( exp( ( exp( 1.961.96 S S ), exp( + 1
27、.96 ), exp( + 1.96 S S ) ) )3 3)比分檢驗(yàn))比分檢驗(yàn) 在原有模型的基礎(chǔ)上增加一個(gè)變量,并假設(shè)該在原有模型的基礎(chǔ)上增加一個(gè)變量,并假設(shè)該變量的回歸系數(shù)為變量的回歸系數(shù)為0 0,似然函數(shù)一階偏導(dǎo)和信息矩陣,似然函數(shù)一階偏導(dǎo)和信息矩陣的乘積為比分檢驗(yàn)統(tǒng)計(jì)量的乘積為比分檢驗(yàn)統(tǒng)計(jì)量S S。S S在樣本量較大時(shí)服從自在樣本量較大時(shí)服從自由度為檢驗(yàn)參數(shù)個(gè)數(shù)的由度為檢驗(yàn)參數(shù)個(gè)數(shù)的 2 2 分布分布l 上述方法中,似然比檢驗(yàn)最可靠,上述方法中,似然比檢驗(yàn)最可靠,WaldWald檢驗(yàn)和比檢驗(yàn)和比分檢驗(yàn)一致。分檢驗(yàn)一致。l WaldWald檢驗(yàn)沒有考慮變量間的相互影響,當(dāng)因素間檢驗(yàn)沒有
28、考慮變量間的相互影響,當(dāng)因素間相關(guān)時(shí)(存在共線性)不可靠相關(guān)時(shí)(存在共線性)不可靠l 參數(shù)的可信區(qū)間是以參數(shù)的可信區(qū)間是以WaldWald法計(jì)算的,在應(yīng)用可信法計(jì)算的,在應(yīng)用可信區(qū)間時(shí)要注意區(qū)間時(shí)要注意 PROC LOGISTICPROC LOGISTIC過程過程 SASSAS系統(tǒng)中進(jìn)行系統(tǒng)中進(jìn)行LogisticLogistic回歸分析的過程步是回歸分析的過程步是PROC LOGISTICPROC LOGISTIC過程。下面我們先了解以下這過程。下面我們先了解以下這個(gè)過程步。個(gè)過程步。LOGISTICLOGISTIC過程的語句基本格式如下過程的語句基本格式如下: PROC LOGISTIC d
29、ata= descending PROC LOGISTIC data= descending simple order= ;simple order= ; Model Model 因變量自變量因變量自變量/link= noint rsq cl /link= noint rsq cl rl selection= sle= sls=;rl selection= sle= sls=; freq freq 頻數(shù)變量頻數(shù)變量; ; output out= pred= output out= pred=變量名;變量名; run;run;PROC LOGISTICPROC LOGISTIC過程過程 DESC
30、ENDINGDESCENDING:指令系統(tǒng)輸出因變量取值由大到小的概:指令系統(tǒng)輸出因變量取值由大到小的概率,缺省時(shí),系統(tǒng)輸出因變量取值由小到大的概率。使用率,缺省時(shí),系統(tǒng)輸出因變量取值由小到大的概率。使用和不使用和不使用DESCENDINGDESCENDING語句的回歸模型的回歸系數(shù)絕對語句的回歸模型的回歸系數(shù)絕對值完全相同,但是符號(hào)完全相反。值完全相同,但是符號(hào)完全相反。 SIMPLESIMPLE:指令系統(tǒng)輸出每一個(gè)自變量的基本統(tǒng)計(jì)量。:指令系統(tǒng)輸出每一個(gè)自變量的基本統(tǒng)計(jì)量。 MODELMODEL:給出模型的因變量和自變量。:給出模型的因變量和自變量。 LINKLINK:指定因變量概率函數(shù)的
31、形式:指定因變量概率函數(shù)的形式 NOINTNOINT:指令模型不含常數(shù)項(xiàng)。:指令模型不含常數(shù)項(xiàng)。 RSQRSQ:指定輸出確定系數(shù)。:指定輸出確定系數(shù)。PROC LOGISTICPROC LOGISTIC過程過程 CLCL:指定輸出參數(shù)估計(jì)值的可信區(qū)間。:指定輸出參數(shù)估計(jì)值的可信區(qū)間。 RLRL:指定輸出相對危險(xiǎn)度(或比數(shù)比)的可信區(qū)間。:指定輸出相對危險(xiǎn)度(或比數(shù)比)的可信區(qū)間。 SELECTIONSELECTION、SLESLE和和SLSSLS:和:和REGREG過程步的對應(yīng)選項(xiàng)一過程步的對應(yīng)選項(xiàng)一樣,用于逐步回歸分析。樣,用于逐步回歸分析。 FREQFREQ:是否使用,取決于數(shù)據(jù)的輸入方法
32、。當(dāng):是否使用,取決于數(shù)據(jù)的輸入方法。當(dāng)x x和和y y變量變量的觀察值被直接輸入到的觀察值被直接輸入到SASSAS數(shù)據(jù)集時(shí),不需要使用數(shù)據(jù)集時(shí),不需要使用FREQFREQ語句。但是,當(dāng)語句。但是,當(dāng)x x是分類型變量,且是分類型變量,且x x和和y y變量的觀察值不變量的觀察值不是直接輸入到是直接輸入到SASSAS數(shù)據(jù)集時(shí),而是將數(shù)據(jù)集時(shí),而是將x x和和y y變量的頻數(shù)輸入變量的頻數(shù)輸入到到SASSAS數(shù)據(jù)集中時(shí),需要使用數(shù)據(jù)集中時(shí),需要使用FREQFREQ語句。語句。 OUTPUTOUTPUT語句:用來保存指定的分析結(jié)果。語句:用來保存指定的分析結(jié)果。OutOut選擇項(xiàng)用選擇項(xiàng)用來給出輸
33、出數(shù)據(jù)集的名字。來給出輸出數(shù)據(jù)集的名字。PredPred選擇項(xiàng)用來給出一個(gè)預(yù)測選擇項(xiàng)用來給出一個(gè)預(yù)測概率的變量名。概率的變量名。例題條件二分類例題條件二分類 某北方城市研究喉癌發(fā)病的危險(xiǎn)因素,用某北方城市研究喉癌發(fā)病的危險(xiǎn)因素,用1 12 2配對的病例配對的病例 對照研究方法進(jìn)行了調(diào)查對照研究方法進(jìn)行了調(diào)查?,F(xiàn)選取了?,F(xiàn)選取了6 6個(gè)可能的危險(xiǎn)因素,試做條件個(gè)可能的危險(xiǎn)因素,試做條件logisticlogistic逐步回歸分析逐步回歸分析 。27)15. 0,10. 0( 出出入入 因素因素變量名變量名賦值說明賦值說明咽炎咽炎X1無無=1,偶爾,偶爾=2,經(jīng)常,經(jīng)常=3吸煙量吸煙量(支支/日日
34、)X20=1,1=2,5=3,10=4,20=5聲嘶史聲嘶史X3無無=1,偶爾,偶爾=2,經(jīng)常,經(jīng)常=3攝食新鮮蔬菜攝食新鮮蔬菜X4少少=1,經(jīng)常,經(jīng)常=2,每天,每天=3攝食水果攝食水果X5很少很少=1,少量,少量=2,經(jīng)常,經(jīng)常=3癌癥家族史癌癥家族史X6無無=0,有,有=1是否患喉癌是否患喉癌對照對照=0,病例,病例=1Y例題例題2 2多個(gè)自變量的二分類多個(gè)自變量的二分類 為了探討冠心病發(fā)生的有關(guān)危險(xiǎn)因素,對為了探討冠心病發(fā)生的有關(guān)危險(xiǎn)因素,對2626例冠心病病人和例冠心病病人和2828例對照者進(jìn)行病例例對照者進(jìn)行病例- -對對照研究,試用照研究,試用logisticlogistic逐步
35、回歸分析方法篩逐步回歸分析方法篩選危險(xiǎn)因素選危險(xiǎn)因素 。28因素變量名賦值說明年齡(歲)X145=1,45=2,55=3,65=4高血壓史X2無=0,有=1高血壓家族史X3無=0,有=1吸煙X4不吸=0,吸=1高血脂史X5無=0,有=1動(dòng)物脂肪攝入X6低=0,高=1體重指數(shù)(BMI)X724=1,24=2,26=3A型性格X8否=0,是=1冠心病Y對照=0,病例=1)15. 0,10. 0( 出出入入 例題例題3 3有序分類有序分類 某研究人員隨機(jī)選擇某研究人員隨機(jī)選擇8484例患某病的病人做例患某病的病人做臨床試驗(yàn),以探討性別和治療方法對該病臨床試驗(yàn),以探討性別和治療方法對該病療效的影響。變
36、量賦值為:性別(療效的影響。變量賦值為:性別( :男:男=0=0,女,女=1=1)、治療方法()、治療方法( :傳統(tǒng)療法:傳統(tǒng)療法=0=0,新,新型療法型療法=1=1)、療效()、療效( :無效:無效=1=1,有效,有效=2=2,痊愈,痊愈=3=3)。請擬合性別、治療方法對療)。請擬合性別、治療方法對療效的有序效的有序logisticlogistic回歸模型?;貧w模型。29例題例題4 4無序多分類無序多分類 某研究人員欲了解不同社區(qū)和性別之間成某研究人員欲了解不同社區(qū)和性別之間成年居民獲取健康知識(shí)途徑是否不同,對年居民獲取健康知識(shí)途徑是否不同,對2 2個(gè)個(gè)社區(qū)的社區(qū)的314314名成人進(jìn)行了調(diào)
37、查,結(jié)果見表名成人進(jìn)行了調(diào)查,結(jié)果見表16-1116-11。變量賦值為:社區(qū)(。變量賦值為:社區(qū)( :社區(qū):社區(qū)1=01=0,社區(qū),社區(qū)2=12=1)、性別()、性別( :男:男=0=0,女,女=1=1)、)、獲取健康知識(shí)途徑(獲取健康知識(shí)途徑( :傳統(tǒng)大眾媒介:傳統(tǒng)大眾媒介=1=1,網(wǎng)絡(luò)網(wǎng)絡(luò)=2=2,社區(qū)宣傳,社區(qū)宣傳=3=3)。請擬合社區(qū)和性)。請擬合社區(qū)和性別對居民獲取健康知識(shí)途徑的多分類別對居民獲取健康知識(shí)途徑的多分類logisticlogistic回歸模型?;貧w模型。30條件條件LogisticLogistic回歸回歸 醫(yī)學(xué)研究中的配對病例對照研究資料可以用條件醫(yī)學(xué)研究中的配對病例對
38、照研究資料可以用條件LogisticLogistic回歸模型來分析。條件回歸模型來分析。條件LogisticLogistic回歸模型回歸模型和非條件和非條件LogisticLogistic回歸模型的區(qū)別在于參數(shù)的估回歸模型的區(qū)別在于參數(shù)的估計(jì)是否用到了條件概率。所謂的配對病例對照研計(jì)是否用到了條件概率。所謂的配對病例對照研究指的是在病例對照研究中,對每一個(gè)病例配以究指的是在病例對照研究中,對每一個(gè)病例配以性別、年齡或其它條件相似的一個(gè)(性別、年齡或其它條件相似的一個(gè)(1 1:1 1)或幾)或幾個(gè)(個(gè)(1 1:MM)對照,然后分析比較病例組與對照組)對照,然后分析比較病例組與對照組以往暴露于致病
39、因素的經(jīng)歷。分析配對病例對照以往暴露于致病因素的經(jīng)歷。分析配對病例對照研究資料所用的條件研究資料所用的條件LogisticLogistic回歸模型中參數(shù)的回歸模型中參數(shù)的估計(jì)方法也是采用最大似然估計(jì)法,參數(shù)和模型估計(jì)方法也是采用最大似然估計(jì)法,參數(shù)和模型的檢驗(yàn)方法和非條件的檢驗(yàn)方法和非條件LogisticLogistic回歸模型也一樣?;貧w模型也一樣。條件條件LogisticLogistic回歸的回歸的SASSAS程序程序 用于條件用于條件LogisticLogistic回歸分析的過程步一般借用生回歸分析的過程步一般借用生存數(shù)據(jù)風(fēng)險(xiǎn)回歸分析的存數(shù)據(jù)風(fēng)險(xiǎn)回歸分析的PHREGPHREG過程步。實(shí)用
40、過程步。實(shí)用PHREGPHREG過程步時(shí)要注意數(shù)據(jù)的輸入方法和過程過程步時(shí)要注意數(shù)據(jù)的輸入方法和過程步語句的寫法。步語句的寫法。PHREGPHREG過程步的一般格式如下:過程步的一般格式如下: Proc phreg data= ;Proc phreg data= ; Model Model 因變量因變量* *截尾變量截尾變量= =協(xié)變量協(xié)變量/ / ties=risklimits selection= sle= sls details;ties=risklimits selection= sle= sls details; Strata Strata 分組變量分組變量; ; Run; Run;
41、條件條件LogisticLogistic回歸的回歸的SASSAS程序程序 MODELMODEL語句:用于指定模型的結(jié)構(gòu),適用于生語句:用于指定模型的結(jié)構(gòu),適用于生存時(shí)間有右截尾的情況,且生存時(shí)間變量作為模存時(shí)間有右截尾的情況,且生存時(shí)間變量作為模型的因變量,協(xié)變量作為模型的自變量。型的因變量,協(xié)變量作為模型的自變量。 TIESTIES:用來選擇處理生存時(shí)間結(jié)點(diǎn)的方法,每一:用來選擇處理生存時(shí)間結(jié)點(diǎn)的方法,每一種方法使用了不同的公式來計(jì)算最大似然值。種方法使用了不同的公式來計(jì)算最大似然值。 RISKLIMITSRISKLIMITS:指令輸出危險(xiǎn)比的:指令輸出危險(xiǎn)比的9595置信區(qū)間置信區(qū)間,供選擇的有:,供選擇的有:backwardbackward、forwardforward、stepwisestepwise、scorescore。條件條件LogisticLogistic回歸的回歸的SASSAS程序程序 SLESLE:指定協(xié)變量進(jìn)入模型的顯著水平,缺省值:指定協(xié)變量進(jìn)入模型的顯著水平,缺省值是是0.050.05。 SLSSLS:指定協(xié)變量停留在模型中的顯著水平,缺:指定協(xié)變量停留在模型中的顯著水平,缺省值是省值是0.050.05。 DETAILSDETAILS:指令輸出逐步回歸過程中每一步的詳:指令輸出逐步回歸過程中每一步
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)領(lǐng)域節(jié)能減排策略與措施
- 人教版英語八年級(jí)下作文創(chuàng)意激發(fā)策略
- 智能家居安裝質(zhì)量檢測措施
- 2025年中國單級(jí)水環(huán)式真空泵行業(yè)市場前景預(yù)測及投資價(jià)值評(píng)估分析報(bào)告
- 2025年種植業(yè)市場調(diào)查報(bào)告
- 2025年中國球磨機(jī)市場競爭戰(zhàn)略研究及投資前景預(yù)測報(bào)告
- 2025年中國全自動(dòng)水質(zhì)分析儀行業(yè)市場前景預(yù)測及投資價(jià)值評(píng)估分析報(bào)告
- 2025年造紙用表面施膠劑3000噸項(xiàng)目環(huán)境影響報(bào)告表環(huán)評(píng)報(bào)告
- 杭州視窗防護(hù)玻璃項(xiàng)目商業(yè)計(jì)劃書
- 民謠全封閉準(zhǔn)行業(yè)深度研究分析報(bào)告(2024-2030版)
- 2025年證券從業(yè)資格證考試題庫試題及答案
- 樓梯 欄桿 欄板(一)22J403-1
- 微觀經(jīng)濟(jì)學(xué)(山東大學(xué))知到智慧樹章節(jié)測試課后答案2024年秋山東大學(xué)
- 15D502 等電位聯(lián)結(jié)安裝
- 國外幾家氣壓盤式制動(dòng)器的比較
- GB/T 20647.9-2006社區(qū)服務(wù)指南第9部分:物業(yè)服務(wù)
- 培養(yǎng)初中學(xué)生的數(shù)學(xué)閱讀理解能力
- 卒中相關(guān)肺炎的指南解讀
- 六下統(tǒng)編版復(fù)習(xí)2形近字
- 硒知識(shí)科普手冊
- 新版冀教版科學(xué)四年級(jí)下冊全冊教案(雙面打印)
評(píng)論
0/150
提交評(píng)論